Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf ·...
-
Upload
vuongkhuong -
Category
Documents
-
view
221 -
download
0
Transcript of Banche dati di sequenze biologiche: interrogazione ebiochimica.unipr.it/biocomp/banchedati.pdf ·...
Riccardo Percudani 010109 File banchedatiodp
Banche dati di sequenze biologiche
interrogazione ericerca di omologia
Riccardo Percudani 010109 File banchedatiodp
Raccolte di dati biologici
Libri - 1960 Margaret Dayhoff collezione di proteine (NBRF)
Cd-rom
Floppydisk
- 1977 PDB Strutture di macromolecole
- 1980 EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici
- 1991 EST (Expressed Sequence Tags)
WWW
Internet- 1996 Genomi
- 1998 Trascrittomi
Oggi migliaia di collezioni funzioni famiglie di proteine motivi vie metaboliche
Riccardo Percudani 010109 File banchedatiodp
Definizione di banca dati
una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati
Data bank (Banca dati)
Database (Base di dati)
Collezione di dati
Collezione di dati + software per accedervi
Riccardo Percudani 010109 File banchedatiodp
Struttura delle banche datiStruttura delle banche dati
Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)
Riccardo Percudani 010109 File banchedatiodp
Banche dati biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici Release e aggiornamenti
Genetic Sequence Data Bank
October 15 2001
NCBI-GenBank Flat File Release 1260
Distribution Release Notes
13602262 loci 14396883064 bases from 13602262 reported sequences
This document describes the format and content of the flat files that
comprise releases of the GenBank database If you have any questions or
comments about GenBank or this document please contact NCBI via email
at infoncbinlmnihgov or
Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data
+
Aggiornamenti quotidianiEs GenBank_new EMBL_new
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura
Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)
Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza
bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata
bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore
Riccardo Percudani 010109 File banchedatiodp
Incremento dei dati di sequenza Vs diminuizione dei costi
Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici quantitagrave di informazioneEntries Bases Species
5074650 7915783043 Homo sapiens
3282738 1982497435 Mus musculus
309512 615314337 Drosophila melanogaster
277024 342250586 Rattus norvegicus
196531 292339256 Oryza sativa
194296 258809578 Arabidopsis thaliana
140700 187274610 Caenorhabditis elegans
189005 165547824 Tetraodon nigroviridis
198152 95024632 Bos taurus
204698 92361300 Glycine max
156413 89308950 Danio rerio
155185 80380251 Lycopersicon esculentum
140798 72431327 Medicago truncatula
80582 72089785 Entamoeba histolytica
121918 60487285 Xenopus laevis
102233 58906089 Chlamydomonas reinhardtii
124150 57745385 Zea mays
86956 54526352 Strongylocentrotus purpuratus
104222 54130240 Sus scrofa
91420 53130188 Trypanosoma brucei
httpwwwncbinlmnihgovGenbankgenbankstatshtml
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Raccolte di dati biologici
Libri - 1960 Margaret Dayhoff collezione di proteine (NBRF)
Cd-rom
Floppydisk
- 1977 PDB Strutture di macromolecole
- 1980 EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici
- 1991 EST (Expressed Sequence Tags)
WWW
Internet- 1996 Genomi
- 1998 Trascrittomi
Oggi migliaia di collezioni funzioni famiglie di proteine motivi vie metaboliche
Riccardo Percudani 010109 File banchedatiodp
Definizione di banca dati
una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati
Data bank (Banca dati)
Database (Base di dati)
Collezione di dati
Collezione di dati + software per accedervi
Riccardo Percudani 010109 File banchedatiodp
Struttura delle banche datiStruttura delle banche dati
Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)
Riccardo Percudani 010109 File banchedatiodp
Banche dati biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici Release e aggiornamenti
Genetic Sequence Data Bank
October 15 2001
NCBI-GenBank Flat File Release 1260
Distribution Release Notes
13602262 loci 14396883064 bases from 13602262 reported sequences
This document describes the format and content of the flat files that
comprise releases of the GenBank database If you have any questions or
comments about GenBank or this document please contact NCBI via email
at infoncbinlmnihgov or
Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data
+
Aggiornamenti quotidianiEs GenBank_new EMBL_new
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura
Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)
Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza
bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata
bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore
Riccardo Percudani 010109 File banchedatiodp
Incremento dei dati di sequenza Vs diminuizione dei costi
Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici quantitagrave di informazioneEntries Bases Species
5074650 7915783043 Homo sapiens
3282738 1982497435 Mus musculus
309512 615314337 Drosophila melanogaster
277024 342250586 Rattus norvegicus
196531 292339256 Oryza sativa
194296 258809578 Arabidopsis thaliana
140700 187274610 Caenorhabditis elegans
189005 165547824 Tetraodon nigroviridis
198152 95024632 Bos taurus
204698 92361300 Glycine max
156413 89308950 Danio rerio
155185 80380251 Lycopersicon esculentum
140798 72431327 Medicago truncatula
80582 72089785 Entamoeba histolytica
121918 60487285 Xenopus laevis
102233 58906089 Chlamydomonas reinhardtii
124150 57745385 Zea mays
86956 54526352 Strongylocentrotus purpuratus
104222 54130240 Sus scrofa
91420 53130188 Trypanosoma brucei
httpwwwncbinlmnihgovGenbankgenbankstatshtml
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Definizione di banca dati
una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati
Data bank (Banca dati)
Database (Base di dati)
Collezione di dati
Collezione di dati + software per accedervi
Riccardo Percudani 010109 File banchedatiodp
Struttura delle banche datiStruttura delle banche dati
Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)
Riccardo Percudani 010109 File banchedatiodp
Banche dati biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici Release e aggiornamenti
Genetic Sequence Data Bank
October 15 2001
NCBI-GenBank Flat File Release 1260
Distribution Release Notes
13602262 loci 14396883064 bases from 13602262 reported sequences
This document describes the format and content of the flat files that
comprise releases of the GenBank database If you have any questions or
comments about GenBank or this document please contact NCBI via email
at infoncbinlmnihgov or
Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data
+
Aggiornamenti quotidianiEs GenBank_new EMBL_new
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura
Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)
Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza
bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata
bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore
Riccardo Percudani 010109 File banchedatiodp
Incremento dei dati di sequenza Vs diminuizione dei costi
Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici quantitagrave di informazioneEntries Bases Species
5074650 7915783043 Homo sapiens
3282738 1982497435 Mus musculus
309512 615314337 Drosophila melanogaster
277024 342250586 Rattus norvegicus
196531 292339256 Oryza sativa
194296 258809578 Arabidopsis thaliana
140700 187274610 Caenorhabditis elegans
189005 165547824 Tetraodon nigroviridis
198152 95024632 Bos taurus
204698 92361300 Glycine max
156413 89308950 Danio rerio
155185 80380251 Lycopersicon esculentum
140798 72431327 Medicago truncatula
80582 72089785 Entamoeba histolytica
121918 60487285 Xenopus laevis
102233 58906089 Chlamydomonas reinhardtii
124150 57745385 Zea mays
86956 54526352 Strongylocentrotus purpuratus
104222 54130240 Sus scrofa
91420 53130188 Trypanosoma brucei
httpwwwncbinlmnihgovGenbankgenbankstatshtml
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Struttura delle banche datiStruttura delle banche dati
Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)
Riccardo Percudani 010109 File banchedatiodp
Banche dati biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici Release e aggiornamenti
Genetic Sequence Data Bank
October 15 2001
NCBI-GenBank Flat File Release 1260
Distribution Release Notes
13602262 loci 14396883064 bases from 13602262 reported sequences
This document describes the format and content of the flat files that
comprise releases of the GenBank database If you have any questions or
comments about GenBank or this document please contact NCBI via email
at infoncbinlmnihgov or
Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data
+
Aggiornamenti quotidianiEs GenBank_new EMBL_new
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura
Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)
Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza
bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata
bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore
Riccardo Percudani 010109 File banchedatiodp
Incremento dei dati di sequenza Vs diminuizione dei costi
Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici quantitagrave di informazioneEntries Bases Species
5074650 7915783043 Homo sapiens
3282738 1982497435 Mus musculus
309512 615314337 Drosophila melanogaster
277024 342250586 Rattus norvegicus
196531 292339256 Oryza sativa
194296 258809578 Arabidopsis thaliana
140700 187274610 Caenorhabditis elegans
189005 165547824 Tetraodon nigroviridis
198152 95024632 Bos taurus
204698 92361300 Glycine max
156413 89308950 Danio rerio
155185 80380251 Lycopersicon esculentum
140798 72431327 Medicago truncatula
80582 72089785 Entamoeba histolytica
121918 60487285 Xenopus laevis
102233 58906089 Chlamydomonas reinhardtii
124150 57745385 Zea mays
86956 54526352 Strongylocentrotus purpuratus
104222 54130240 Sus scrofa
91420 53130188 Trypanosoma brucei
httpwwwncbinlmnihgovGenbankgenbankstatshtml
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Banche dati biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici Release e aggiornamenti
Genetic Sequence Data Bank
October 15 2001
NCBI-GenBank Flat File Release 1260
Distribution Release Notes
13602262 loci 14396883064 bases from 13602262 reported sequences
This document describes the format and content of the flat files that
comprise releases of the GenBank database If you have any questions or
comments about GenBank or this document please contact NCBI via email
at infoncbinlmnihgov or
Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data
+
Aggiornamenti quotidianiEs GenBank_new EMBL_new
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura
Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)
Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza
bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata
bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore
Riccardo Percudani 010109 File banchedatiodp
Incremento dei dati di sequenza Vs diminuizione dei costi
Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici quantitagrave di informazioneEntries Bases Species
5074650 7915783043 Homo sapiens
3282738 1982497435 Mus musculus
309512 615314337 Drosophila melanogaster
277024 342250586 Rattus norvegicus
196531 292339256 Oryza sativa
194296 258809578 Arabidopsis thaliana
140700 187274610 Caenorhabditis elegans
189005 165547824 Tetraodon nigroviridis
198152 95024632 Bos taurus
204698 92361300 Glycine max
156413 89308950 Danio rerio
155185 80380251 Lycopersicon esculentum
140798 72431327 Medicago truncatula
80582 72089785 Entamoeba histolytica
121918 60487285 Xenopus laevis
102233 58906089 Chlamydomonas reinhardtii
124150 57745385 Zea mays
86956 54526352 Strongylocentrotus purpuratus
104222 54130240 Sus scrofa
91420 53130188 Trypanosoma brucei
httpwwwncbinlmnihgovGenbankgenbankstatshtml
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici Release e aggiornamenti
Genetic Sequence Data Bank
October 15 2001
NCBI-GenBank Flat File Release 1260
Distribution Release Notes
13602262 loci 14396883064 bases from 13602262 reported sequences
This document describes the format and content of the flat files that
comprise releases of the GenBank database If you have any questions or
comments about GenBank or this document please contact NCBI via email
at infoncbinlmnihgov or
Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data
+
Aggiornamenti quotidianiEs GenBank_new EMBL_new
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura
Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)
Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza
bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata
bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore
Riccardo Percudani 010109 File banchedatiodp
Incremento dei dati di sequenza Vs diminuizione dei costi
Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici quantitagrave di informazioneEntries Bases Species
5074650 7915783043 Homo sapiens
3282738 1982497435 Mus musculus
309512 615314337 Drosophila melanogaster
277024 342250586 Rattus norvegicus
196531 292339256 Oryza sativa
194296 258809578 Arabidopsis thaliana
140700 187274610 Caenorhabditis elegans
189005 165547824 Tetraodon nigroviridis
198152 95024632 Bos taurus
204698 92361300 Glycine max
156413 89308950 Danio rerio
155185 80380251 Lycopersicon esculentum
140798 72431327 Medicago truncatula
80582 72089785 Entamoeba histolytica
121918 60487285 Xenopus laevis
102233 58906089 Chlamydomonas reinhardtii
124150 57745385 Zea mays
86956 54526352 Strongylocentrotus purpuratus
104222 54130240 Sus scrofa
91420 53130188 Trypanosoma brucei
httpwwwncbinlmnihgovGenbankgenbankstatshtml
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici Release e aggiornamenti
Genetic Sequence Data Bank
October 15 2001
NCBI-GenBank Flat File Release 1260
Distribution Release Notes
13602262 loci 14396883064 bases from 13602262 reported sequences
This document describes the format and content of the flat files that
comprise releases of the GenBank database If you have any questions or
comments about GenBank or this document please contact NCBI via email
at infoncbinlmnihgov or
Una Release in cui la banca dati viene ldquocongelatardquo ad una certa data
+
Aggiornamenti quotidianiEs GenBank_new EMBL_new
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura
Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)
Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza
bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata
bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore
Riccardo Percudani 010109 File banchedatiodp
Incremento dei dati di sequenza Vs diminuizione dei costi
Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici quantitagrave di informazioneEntries Bases Species
5074650 7915783043 Homo sapiens
3282738 1982497435 Mus musculus
309512 615314337 Drosophila melanogaster
277024 342250586 Rattus norvegicus
196531 292339256 Oryza sativa
194296 258809578 Arabidopsis thaliana
140700 187274610 Caenorhabditis elegans
189005 165547824 Tetraodon nigroviridis
198152 95024632 Bos taurus
204698 92361300 Glycine max
156413 89308950 Danio rerio
155185 80380251 Lycopersicon esculentum
140798 72431327 Medicago truncatula
80582 72089785 Entamoeba histolytica
121918 60487285 Xenopus laevis
102233 58906089 Chlamydomonas reinhardtii
124150 57745385 Zea mays
86956 54526352 Strongylocentrotus purpuratus
104222 54130240 Sus scrofa
91420 53130188 Trypanosoma brucei
httpwwwncbinlmnihgovGenbankgenbankstatshtml
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici raccolta informazioniInizialmente informazioni prese dalla letteratura
Ora sottomesse direttamente dagli autori La sottomissione della sequenza alle banche dati egrave condizione essenziale per pubblicare sulle principali riviste I dati sono di solito ldquosegretatirdquo fino alla pubblicazione (entries hold until published)
Lrsquoautore ha il controllo completo della sequenza sottomessa di conseguenza
bull solo lrsquoautore puograve modificare lrsquoinformazione del proprio record altri non possono correggere lrsquoinformazione presente anche se questa egrave chiaramente errata
bull la possibilitagrave di trovare informazioni dipende da quanto accuratamente egrave stata descritta dallrsquoautore
Riccardo Percudani 010109 File banchedatiodp
Incremento dei dati di sequenza Vs diminuizione dei costi
Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici quantitagrave di informazioneEntries Bases Species
5074650 7915783043 Homo sapiens
3282738 1982497435 Mus musculus
309512 615314337 Drosophila melanogaster
277024 342250586 Rattus norvegicus
196531 292339256 Oryza sativa
194296 258809578 Arabidopsis thaliana
140700 187274610 Caenorhabditis elegans
189005 165547824 Tetraodon nigroviridis
198152 95024632 Bos taurus
204698 92361300 Glycine max
156413 89308950 Danio rerio
155185 80380251 Lycopersicon esculentum
140798 72431327 Medicago truncatula
80582 72089785 Entamoeba histolytica
121918 60487285 Xenopus laevis
102233 58906089 Chlamydomonas reinhardtii
124150 57745385 Zea mays
86956 54526352 Strongylocentrotus purpuratus
104222 54130240 Sus scrofa
91420 53130188 Trypanosoma brucei
httpwwwncbinlmnihgovGenbankgenbankstatshtml
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Incremento dei dati di sequenza Vs diminuizione dei costi
Sequencing costs have dropped several orders of magnitude from $10 per finished base in 1990 to todays cost which are estimated at about 5 or 6 cents per base for finished sequence and about 2 to 4 cents for draft sequence The Scientist 17 2003
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici quantitagrave di informazioneEntries Bases Species
5074650 7915783043 Homo sapiens
3282738 1982497435 Mus musculus
309512 615314337 Drosophila melanogaster
277024 342250586 Rattus norvegicus
196531 292339256 Oryza sativa
194296 258809578 Arabidopsis thaliana
140700 187274610 Caenorhabditis elegans
189005 165547824 Tetraodon nigroviridis
198152 95024632 Bos taurus
204698 92361300 Glycine max
156413 89308950 Danio rerio
155185 80380251 Lycopersicon esculentum
140798 72431327 Medicago truncatula
80582 72089785 Entamoeba histolytica
121918 60487285 Xenopus laevis
102233 58906089 Chlamydomonas reinhardtii
124150 57745385 Zea mays
86956 54526352 Strongylocentrotus purpuratus
104222 54130240 Sus scrofa
91420 53130188 Trypanosoma brucei
httpwwwncbinlmnihgovGenbankgenbankstatshtml
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Acidi nucleici quantitagrave di informazioneEntries Bases Species
5074650 7915783043 Homo sapiens
3282738 1982497435 Mus musculus
309512 615314337 Drosophila melanogaster
277024 342250586 Rattus norvegicus
196531 292339256 Oryza sativa
194296 258809578 Arabidopsis thaliana
140700 187274610 Caenorhabditis elegans
189005 165547824 Tetraodon nigroviridis
198152 95024632 Bos taurus
204698 92361300 Glycine max
156413 89308950 Danio rerio
155185 80380251 Lycopersicon esculentum
140798 72431327 Medicago truncatula
80582 72089785 Entamoeba histolytica
121918 60487285 Xenopus laevis
102233 58906089 Chlamydomonas reinhardtii
124150 57745385 Zea mays
86956 54526352 Strongylocentrotus purpuratus
104222 54130240 Sus scrofa
91420 53130188 Trypanosoma brucei
httpwwwncbinlmnihgovGenbankgenbankstatshtml
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento automatico e a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono quindi alle porzioni 5 e 3 terminali del gene
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
EST quantitagrave di informazione
dbEST release 102601
Summary by Organism - October 26 2001
-------------------------------------------------
Number of public entries 9372718
Homo sapiens (human) 3859807
Mus musculus + domesticus (mouse) 2328188
Rattus sp (rat) 317076
Drosophila melanogaster (fruit fly) 255456
Glycine max (soybean) 208186
Bos taurus (cattle) 193313
Danio rerio (zebrafish) 155077
Lycopersicon esculentum (tomato) 141687
Medicago truncatula (barrel medic) 137588
Caenorhabditis elegans (nematode) 135203
Xenopus laevis (African clawed frog) 118996
Arabidopsis thaliana (thale cress) 113330
Chlamydomonas reinhardtii 111958
Zea mays (maize) 108392
Poco piugrave del 50 dei geni umani sequenziati dal genoma ha un corrispondente nelle EST
Le EST rappresentano principalmente il 3 (65) o il 5 (26) dei trascritti Solo nell11 dei casi le EST unite costituiscono la sequenza completa di un trascritto
Molte EST sono prodotte da company biotech e disponibili a pagamento Incyte Genomics ha un database privato di 6 milioni di EST e brevetti su diverse migliaia di sequenze
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
EST IMAGE consortiumFEATURES LocationQualifiers
source 1355
organism=Homo sapiens
db_xref=taxon9606
clone=IMAGE69864
Se il clone da cui deriva la EST appartiene al consorzio IMAGE egrave possibile ottenerlo ~ gratuitamente da vari distributori
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Banche dati primarie proteineDue consorzi che non scambiano informazioni
SwissProt (europea) PIR (americana)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA di solito annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBLGenPep (GenBank cds)TREMBL(EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Proteine quantitagrave di informazione
--------- -------------------------------------------- Frequency Species--------- -------------------------------------------- 20258 Homo sapiens (Human) 16320 Mus musculus (Mouse) 9454 Arabidopsis thaliana 7550 Rattus norvegicus (Rat) 6579 Saccharomyces cerevisiae 5792 Bos taurus (Bovine) 4976 Schizosaccharomyces pombe 4429 Escherichia coli 4254 Bacillus subtilis 4253 Dictyostelium discoideum 3306 Caenorhabditis elegans 3273 Xenopus laevis 3090 Drosophila melanogaster 2683 Danio rerio (Zebrafish) 2547 Oryza sativa subsp japonica 2210 Pongo abelii (Sumatran orangutan) 2179 Gallus gallus (Chicken)
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Formato del record Flat File format
ldquoheaderrdquo testo con le informazioni (ldquoannotazionirdquo) sulla sequenza
Sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
GenBankDDBJ entry
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
DDBJEMBLGenBank Feature table
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC
httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
SwissProt entry (continua)
DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Porzioni ldquoordinaterdquo di GenBank
Unigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
Entrez GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Unigene informazioni sui trascritti
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) EST gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
3 Errori e stranezze
ldquotransciptionrdquo 26sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)bull SRS (Sequence Retrieval System)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione EntrezGruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Sistemi di interrogazione SRSSRS (Sequence Retrieval System) egrave un sistema creato allrsquoEMBL per interrogare simultaneamente diverse banche dati attraverso un interfaccia comune
Vi sono diversi server SRS pubblici ciascuno con un particolare subset di banche dati disponibili
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Getz)
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Banche dati genomiche whitehead
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Museo del genoma
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Ricerca in banca datiRicerca in banca datigtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtEEEEEcggctcggatcgggatttgagtctagccgctaggctagcc
gtDDDDacgctaaaaggctagcatcgggga
gtAAAAacgctaggctagctggatcggggatcggat
1deg
ndeg
2deggtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +1021 1 1 1 1 14
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V LVDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
FASTA (schema)FASTA (schema)
bullRappresenta la query sequence e le sequenze nella banca dati con una tabella di parole (Lookup table) La lunghezza della parola egrave definita dal valore ktuple
bullConfronta le posizioni delle parole e identifica le regioni di match (diagonali) Le migliori diagonali sono estese per trovare i match piugrave lunghi senza gap
bullI segmenti diagonali migliori vengono uniti con gap (se il punteggio complessivo egrave migliore tenendo conto della penalitagrave per i gap)
bullLa migliore regione viene riallineata con programmazione dinamica limitando lrsquoallineamento a una banda della matrice
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATAAGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dal parametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagraveWT
sensibilitagravesensibilitagrave
velocitagraveWT
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le nuove versioni (gapped-BLAST) producono allineamenti con gap
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Calcolo della probabilitagrave casuali di un allineamento
La funzione di probabilitagrave degli score casuali in un allineamento segue la distribuzione dei valori estremi (EVD)
Dove E (Expect) egrave in numero di segmenti attesi raggiungere un certo score per effetto del caso
P S x = 1 minus eminusEla probabilitagrave di ottenere per caso almeno un segmento con score Sgtx egrave uguale a
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Calcolo del numero di segmenti attesi (E)
SKmneE λminus=
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e λ dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati sulla distribuzione dei punteggi della banca dati
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
FASTA Output FASTA Output lt 20 2770 0=== 22 3 0= one = represents 1345 library sequences 24 16 1 26 62 17 28 376 178 30 1484 1084= 32 4614 4192=== 34 13754 11369========== 36 23411 23349================= 38 39159 38587============================= 40 56111 53825========================================= 42 70165 65795==================================================== 44 80673 72578=========================================================== 46 78762 73923========================================================== 48 72314 70772===================================================== 50 63901 64580================================================ 52 54332 56777=========================================
98 284 241========================= 100 268 186======================== 102 214 144=================== 104 171 112=============== 106 128 86=========== 108 91 67======== 110 91 52======== 112 84 40======= 114 81 31======= 116 61 24===== 118 52 19====gt120 498 14=======================================
250424712 residues in 787946 sequences statistics extrapolated from 60000 to 786965 sequences Expectation_n fit rho(ln(x))= 58609+-0000139 mu= 67390+- 0007 mean_var=886622+-16334 0s 530 Z-trim 573 B-trim 974 in 262 Lambda= 01362 Kolmogorov-Smirnov statistic 00321 (N=29) at 48
Statistiche ottenute dai punteggi con la banca dati Fitting sulla EVD per determinare i valori dei parametri λ e k
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
FASTA output 2FASTA output 2
The best scores are opt bits E(787946)gi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein ( 246) 1581 320 27e-86 gi|65265|emb|CAA425231| (X59863) a xenopus upstream binding factor ( 701) 196 48 000053 gi|104205|pir||S17196 transcription factor UBF2 - African clawed fro ( 701) 196 48 000053 gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACTOR 2 (UPS ( 701) 196 48 000053 gi|729731|sp|P40626|HMGB_TETTH HIGH-MOBILITY-GROUP PROTEIN B gi|1023 ( 143) 180 44 00013 gi|7492240|pir||T38936 non-histone chromosomal protein high mobility ( 108) 176 43 00018 gi|1079088|pir||S47596 HMG1-like protein - fruit fly (Drosophila mel ( 216) 180 44 00018 gi|1174454|sp|P41848|SSRP_CAEEL PROBABLE STRUCTURE-SPECIFIC RECOGNIT ( 697) 186 46 0002 gi|15218011|ref|NP_1734921| high mobility group protein (HMG1) put ( 502) 184 45 00021
gi|2137073|pir||JC5112 ribosomal transcription factor UBF1 - Chinese ( 764) 176 44 00086 gi|1045008|gb|AAB384181| (L42570) putative [Cricetulus griseus] ( 764) 176 44 00086 gi|85591|pir||A24019 nonhistone chromosomal protein HMG-T - trout (f ( 172) 167 42 00089 gi|12836542|dbj|BAB237011| (AK004961) putative [Mus musculus] ( 752) 175 44 00097 gi|112465|pir||B40439 UBF transcription factor short form - rat ( 727) 174 44 0011 gi|14772527|ref|XP_0083652| hypothetical protein XP_008365 [Homo sa ( 727) 174 44 0011 gi|14754719|ref|XP_0479461| high-mobility group 20A [Homo sapiens] ( 313) 167 42 0014 gi|730842|sp|Q04931|SSRP_RAT STRUCTURE-SPECIFIC RECOGNITION PROTEIN ( 561) 170 43 0015 gi|15022805|ref|NP_0800881| high mobility group 20A [Mus musculus] ( 346) 167 42 0016
gtgtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p (246 aa) 10 20 30 40 50 60 70 80QUERY MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI gi|632 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQTLTSGVNHLHGISSELVNPI 10 20 30 40 50 60 70 80
score significativitagravescoreLista
Allineamenti
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
BLAST Output 2BLAST Output 2Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H 0308 0127 0355 GappedLambda K H 0267 00410 0140
Matrix BLOSUM62Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di λ e k pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come ldquorawrdquo score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Regioni a bassa complessitagraveLe regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Output grafico di blastOutput grafico di blast
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Significativitagrave e dimensioni delle bancadati
La significativitagrave dei punteggi di somiglianza decresce al crescere delle dimensioni della banca dati
bull Il punteggio del confronto tra due sequenze egrave costante
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero nelle sequenze non omologhe gtgt di quelle omologhe
bull Ersquo necessaria una sensibilitagrave sempre maggiore per identificare le sequenze omologhe
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
P r o g r a m m a Q u e r yB a n c a d a t iT ip o d i c o n fr o n to
B L A S TF A S T A
b la s tn fa s ta 3 n u c n u c n u c n u c
b la s tp fa s ta 3 a a a a a a a a
b la s tx fa s tx 3 fa s ty 3 n u c a a a a a a
tb la s tn tfa s tx3 tfa s ty 3 a a n u c a a a a
tb la s tx n u c n u c a a a a
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
100
100Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Accuratezza dei metodi di ricerca
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA gt BLAST
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 010109 File banchedatiodp
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni