Banche dati di sequenze biologiche: Organizzazione e ...
Transcript of Banche dati di sequenze biologiche: Organizzazione e ...
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati di sequenze biologiche
Organizzazione eInterrogazione
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Raccolte di dati biologici
Libri - 1960 Margaret Dayhoff collezione di proteine (NBRF)
Cdshyrom
Floppydisk
- 1977 PDB Strutture di macromolecole
- 1980 EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici
- 1991 EST (Expressed Sequence Tags)
WWW
Internet- 1996 Genomi
- 1998 Trascrittomi
Oggi migliaia di collezioni funzioni famiglie di proteine motivi vie metaboliche
Banche dati biologiche Persistenza aggiornamento accuratezza
Banche dati biologiche Persistenza aggiornamento accuratezza
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Definizione di banca dati
una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati
Data bank (Banca dati)
Database (Base di dati)
Collezione di dati
Collezione di dati + software per accedervi
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Struttura delle banche datiStruttura delle banche dati
Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati di macromolecole biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data
Aggiornamenti quotidianiEs GenBank_new EMBL_new
RELEASE NOTE Genetic Sequence Data BankAugust 15 2018
NCBI-GenBank Flat File Release 2270
Distribution Release Notes
260806936411 bases 208831050 reported sequences
+
Acidi nucleici quantitagrave di informazione
1012 basi (tera)
1015 basi (peta)
(whole genome sequences)
109 basi (giga)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Diminuizione esponenziale dei costi di sequenziamento
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Raccolte di dati biologici
Libri - 1960 Margaret Dayhoff collezione di proteine (NBRF)
Cdshyrom
Floppydisk
- 1977 PDB Strutture di macromolecole
- 1980 EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici
- 1991 EST (Expressed Sequence Tags)
WWW
Internet- 1996 Genomi
- 1998 Trascrittomi
Oggi migliaia di collezioni funzioni famiglie di proteine motivi vie metaboliche
Banche dati biologiche Persistenza aggiornamento accuratezza
Banche dati biologiche Persistenza aggiornamento accuratezza
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Definizione di banca dati
una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati
Data bank (Banca dati)
Database (Base di dati)
Collezione di dati
Collezione di dati + software per accedervi
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Struttura delle banche datiStruttura delle banche dati
Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati di macromolecole biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data
Aggiornamenti quotidianiEs GenBank_new EMBL_new
RELEASE NOTE Genetic Sequence Data BankAugust 15 2018
NCBI-GenBank Flat File Release 2270
Distribution Release Notes
260806936411 bases 208831050 reported sequences
+
Acidi nucleici quantitagrave di informazione
1012 basi (tera)
1015 basi (peta)
(whole genome sequences)
109 basi (giga)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Diminuizione esponenziale dei costi di sequenziamento
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Banche dati biologiche Persistenza aggiornamento accuratezza
Banche dati biologiche Persistenza aggiornamento accuratezza
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Definizione di banca dati
una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati
Data bank (Banca dati)
Database (Base di dati)
Collezione di dati
Collezione di dati + software per accedervi
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Struttura delle banche datiStruttura delle banche dati
Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati di macromolecole biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data
Aggiornamenti quotidianiEs GenBank_new EMBL_new
RELEASE NOTE Genetic Sequence Data BankAugust 15 2018
NCBI-GenBank Flat File Release 2270
Distribution Release Notes
260806936411 bases 208831050 reported sequences
+
Acidi nucleici quantitagrave di informazione
1012 basi (tera)
1015 basi (peta)
(whole genome sequences)
109 basi (giga)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Diminuizione esponenziale dei costi di sequenziamento
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Definizione di banca dati
una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati
Data bank (Banca dati)
Database (Base di dati)
Collezione di dati
Collezione di dati + software per accedervi
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Struttura delle banche datiStruttura delle banche dati
Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati di macromolecole biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data
Aggiornamenti quotidianiEs GenBank_new EMBL_new
RELEASE NOTE Genetic Sequence Data BankAugust 15 2018
NCBI-GenBank Flat File Release 2270
Distribution Release Notes
260806936411 bases 208831050 reported sequences
+
Acidi nucleici quantitagrave di informazione
1012 basi (tera)
1015 basi (peta)
(whole genome sequences)
109 basi (giga)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Diminuizione esponenziale dei costi di sequenziamento
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Struttura delle banche datiStruttura delle banche dati
Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati di macromolecole biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data
Aggiornamenti quotidianiEs GenBank_new EMBL_new
RELEASE NOTE Genetic Sequence Data BankAugust 15 2018
NCBI-GenBank Flat File Release 2270
Distribution Release Notes
260806936411 bases 208831050 reported sequences
+
Acidi nucleici quantitagrave di informazione
1012 basi (tera)
1015 basi (peta)
(whole genome sequences)
109 basi (giga)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Diminuizione esponenziale dei costi di sequenziamento
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati di macromolecole biologiche
Primarie Informazione acquisita direttamente
Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip
Secondarie Organizzano informazioni presenti in altre banche dati
Famiglie di proteineFamiglie di strutturePromotorihellip
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data
Aggiornamenti quotidianiEs GenBank_new EMBL_new
RELEASE NOTE Genetic Sequence Data BankAugust 15 2018
NCBI-GenBank Flat File Release 2270
Distribution Release Notes
260806936411 bases 208831050 reported sequences
+
Acidi nucleici quantitagrave di informazione
1012 basi (tera)
1015 basi (peta)
(whole genome sequences)
109 basi (giga)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Diminuizione esponenziale dei costi di sequenziamento
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)
GenBank (americana) EMBL (europea)DDBJ (giapponese)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data
Aggiornamenti quotidianiEs GenBank_new EMBL_new
RELEASE NOTE Genetic Sequence Data BankAugust 15 2018
NCBI-GenBank Flat File Release 2270
Distribution Release Notes
260806936411 bases 208831050 reported sequences
+
Acidi nucleici quantitagrave di informazione
1012 basi (tera)
1015 basi (peta)
(whole genome sequences)
109 basi (giga)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Diminuizione esponenziale dei costi di sequenziamento
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data
Aggiornamenti quotidianiEs GenBank_new EMBL_new
RELEASE NOTE Genetic Sequence Data BankAugust 15 2018
NCBI-GenBank Flat File Release 2270
Distribution Release Notes
260806936411 bases 208831050 reported sequences
+
Acidi nucleici quantitagrave di informazione
1012 basi (tera)
1015 basi (peta)
(whole genome sequences)
109 basi (giga)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Diminuizione esponenziale dei costi di sequenziamento
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Acidi nucleici quantitagrave di informazione
1012 basi (tera)
1015 basi (peta)
(whole genome sequences)
109 basi (giga)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Diminuizione esponenziale dei costi di sequenziamento
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Diminuizione esponenziale dei costi di sequenziamento
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Acidi nucleici organismi piugrave rappresentati
Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie EST
Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA
il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto
Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto
Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length
Una banca dati di sequenze espresse
dbEST (Expressed sequence Tag)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Banche dati primarie proteineDue consorzi
SwissProt (europeo) PIR (americano)
bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)
bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca
Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL
GenPep (GenBank cds)TREMBL (EMBL cds)
Sono peggio annotate di SwissProt e Pir ma piugrave complete
UNIPROT (universal protein resource)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Proteine quantitagrave di informazione
Manualmente annotate lt5 (UniprotSwissprot)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione della lunghezze delle sequenze proteiche
Distribuzione della lunghezze delle sequenze proteiche
The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione delle frequenze degli amino acidi
Distribuzione delle frequenze degli amino acidi
Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Distribuzione tassonomica delle sequenze in Uniprot
Distribuzione tassonomica delle sequenze in Uniprot
Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Formato del record Flat File format
ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza
ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo
Chiave del campo
Valore del campo
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
GenBankDDBJ entry
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EMBL entry
[resto della sequenza omesso]
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
DDBJEMBLGenBank Feature table
100 300 401 600 701 800 901 1100
5UTR CDS 3UTR
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM
Legame a cofattori
Modificazionepost-traduzionale
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza
Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia
bull Entrez (NCBI)
Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Sistemi di interrogazione Entrez (GQuery)
Gruppo di database in cui effettuare la ricerca
limita la ricerca a particolari campi
Rivede le ricerche effettuate per combinarle con operatori logici
Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)
Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)
Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
1 Lrsquoago nel pagliaio
bull Si cerca di solito una sequenza specifica
bull Il numero delle sequenze nella banca dati cresce in modo esponenziale
bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo
bull Risultato trovare quello che si cerca egrave sempre piugrave difficile
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
3 Errori e stranezze
ldquotransciptionrdquo 26 sequenze
LOCUS A00674 6 bp DNA PAT 29-JAN-1993
DEFINITION Nucleotide sequence 3 from patent WO8601533
ACCESSION A00674
KEYWORDS
SOURCE Unknown
ORGANISM Unknown
Unclassified
REFERENCE 1 (bases 1 to 6)
AUTHORS
TITLE PRODUCTION OF CHIMERIC ANTIBODIES
JOURNAL Patent WO 8601533-A 3 13-MAR-1986
STANDARD full automatic
BASE COUNT 3 a 2 c 0 g 1 t
ORIGIN
1 cactaa
Sei nucleotidi brevettati di origine sconosciuta
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo
GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati
RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina
Es NC_000908
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene informazioni sui trascritti
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Unigene Profili di espressione
Espressa soprattutto nel tessuto nervoso
Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool
Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]
Reads Per Kilobase of transcript per Million mapped reads (RPKM)
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al fenotipo Online Mendelian Inheritance in Man
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp
Dal gene al genoma analisi del contesto genomico
Urato ossidasi
Proteina ipotetica
Complete genome gt Deinococcus radiodurans
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Ricerca di omologia in banca dati
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor
Doolittle et al SCIENCE 1983
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Ricerca di omologia in banca datiRicerca di omologia in banca dati
Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave
=
RICERCA DI OMOLOGIA DI SEQUENZA
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Ricerca di omologia schemaRicerca di omologia schema
gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg
gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat
gtDDDDacgctaaaaggctagcatcggggatcggat
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
Filtro statistico
gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg
gtDDDDacgctaaaaggctagcatcggggatcggat
gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg
1deg
ndeg
2deg
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Significativitagrave nella ricerca di omologia
K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze
E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso
P = 1 ndash e-E
P rarr E se Eltlt1
m = lunghezza della queryn = dimensione della bancadati
E=Kmneminus S
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati
Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale
Allineamento ottimalebull SSEARCH (Smith-Waterman)
Allineamento euristicobull FASTAbull BLAST
Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
SSEARCHSSEARCH
Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati
Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Metodi euristici confronto tra indici
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query
sequence
V D M A A Q I A1 2 3 4 5 6 7 8Database
sequence
offsets+9-2+2+3
-3+1+2
+2+2
-6-2-1
Ktup = 1
A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5
Indice(Lookup table)
Offset vector
-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
21 1 1 1 1 14
Segmento simile
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Il confronto tra indici trova rapidamente segmenti simili
H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11
V D M A A Q I A 1 2 3 4 5 6 7 8
Offset 2 2 2 2
Segmenti con il medesimo offset sono simili
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Segmenti simili sono rappresentati come diagonali con il medesimo offset
H A R F Y A A Q I V L
VDMAAQ IA
0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10
-1
-2
-3
-4
-5
-6
-7
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
FASTAPearson amp Lipmann PNAS 1988
K-tuple = lungezza delle parole nellindice
sensibilitagravesensibilitagrave
velocitagravek-tuple
k-tuple = 4
k-tuplesensibilitagravesensibilitagrave
velocitagrave
Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
BLASTAltschul et al JMB 1990
Basic Local Alignment Tool
gtqueryAGPDPATA
AGP GPD PDP DPA PAT ATA
words
PEP hellipEPA DPGhellip
Neighbourhood words+
La lunghezza delle words egrave definitadal parametro W
Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T
Words (parole indice)T (punteggio minimo per parola)
sensibilitagravesensibilitagrave
velocitagrave
WT
sensibilitagravesensibilitagrave
velocitagrave
WT
Valori di default W blastp 6 blastn 11
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
BLAST (schema)BLAST (schema)
bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia
bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta
bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Calcolo del numero di segmenti attesi (E)
SKmneE
Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende
1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)
S egrave lo score dellallineamento
m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati
K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali
bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Significato di E nella ricerca di omologia
Il valore di E egrave usato come misura della significativitagrave dellallineamento
Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso
Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP
Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1
P S x = 1 minus eminusE
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04
gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
BLAST Output 2BLAST Output 2
Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246
Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)
Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60
Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120
Lambda K H
0308 0127 0355
Gapped
Lambda K H
0267 00410 0140
Matrix BLOSUM62
Gap Penalties Existence 11 Extension 1
Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)
Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)
La relazione che lega S ad E diventa
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Regioni a bassa complessitagrave
Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte
La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV
Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica
Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)
Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Output grafico di blastOutput grafico di blast
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA
Programma Query Banca dati Tipo di confronto
BLAST FASTA
blastn fasta3 nuc nuc nuc nuc
blastp fasta3 aa aa aa aa
blastx fastx3 fasty3 nuc aa aa aa
tblastn tfastx3 tfasty3 aa nuc aa aa
tblastx nuc nuc aa aa
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
E(DNA) vs E(Proteine)
Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila
La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Compromesso tra sensibilitagrave e selettivitagrave
Sequenze appartenenti alla famiglia
Sequenze non appartenenti alla famiglia
Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Misure dellrsquoaccuratezza della ricerca
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)
=
SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]
Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
SELETTIVITArsquo [ VP (VP + FP) ]
Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)
=
ERRORE [ FP (VP + FP) ]
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Copertura vs Errore
Errore falsi positivi sul totale
Sensibilitagrave (Copertura) veri positivi sul totale
Diverse soglie di punteggo
Due metodi Quello tratteggiato egrave peggiore
soglia=10
soglia=20
soglia=30
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Brenner et al PNAS 1998
Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
E-value gt Score gt id
Accuratezza dei metodi di ricerca indicatori
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Accuratezza dei metodi di ricerca algoritmi
METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148
Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40
SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni
Argomenti pratici nella ricerca in banca dati
bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)
bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo
bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione
bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave
bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza
bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica
bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante
Usare le matrici e le penalitagrave dei i gap opportuni