Banche dati di sequenze biologiche: Organizzazione e ...

65
Riccardo Percudani 10/11/2019 File: banchedati_ricerca_omologia.odp Banche dati di sequenze biologiche: Organizzazione e Interrogazione

Transcript of Banche dati di sequenze biologiche: Organizzazione e ...

Page 1: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati di sequenze biologiche

Organizzazione eInterrogazione

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Raccolte di dati biologici

Libri - 1960 Margaret Dayhoff collezione di proteine (NBRF)

Cdshyrom

Floppydisk

- 1977 PDB Strutture di macromolecole

- 1980 EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici

- 1991 EST (Expressed Sequence Tags)

WWW

Internet- 1996 Genomi

- 1998 Trascrittomi

Oggi migliaia di collezioni funzioni famiglie di proteine motivi vie metaboliche

Banche dati biologiche Persistenza aggiornamento accuratezza

Banche dati biologiche Persistenza aggiornamento accuratezza

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Definizione di banca dati

una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati

Data bank (Banca dati)

Database (Base di dati)

Collezione di dati

Collezione di dati + software per accedervi

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Struttura delle banche datiStruttura delle banche dati

Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati di macromolecole biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data

Aggiornamenti quotidianiEs GenBank_new EMBL_new

RELEASE NOTE Genetic Sequence Data BankAugust 15 2018

NCBI-GenBank Flat File Release 2270

Distribution Release Notes

260806936411 bases 208831050 reported sequences

+

Acidi nucleici quantitagrave di informazione

1012 basi (tera)

1015 basi (peta)

(whole genome sequences)

109 basi (giga)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Diminuizione esponenziale dei costi di sequenziamento

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 2: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Raccolte di dati biologici

Libri - 1960 Margaret Dayhoff collezione di proteine (NBRF)

Cdshyrom

Floppydisk

- 1977 PDB Strutture di macromolecole

- 1980 EMBL (Heidelberg) acidi nucleici 1982 GenBank (NCBI) acidi nucleici

- 1991 EST (Expressed Sequence Tags)

WWW

Internet- 1996 Genomi

- 1998 Trascrittomi

Oggi migliaia di collezioni funzioni famiglie di proteine motivi vie metaboliche

Banche dati biologiche Persistenza aggiornamento accuratezza

Banche dati biologiche Persistenza aggiornamento accuratezza

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Definizione di banca dati

una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati

Data bank (Banca dati)

Database (Base di dati)

Collezione di dati

Collezione di dati + software per accedervi

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Struttura delle banche datiStruttura delle banche dati

Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati di macromolecole biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data

Aggiornamenti quotidianiEs GenBank_new EMBL_new

RELEASE NOTE Genetic Sequence Data BankAugust 15 2018

NCBI-GenBank Flat File Release 2270

Distribution Release Notes

260806936411 bases 208831050 reported sequences

+

Acidi nucleici quantitagrave di informazione

1012 basi (tera)

1015 basi (peta)

(whole genome sequences)

109 basi (giga)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Diminuizione esponenziale dei costi di sequenziamento

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 3: Banche dati di sequenze biologiche: Organizzazione e ...

Banche dati biologiche Persistenza aggiornamento accuratezza

Banche dati biologiche Persistenza aggiornamento accuratezza

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Definizione di banca dati

una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati

Data bank (Banca dati)

Database (Base di dati)

Collezione di dati

Collezione di dati + software per accedervi

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Struttura delle banche datiStruttura delle banche dati

Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati di macromolecole biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data

Aggiornamenti quotidianiEs GenBank_new EMBL_new

RELEASE NOTE Genetic Sequence Data BankAugust 15 2018

NCBI-GenBank Flat File Release 2270

Distribution Release Notes

260806936411 bases 208831050 reported sequences

+

Acidi nucleici quantitagrave di informazione

1012 basi (tera)

1015 basi (peta)

(whole genome sequences)

109 basi (giga)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Diminuizione esponenziale dei costi di sequenziamento

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 4: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Definizione di banca dati

una collezione di informazioni organizzata in modo che un programma al computer possa velocemente accedere a determinate porzioni di dati

Data bank (Banca dati)

Database (Base di dati)

Collezione di dati

Collezione di dati + software per accedervi

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Struttura delle banche datiStruttura delle banche dati

Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati di macromolecole biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data

Aggiornamenti quotidianiEs GenBank_new EMBL_new

RELEASE NOTE Genetic Sequence Data BankAugust 15 2018

NCBI-GenBank Flat File Release 2270

Distribution Release Notes

260806936411 bases 208831050 reported sequences

+

Acidi nucleici quantitagrave di informazione

1012 basi (tera)

1015 basi (peta)

(whole genome sequences)

109 basi (giga)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Diminuizione esponenziale dei costi di sequenziamento

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 5: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Struttura delle banche datiStruttura delle banche dati

Diagramma della struttura di un database Un record contiene le informazioni relative ad un dato elemento (entry nei database di sequenza) le cui caratteristiche sono descritte dai fields (campi)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati di macromolecole biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data

Aggiornamenti quotidianiEs GenBank_new EMBL_new

RELEASE NOTE Genetic Sequence Data BankAugust 15 2018

NCBI-GenBank Flat File Release 2270

Distribution Release Notes

260806936411 bases 208831050 reported sequences

+

Acidi nucleici quantitagrave di informazione

1012 basi (tera)

1015 basi (peta)

(whole genome sequences)

109 basi (giga)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Diminuizione esponenziale dei costi di sequenziamento

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 6: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati di macromolecole biologiche

Primarie Informazione acquisita direttamente

Acidi nucleiciSequenze espresse (EST)ProteineStrutturehellip

Secondarie Organizzano informazioni presenti in altre banche dati

Famiglie di proteineFamiglie di strutturePromotorihellip

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data

Aggiornamenti quotidianiEs GenBank_new EMBL_new

RELEASE NOTE Genetic Sequence Data BankAugust 15 2018

NCBI-GenBank Flat File Release 2270

Distribution Release Notes

260806936411 bases 208831050 reported sequences

+

Acidi nucleici quantitagrave di informazione

1012 basi (tera)

1015 basi (peta)

(whole genome sequences)

109 basi (giga)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Diminuizione esponenziale dei costi di sequenziamento

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 7: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie acidi nucleiciTre consorzi che scambiano informazioni(International Nucleotide Sequence Database Collaboration)

GenBank (americana) EMBL (europea)DDBJ (giapponese)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data

Aggiornamenti quotidianiEs GenBank_new EMBL_new

RELEASE NOTE Genetic Sequence Data BankAugust 15 2018

NCBI-GenBank Flat File Release 2270

Distribution Release Notes

260806936411 bases 208831050 reported sequences

+

Acidi nucleici quantitagrave di informazione

1012 basi (tera)

1015 basi (peta)

(whole genome sequences)

109 basi (giga)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Diminuizione esponenziale dei costi di sequenziamento

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 8: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Acidi nucleici Release e aggiornamentiUna Release in cui la banca dati viene ldquocongelatardquo ad una certa data

Aggiornamenti quotidianiEs GenBank_new EMBL_new

RELEASE NOTE Genetic Sequence Data BankAugust 15 2018

NCBI-GenBank Flat File Release 2270

Distribution Release Notes

260806936411 bases 208831050 reported sequences

+

Acidi nucleici quantitagrave di informazione

1012 basi (tera)

1015 basi (peta)

(whole genome sequences)

109 basi (giga)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Diminuizione esponenziale dei costi di sequenziamento

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 9: Banche dati di sequenze biologiche: Organizzazione e ...

Acidi nucleici quantitagrave di informazione

1012 basi (tera)

1015 basi (peta)

(whole genome sequences)

109 basi (giga)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Diminuizione esponenziale dei costi di sequenziamento

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 10: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Diminuizione esponenziale dei costi di sequenziamento

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 11: Banche dati di sequenze biologiche: Organizzazione e ...

Acidi nucleici organismi piugrave rappresentati

Entries Bases Species5074650 7915783043 Homo sapiens3282738 1982497435 Mus musculus309512 615314337 Drosophila melanogaster277024 342250586 Rattus norvegicus196531 292339256 Oryza sativa194296 258809578 Arabidopsis thaliana140700 187274610 Caenorhabditis elegans189005 165547824 Tetraodon nigroviridis198152 95024632 Bos taurus204698 92361300 Glycine max156413 89308950 Danio rerio155185 80380251 Lycopersicon esculentum140798 72431327 Medicago truncatula80582 72089785 Entamoeba histolytica121918 60487285 Xenopus laevis102233 58906089 Chlamydomonas reinhardtii124150 57745385 Zea mays86956 54526352 Strongylocentrotus pur104222 54130240 Sus scrofa

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 12: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie EST

Le EST sono sequenze relative a piccole porzioni (circa 500 basi) di un mRNA ottenute per sequenziamento parziale di un clone a cDNA

il sequenziamento Sanger a ldquosingolo passordquo utilizza primers sul vettore contenente linserto

Le sequenze nella banca dati EST corrispondono soprattutto alle porzioni 5- e 3- terminali del trascritto

Un avanzamento del metodo di preparazione (cap-trapping) consente di avere EST full-length

Una banca dati di sequenze espresse

dbEST (Expressed sequence Tag)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 13: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Banche dati primarie proteineDue consorzi

SwissProt (europeo) PIR (americano)

bull Sequenze di proteine determinate per sequenziamento diretto (in minima parte)

bull Sequenze ricavate dalla traduzione di sequenze codificanti di DNA in parte annotate e commentate dai curatori della banca

Altre banche dati di proteine derivano dalla traduzione di GenBank e EMBL

GenPep (GenBank cds)TREMBL (EMBL cds)

Sono peggio annotate di SwissProt e Pir ma piugrave complete

UNIPROT (universal protein resource)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 14: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Proteine quantitagrave di informazione

Manualmente annotate lt5 (UniprotSwissprot)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 15: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione della lunghezze delle sequenze proteiche

Distribuzione della lunghezze delle sequenze proteiche

The shortest sequence is GWA_SEPOF 2 amino acids The longest sequence is TITIN_MOUSE 35213 amino acids

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 16: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione delle frequenze degli amino acidi

Distribuzione delle frequenze degli amino acidi

Legend gray = aliphatic red = acidic green = small hydroxy blue = basic black = aromatic white = amide yellow = sulfur

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 17: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Distribuzione tassonomica delle sequenze in Uniprot

Distribuzione tassonomica delle sequenze in Uniprot

Kingdom sequences ( of the database) Archaea 888257 ( 1) Bacteria 73062005 ( 82) Eukaryota 12775496 ( 14) Viruses 2171639 ( 2) Other 553768 ( lt1)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 18: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Formato del record Flat File format

ldquoannotationrdquo testo con le informazioni(ldquoannotazionirdquo) sulla sequenza

ldquodatardquo sequenza memorizzata dal 5rsquo al 3rsquo

Chiave del campo

Valore del campo

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 19: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

GenBankDDBJ entry

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 20: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EMBL entry

[resto della sequenza omesso]

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 21: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

DDBJEMBLGenBank Feature table

100 300 401 600 701 800 901 1100

5UTR CDS 3UTR

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 22: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entryID RASK_HUMAN STANDARD PRT 189 AAAC P01116DT 21-JUL-1986 (Rel 01 Created)DT 21-JUL-1986 (Rel 01 Last sequence update)DT 10-OCT-2003 (Rel 42 Last annotation update)DE Transforming protein p21A (K-Ras 2A) (Ki-Ras) (c-K-ras)GN KRAS2 OR RASK2OS Homo sapiens (Human)OC Eukaryota Metazoa Chordata Craniata Vertebrata Euteleostomi OC Mammalia Eutheria Primates Catarrhini Hominidae Homo OX NCBI_TaxID=9606RN [1]RP SEQUENCE FROM NARX MEDLINE=83271513 PubMed=6308466 [NCBI ExPASy EBI Israel Japan]RA McGrath JP Capon DJ Smith DH Chen EY Seeburg PHRA Goeddel DV Levinson ADRT Structure and organization of the human Ki-ras proto-oncogene and aRT related processed pseudogeneRL Nature 304501-506(1983)RP SEQUENCE FROM NARC TISSUE=Colon carcinoma and LungCC -- ALTERNATIVE PRODUCTSCC Event=Alternative splicing Named isoforms=2CC Comment=Isoforms differ in the C-terminal region which isCC encoded by two alternative exons (IVA and IVB)CC Name=2ACC IsoId=P01116-1 Sequence=DisplayedCC Name=2BCC IsoId=P01118-1 Sequence=ExternalCC -- DISEASE KRAS2 mutations are involved in tumor formationCC -- MISCELLANEOUS The mammalian ras gene family consists of theCC Harvey and Kirsten ras genes (c-Hras1 and c-Kras2) an inactiveCC pseudogene of each (c-Hras2 and c-Kras1) and the N-ras geneCC -- SIMILARITY Belongs to the small GTPase superfamily Ras familyCC -- DATABASE NAME=Atlas Genet Cytogenet Oncol HaematolCC httpauexpasyorgcgi-binget-sprot-entryP01116

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 23: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

SwissProt entry (continua)DR BLOCKS P01116DR ProtoNet P01116DR ProtoMap P01116DR PRESAGE P01116DR DIP P01116DR ModBase P01116DR SWISS-2DPAGE GET REGION ON 2D PAGEKW Proto-oncogene GTP-binding Prenylation Palmitate LipoproteinKW Alternative splicing Disease mutationFT NP_BIND 10 17 GTPFT NP_BIND 57 61 GTPFT NP_BIND 116 119 GTPFT DOMAIN 32 40 Effector regionFT DOMAIN 166 185 HYPERVARIABLE REGIONFT LIPID 180 180 S-palmitoyl cysteineFT LIPID 186 186 S-farnesyl cysteineFT VARIANT 12 12 G -gt C (in lung carcinoma)FT FTId=VAR_006839FT VARIANT 12 12 G -gt V (in colon carcinoma)FT FTId=VAR_006840FT VARIANT 61 61 Q -gt H (in lung carcinoma PR310 andFT pancreas T3M-4)FT FTId=VAR_006841FT MUTAGEN 164 164 R-gtA LOSS OF GTP-BINDING ACTIVITYSQ SEQUENCE 189 AA 21656 MW 973547B2E11C2C81 CRC64 MTEYKLVVVG AGGVGKSALT IQLIQNHFVD EYDPTIEDSY RKQVVIDGET CLLDILDTAG QEEYSAMRDQ YMRTGEGFLC VFAINNTKSF EDIHHYREQI KRVKDSEDVP MVLVGNKCDL PSRTVDTKQA QDLARSYGIP FIETSAKTRQ RVEDAFYTLV REIRQYRLKK ISKEEKTPGC VKIKKCIIM

Legame a cofattori

Modificazionepost-traduzionale

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 24: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

EST entryLOCUS H89388 338 bp mRNA EST 24-NOV-1995DEFINITION PL_16 Root Angelo Bolchi Zea mays cDNA clone PL_16 mRNA sequenceACCESSION H89388VERSION H893881 GI1072300KEYWORDS ESTSOURCE Zea maysREFERENCE 1 (bases 1 to 338) AUTHORS OttonelloS TITLE cDNAs from maize JOURNAL Unpublished (1995)COMMENT Contact Simone OttonelloEmail simoneirisbiocbiounipritFEATURES LocationQualifiers source 1338 organism=Zea mays db_xref=taxon4577 clone=PL_16 clone_lib=Root Angelo Bolchi note=Vector pMOSBlue Site_1 EcoRV mRNA was purified from the root of sulfate deprived maize seedlings cDNA was constructed using anchored oligo(dT) primers and PCR amplified in the presence of the same anchored oligo(dT) primer and random primer (Science 257967-971) Amplified cDNA fragments were ligated into the pMOSBlue vector (Amersham)BASE COUNT 91 a 70 c 64 g 113 tORIGIN 1 cttgttactc caccaaggct atcatgctaa agaaactgct ttatgcgatc aacgaaggcc 61 aagggtcatt tgatctttcg tgaatctcaa cactaacata ggtattggtc cacctagaaa 121 tctgcgtcat tgttacccag agttagtttc tacctcattc atgtatgaca taggttaaac 181 tcagctctcc ggagtcccac cgaagtttgg agccggtacc tttgggtgtg gatgtctata

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 25: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Interrogazione delle banche datiInterrogare una banca dati significa fare una ricerca testuale nella porzione ldquoheaderrdquo dei record contenente le informazioni di testo sulla sequenza

Le banche dati si possono interrogare singolarmente (di solito con il browser attraverso interfacce WWW) oppure con sistemi che consentono di interrogare piugrave banche dati con una sola interfaccia

bull Entrez (NCBI)

Ersquo importante usare questi sistemi propriamente percheacute ottenere esattamente lrsquoinformazione che si cerca interrogando le banche dati di sequenze egrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 26: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Sistemi di interrogazione Entrez (GQuery)

Gruppo di database in cui effettuare la ricerca

limita la ricerca a particolari campi

Rivede le ricerche effettuate per combinarle con operatori logici

Entrez egrave un sistema per cercare e recuperare le informazioni contenute nelle banche dati presenti allrsquoNCBI (National Center for Biotechnology Information) e allrsquoNLM (National Library of Medicine)

Le banche dati includono sequenze nucleotidiche e proteiche strutture molecolari genomi completi ed informazioni bibliografiche contenute in PubMed (MEDLINE)

Il ldquoclientrdquo per lrsquointerrogazione puograve essere il browser o un programma a linea di comando in UNIX (Clever)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 27: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

1 Lrsquoago nel pagliaio

bull Si cerca di solito una sequenza specifica

bull Il numero delle sequenze nella banca dati cresce in modo esponenziale

bull Il numero delle sequenze ldquoindesideraterdquo egrave in modo crescente gtgt delle sequenze ldquodesideraterdquo

bull Risultato trovare quello che si cerca egrave sempre piugrave difficile

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 28: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

2 Nomenclatura non standardQuando si cercano informazioni in banca dati si dipende dal modo in cui lrsquoautore ha deciso di descrivere lrsquoinformazione Il modo per designare anche i geni piugrave noti (come il 16s RNA) non egrave uniforme

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 29: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

3 Errori e stranezze

ldquotransciptionrdquo 26 sequenze

LOCUS A00674 6 bp DNA PAT 29-JAN-1993

DEFINITION Nucleotide sequence 3 from patent WO8601533

ACCESSION A00674

KEYWORDS

SOURCE Unknown

ORGANISM Unknown

Unclassified

REFERENCE 1 (bases 1 to 6)

AUTHORS

TITLE PRODUCTION OF CHIMERIC ANTIBODIES

JOURNAL Patent WO 8601533-A 3 13-MAR-1986

STANDARD full automatic

BASE COUNT 3 a 2 c 0 g 1 t

ORIGIN

1 cactaa

Sei nucleotidi brevettati di origine sconosciuta

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 30: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Porzioni ldquoordinaterdquo di GenBankUnigene Sequenze di Est e di mRNA organizzate in cluster che rappersentano un unico gene putativo

GeneLoci genetici con informazioni curate da annotatori relative a funzioni e fenotipi associati

RefSeqSequenza di riferimento definita da annotatori per una data porzione genomica mRNA o proteina

Es NC_000908

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 31: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 32: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene informazioni sui trascritti

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 33: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Unigene Profili di espressione

Espressa soprattutto nel tessuto nervoso

Trascritti per milione (TPM)Trascritti per milione (TPM) ESTs derivanti dal gene EST totali nel pool

Unigine ldquoEST Profilerdquo diTirosina idrossilasi (Tirosina -gt-gt Dopa)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 34: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Profili di espressione con RNASeqProfili di espressione con RNASeqSHMT1 serine hydroxymethyltransferase 1 [ Homo sapiens (human) ]

Reads Per Kilobase of transcript per Million mapped reads (RPKM)

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 35: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al fenotipo Online Mendelian Inheritance in Man

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 36: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 37: Banche dati di sequenze biologiche: Organizzazione e ...

Riccardo Percudani 10112019File banchedati_ricerca_omologiaodp

Dal gene al genoma analisi del contesto genomico

Urato ossidasi

Proteina ipotetica

Complete genome gt Deinococcus radiodurans

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 38: Banche dati di sequenze biologiche: Organizzazione e ...

Ricerca di omologia in banca dati

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 39: Banche dati di sequenze biologiche: Organizzazione e ...

Simian sarcoma virus onc gene v-sis is derived from the gene (or genes) encoding a platelet-derived growth factor

Doolittle et al SCIENCE 1983

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 40: Banche dati di sequenze biologiche: Organizzazione e ...

Ricerca di omologia in banca datiRicerca di omologia in banca dati

Data una sequenza (query) una banca dati un sistema per il confronto e una soglia statistica trovare le sequenze della banca piugrave somiglianti alla data sequenza ordinate per significativitagrave

=

RICERCA DI OMOLOGIA DI SEQUENZA

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 41: Banche dati di sequenze biologiche: Organizzazione e ...

Ricerca di omologia schemaRicerca di omologia schema

gtqueryccgctaggctagccatcggggatcggatacgctaggctagctggatcggggaaaa

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtBBBBgctagctggatcggggatcggatggatcgggatttgagtctagggatg

gtCCCCcgctaggatagctggatcggggatcggatggctcggatcgggatttgagtctagggatgacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggatacgctaggctagctggatcggggatcggat

gtDDDDacgctaaaaggctagcatcggggatcggat

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtZZZZZacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

gtEEEEEcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

Filtro statistico

gtFFFFFcggctcggatcgggatttgagtctagggatgccgctaggctagccatcggggatcggatacgctaggctagctggatcgggg

gtDDDDacgctaaaaggctagcatcggggatcggat

gtAAAAacgctaggctagctggatcggggatcggataggctcggatcgggatttgagtctagggatg

1deg

ndeg

2deg

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 42: Banche dati di sequenze biologiche: Organizzazione e ...

Significativitagrave nella ricerca di omologia

K e sono parametri stimati con fitting Dipendono dal tipo di matrice usata dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze

E=significativitagravenumero di segmenti attesi raggiungere lo score S per effetto del caso

P = 1 ndash e-E

P rarr E se Eltlt1

m = lunghezza della queryn = dimensione della bancadati

E=Kmneminus S

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 43: Banche dati di sequenze biologiche: Organizzazione e ...

Metodi per la ricerca in banca datiMetodi per la ricerca in banca dati

Gli algoritmi euristici usano scorciatoie che abbreviano anche di 50 volte il tempo di esecuzione senza garantire un allineamento ottimale

Allineamento ottimalebull SSEARCH (Smith-Waterman)

Allineamento euristicobull FASTAbull BLAST

Un algoritmo ottimale di programmazione dinamica ha un tempo di esecuzione proporzionale a N x M (lunghezza della sequenza per dimensione della banca dati) In computer molto potenti (paralleli) egrave possibile usare un algoritmo di programmazione dinamica per una ricerca piugrave accurata in tempi brevi

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 44: Banche dati di sequenze biologiche: Organizzazione e ...

SSEARCHSSEARCH

Utilizza un algoritmo completo di programmazione dinamica Equivale ad un allineamento locale (Smith e Waterman) tra la query sequence e ciascuna sequenza della banca dati

Meno veloce di BLAST e FASTA ma garantisce un allineamento ottimale e la massima accuratezza

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 45: Banche dati di sequenze biologiche: Organizzazione e ...

Metodi euristici confronto tra indici

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11query

sequence

V D M A A Q I A1 2 3 4 5 6 7 8Database

sequence

offsets+9-2+2+3

-3+1+2

+2+2

-6-2-1

Ktup = 1

A 2 6 7F 4H 1I 9L 11Q 8R 3V 10Y 5

Indice(Lookup table)

Offset vector

-6 -5 -4 -3 -2 -1 0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

21 1 1 1 1 14

Segmento simile

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 46: Banche dati di sequenze biologiche: Organizzazione e ...

Il confronto tra indici trova rapidamente segmenti simili

H A R F Y A A Q I V L 1 2 3 4 5 6 7 8 9 10 11

V D M A A Q I A 1 2 3 4 5 6 7 8

Offset 2 2 2 2

Segmenti con il medesimo offset sono simili

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 47: Banche dati di sequenze biologiche: Organizzazione e ...

Segmenti simili sono rappresentati come diagonali con il medesimo offset

H A R F Y A A Q I V L

VDMAAQ IA

0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +10

-1

-2

-3

-4

-5

-6

-7

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 48: Banche dati di sequenze biologiche: Organizzazione e ...

FASTAPearson amp Lipmann PNAS 1988

K-tuple = lungezza delle parole nellindice

sensibilitagravesensibilitagrave

velocitagravek-tuple

k-tuple = 4

k-tuplesensibilitagravesensibilitagrave

velocitagrave

Valori standardk-tuple=2 (proteine)k-tuple=6 (nucleotidi)

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 49: Banche dati di sequenze biologiche: Organizzazione e ...

BLASTAltschul et al JMB 1990

Basic Local Alignment Tool

gtqueryAGPDPATA

AGP GPD PDP DPA PAT ATA

words

PEP hellipEPA DPGhellip

Neighbourhood words+

La lunghezza delle words egrave definitadal parametro W

Il punteggio che devono raggiungere per essere considerate egrave definito dalparametro T

Words (parole indice)T (punteggio minimo per parola)

sensibilitagravesensibilitagrave

velocitagrave

WT

sensibilitagravesensibilitagrave

velocitagrave

WT

Valori di default W blastp 6 blastn 11

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 50: Banche dati di sequenze biologiche: Organizzazione e ...

BLAST (schema)BLAST (schema)

bull Per la query sequence indicizza tutte le parole (words) di una lunghezza data (2 o 3 per le proteine 11 per gli acidi nucleici) compilando una lista che include tutte le parole simili con un dato punteggio di match rispetto ad una soglia

bull Per ogni match con la banca dati estende i segmenti a maggior punteggio (High Scoring Pairs HSP) fino a quando lo score totale aumenta

bull Nella versione originale non ammetteva gap le versioni attuali (gapped-BLAST) producono allineamenti con gap

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 51: Banche dati di sequenze biologiche: Organizzazione e ...

Calcolo del numero di segmenti attesi (E)

SKmneE

Il numero di segmenti attesi con un punteggio xgtS per effetto del caso in confronti a coppie egrave calcolabile dalla distribuzione dei valori estremi (EVD) e dipende

1) dal punteggio2) dalla dimensione delle sequenze3) dal sistema di punteggio usato (matrice e penalitagrave)

S egrave lo score dellallineamento

m e n sono le dimensioni delle sequenze confrontate Nella ricerca di omologia il termine tiene conto delle dimensioni della banca dati

K e dipendono dal tipo di matrice usata e dalle penalitagrave assegnate ai gap e dalla composizione delle sequenze Questi parametri possono essere stimati con fitting osservando la distribuzione degli score dei segmenti casuali

bull In BLAST sono precalcolati per ogni matrice e penalitagrave di gapbull In FASTA sono calcolati al momento della ricerca

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 52: Banche dati di sequenze biologiche: Organizzazione e ...

Significato di E nella ricerca di omologia

Il valore di E egrave usato come misura della significativitagrave dellallineamento

Un allineamento egrave significativo se egrave improbabile che si possa ottenere per effetto del caso

Se E egrave molto piccolo ha il significato di una probabilitagrave Per Eltlt1 ErarrP

Negli altri casi ha il significato di ldquonumero di segmenti casuali attesirdquo Per Egtgt1 Prarr1

P S x = 1 minus eminusE

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 53: Banche dati di sequenze biologiche: Organizzazione e ...

BLAST OutputBLAST Output Score ESequences producing significant alignments (bits) Valuegi|6320379|ref|NP_0104591| High mobility group (HMG)-like 332 3e-90gi|7446209|pir||T12113 transcription factor - fava bean gtgi 50 1e-05gi|1731110|sp|Q09390|YR44_CAEEL HYPOTHETICAL 238 KD PROTEI 48 8e-05gi|14550383|gb|AAK672371|U22831_8 (U22831) Hypothetical pr 48 1e-04gi|4507241|ref|NP_0031371| structure specific recognition 48 1e-04gi|11359753|pir||T43009 HMG protein 12 - Caenorhabditis el 47 1e-04gi|14550384|gb|AAK672381|U22831_9 (U22831) Hypothetical pr 47 1e-04gi|12857100|dbj|BAB308921| (AK017716) putative [Mus musculus] 46 2e-04gi|15022805|ref|NP_0800881| high mobility group 20A [Mus m 46 3e-04gi|8922633|ref|NP_0606701| high-mobility group 20A [Homo s 46 3e-04gi|7446219|pir||JC6179 dorsal switch protein 1 - fruit fly 46 3e-04gi|1079089|pir||S50068 nonhistone chromosomal protein HMG1- 46 3e-04gi|136657|sp|P25980|UBF2_XENLA NUCLEOLAR TRANSCRIPTION FACT 45 4e-04gi|65265|emb|CAA425231| (X59863) a xenopus upstream bindi 45 4e-04gi|587104|emb|CAA572121| (X81456) unnamed protein product 45 4e-04

gi|3915056|sp|Q91731|SX11_XENLA TRANSCRIPTION FACTOR SOX-11 37 011gi|14786454|ref|XP_0306261| hypothetical protein XP_030626 37 011gi|1431689|pdb|1AAB| Nmr Structure Of Rat Hmg1 Hmga Frag 37 012gi|12836358|dbj|BAB236211| (AK004857) putative [Mus musculus] 37 013gi|576153|pdb|1HME| High Mobility Group Protein Fragment 37 013gi|7446228|pir||T03375 high mobility group protein HMGd1 - 37 017gi|13559761|gb|AAK299651| (AC024859) Hypothetical protein 37 018

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 54: Banche dati di sequenze biologiche: Organizzazione e ...

BLAST Output 2BLAST Output 2

Allineamentigtgi|6320379|ref|NP_0104591| High mobility group (HMG)-like protein Hmo1p [SaccharomycesLength = 246

Score = 332 bits (850) Expect = 3e-90 Identities = 191220 (86) Positives = 191220 (86)

Query 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFXXXXXXXX 60 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAF Sbjct 1 MTTDPSVKLKSAKDSLVSSLFELSKAANQTASSIVDFYNAIGDDEEEKIEAFTTLTESLQ 60

Query 61 XXXXGVNHLHGISSELVNXXXXXXXXXXXXXXXXXRRKIERDPNAPKKPLTVFFAYSAYV 120 GVNHLHGISSELVN RRKIERDPNAPKKPLTVFFAYSAYVSbjct 61 TLTSGVNHLHGISSELVNPIDDDKDAIIAAPVKAVRRKIERDPNAPKKPLTVFFAYSAYV 120

Lambda K H

0308 0127 0355

Gapped

Lambda K H

0267 00410 0140

Matrix BLOSUM62

Gap Penalties Existence 11 Extension 1

Statistiche basate su valori di e K pre-calcolati per determinate matrici composizione in residui e penalitagrave per gap

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 55: Banche dati di sequenze biologiche: Organizzazione e ...

Punteggi normalizzati (Bits score)Punteggi normalizzati (Bits score)

Lo score di un confronto nella ricerca di omologia viene espresso sia come raw score sia come score normalizzato (bits score)

La relazione che lega S ad E diventa

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 56: Banche dati di sequenze biologiche: Organizzazione e ...

Regioni a bassa complessitagrave

Le regioni a bassa complessitagrave hanno una diversa statistica dei punteggi casuali poicheacute le probabilitagrave di match casuali sono molto piugrave alte

La sequenza LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV

Avragrave molte piugrave provabilitagrave di avere falsi match con altre sequenze con simile composizione aminoacidica

Appositi programmi (tra cui SEG) identificano tali regioni nelle sequenze e le mascherano prima del confronto La sequenza verragrave quindi trasformata in LRVSXXXXXXXXXXXXXXXXXXXXXXKDFCV (Ora scritta come LRVSQQQQQQQQQQQAAPPPPPPPPPPKDFCV)

Il filtro puograve essere attivo a default in BLAST In alcuni casi quando si vuole ricercare altre sequenze con simili ripetizioni egrave opportuno disattivare il filtro

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 57: Banche dati di sequenze biologiche: Organizzazione e ...

Output grafico di blastOutput grafico di blast

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 58: Banche dati di sequenze biologiche: Organizzazione e ...

I programmi della famiglia BLAST e FASTAI programmi della famiglia BLAST e FASTA

Programma Query Banca dati Tipo di confronto

BLAST FASTA

blastn fasta3 nuc nuc nuc nuc

blastp fasta3 aa aa aa aa

blastx fastx3 fasty3 nuc aa aa aa

tblastn tfastx3 tfasty3 aa nuc aa aa

tblastx nuc nuc aa aa

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 59: Banche dati di sequenze biologiche: Organizzazione e ...

E(DNA) vs E(Proteine)

Valori attesi con la sequenza di DNA [Score E(DNA)] e la sequenza proteica [E(prot)] per una ricerca in bancadati effettuata con la glutatione transferasi (GST) di drosofila

La ricerca che utilizza la sequenza proteica fornisce risultati piugrave significativi ed egrave in grado di individuare omologhi della GST al di fuori del gruppo degli insetti

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 60: Banche dati di sequenze biologiche: Organizzazione e ...

Compromesso tra sensibilitagrave e selettivitagrave

Sequenze appartenenti alla famiglia

Sequenze non appartenenti alla famiglia

Se si considera la distribuzione degli score delle sequenze imparentate rispetto ai falsi positivi molto difficilmente si hanno due curve perfettamente separate Una soglia stringente consente di eliminare i falsi positivi ma ha anche lrsquoeffetto di escludere alcuni veri positivi Viceversa una soglia tollerante comprende tutti i membri della famiglia ma anche molti falsi positivi Un compromesso spesso usato egrave scegliere la soglia allrsquointersezione delle curve

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 61: Banche dati di sequenze biologiche: Organizzazione e ...

Misure dellrsquoaccuratezza della ricerca

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze omologhe (veri positivi + falsi negativi)

=

SENSIBILITArsquo o COPERTURA [ VP (VP + FN) ]

Rapporto tra il numero delle sequenze trovate effettivamente omologhe (veri positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

SELETTIVITArsquo [ VP (VP + FP) ]

Rapporto tra le sequenze trovate ma non omologhe (falsi positivi) e il numero totale delle sequenze trovate (veri positivi + falsi positivi)

=

ERRORE [ FP (VP + FP) ]

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 62: Banche dati di sequenze biologiche: Organizzazione e ...

Copertura vs Errore

Errore falsi positivi sul totale

Sensibilitagrave (Copertura) veri positivi sul totale

Diverse soglie di punteggo

Due metodi Quello tratteggiato egrave peggiore

soglia=10

soglia=20

soglia=30

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 63: Banche dati di sequenze biologiche: Organizzazione e ...

Brenner et al PNAS 1998

Prestazioni degli indicatori quantitativi di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

E-value gt Score gt id

Accuratezza dei metodi di ricerca indicatori

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 64: Banche dati di sequenze biologiche: Organizzazione e ...

Accuratezza dei metodi di ricerca algoritmi

METODO TEMPO (s) COPERTURA 1 ErrSSEARCH E-values 255 184 FASTA ktup = 1 E-values 39 179 FASTA ktup = 2 E-values 14 167 WU-BLAST2 E-values 11 175 BLAST E-values 10 148

Brenner et al PNAS 1998Prestazioni dei programmi di ricerca di omologia nelle superfamiglie di SCOP (omologhi strutturali) con identitagrave di sequenza lt del 40

SSEARCH gt FASTA~WU-BLAST gt BLAST (ungapped)

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni

Page 65: Banche dati di sequenze biologiche: Organizzazione e ...

Argomenti pratici nella ricerca in banca dati

bull Sapere dove cercare (usare la banca dati piugrave completa Notare che alcune sezioni dbEST HTGS Patenthellip sono tenute separate dalla banca dati principale)

bull Ricordarsi dei genomi completi Prestate attenzione anche a quello che ldquonon crsquoegraverdquo

bull Esaminare con attenzione lrsquoallineamento e la feature table delle sequenze simili prima di fare deduzioni su omologia e funzione

bull In BLAST fare attenzione allrsquoopzione filtro per regioni a bassa complessitagrave

bull Utilizzare SSEARCH per il massimo dellrsquoaccuratezza

bull Utilizzare FASTA (ktup=1) per una ricerca nucleotidica

bull Preferire una ricerca con la traduzione in amino acidi se la query sequence egrave codificante

Usare le matrici e le penalitagrave dei i gap opportuni