Introduzione alla Bioinformatica Strutturale Dalla...

77
Introduzione alla Bioinformatica Strutturale Dalla sequenza alla struttura delle proteine 1

Transcript of Introduzione alla Bioinformatica Strutturale Dalla...

Page 1: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Introduzione alla

Bioinformatica Strutturale

Dalla sequenza alla

struttura delle proteine

1

Page 2: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

La struttura di una proteina si organizza in 4 livelli:

2

Page 3: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Struttura primaria

• La sequenza proteica

• 20 amminoacidi con caratteristiche chimico-fisico peculiari

3 http://schoolworkhelper.net/amino-acids-categories-function/

Page 4: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Le proteine: complessi polimeri di amminoacidi

Il legame peptidico lega covalentemente amminoacidi adiacenti costituendo il “backbone” della proteina. Una proteina è formata da una o più catene polipeptidiche.

http://en.wikipedia.org/wiki/Protein

catena laterale

Legame peptidico

L’alternanza di legami peptidici costituisce il backbone e determina la struttura secondaria della proteina

4

Page 5: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Struttura secondaria

5

Page 6: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Il pattern di ripiegamento in termini di angoli di rotazione

6

Gli angoli φ e ψ sono definiti dai legami singoli che uniscono il Ca al gruppo NH e CO contigui e dai due legami peptidici (planari) coinvolti. Essi non possono assumere qualunque valore per ragioni steriche

Page 7: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Caratteristiche

• I legami chimici hanno lunghezze caratteristiche

• Il legame peptidico ha un parziale carattere di legame doppio (più corto e rigido)

• La rotazione viene limitata a causa dell’ingombro sterico

7

Page 8: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

8

Ogni tipo di struttura secondaria ha una combinazione caratteristica di angoli (φ,ψ) conformazioni permesse sulle aree ombreggiate

Plot di Ramachandran

α-elica sinistrorsa

Page 9: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

La struttura secondaria è definita dal pattern dei legami a idrogeno

Legame a H tra residuo i e i+4 (C=O dell'uno e N-H dell'altro). Arrangiamento molto stabile

L'elica che si forma ha un giro completo ogni 3.6 a.a e la distanza media è 0.54 nm

a-elica (φ = -60°,ψ = -50°)

α-elica

Page 10: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Foglietto β

10 10

antiparallelo

parallelo

(φ <0 ,ψ >0) Foglietto b: Non ci sono legami idrogeno tra residui sullo stesso filamento. Più filamenti β disposti uno accanto all'altro e collegati tra loro da tre o più legami H che formano una struttura planare molto compatta

Page 11: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

11

Esistono anche strutture secondarie aperiodiche

b-turn: il legame H è tra O

del residui i e H del gruppo amminico del residuo i+3

Random coil o “ansa” (loop): gli angoli diedri non

presentano generalmente regolarità

Page 12: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Strutture super-secondarie

12

Composte di 2-3 elementi a struttura secondaria

Esempio: helix-turn-helix Presente in motivi di legame al DNA

Page 13: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

La struttura terziaria e quaternaria dipendono dalle interazioni fra le catene laterali, che hanno proprietà chimico-fisiche molto diverse

13

Page 14: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

La struttura 3D di una proteina e’ molto complessa (1958, John Kendrew, prima struttura della mioglobina)

strutture depositate nel Protein Data Bank

14

Page 15: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Struttura terziaria

• Dominio: una porzione ripiegata indipendente di una proteina.

• Repeat: (Es.: LRR, ANK, ecc…) sono composte di elementi a struttura secondaria. Stabilizzati da interazioni tra le repeat

• Zinc fingers: la struttura è stabilizzata dal legame con uno ione zinco

• EF Hands: la struttura è stabilizzata da uno ione calcio

15

Page 16: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

LRR repeat

16 "PDB 1ogq EBI" by Jawahar Swaminathan and MSD staff at the European Bioinformatics Institute - http://www.ebi.ac.uk/pdbe-srv/view/images/entry/1ogq600.png

Page 17: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Zinc finger

17 http://it.wikipedia.org/wiki/Dito_di_zinco#/media/File:Zinc_finger.png

Page 18: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

EF hands

18

Page 19: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

L’organizzazione strutturale delle proteine e’ancora piu’ complessa:

Si identificano motivi strutturali e domini, inoltre cofattori, gruppi

prostetici…

Esempio: il motivo EF-hand e la calmodulina

Valeyev et al., BMC Systems Biology 2008, 2:48

19

Page 20: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Struttura quaternaria

• Complessi multisubunità

• Omodimeri

• Complessi ligando recettore

20

Page 21: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Ripiegamento (folding) delle proteine

• Le proteine possono ripiegarsi rapidamente e spontaneamente

• Il ripiegamento delle proteine avviene durante la sintesi della proteina

• Le proprietà chimico-fisiche dei residui amminoacidici determinano la struttura della proteina

• Alcune proteine acquistano la struttura tridimensionale stabile solo in presenza di un ligando

21

Page 22: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Similarità strutturale

• Similarità strutturale tra proteine può derivare da evoluzione divergente di omologhi/ortologhi da un ancestore comune la struttura tridimensionale è molto più conservata della sequenza primaria.

• Similarità strutturale tra proteine può derivare da evoluzione convergente: – Non c’è similarità di sequenza ma le proteine

potrebbero avere una conformazione strutturale simile a livello del sito attivo

22

Page 23: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Quindi…

• Proteine con sequenze simili hanno generalmente anche strutture tridimensionali simili

• Proteine simili da un punto di vista strutturale tendono ad avere anche funzioni simili (non sempre)

• Proteine con funzione simile potrebbero avere una sequenza completamente differente (il sito attivo ha una struttura simile derivante da evoluzione convergente)

23

Page 24: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Determinazione della struttura tridimensionale di una proteina

24

Cristallografia a raggi X

http://swift.cmbi.ru.nl/teach/AIOC/IMAGE/Xray1.png http://www.assignmenthelp.net/assignment_help/images/chemistry/solid-state/x-ray-crystallography.gif

•Un raggio X viene focalizzato su un cristallo della proteina. •Gli atomi all’interno del cristallo diffraggono il fascio: ogni cristallo genera un profilo di diffrazione caratteristico che può essere utilizzato per calcolare la struttura tridimensionale. •Alta risoluzione < 1 A (10 nm) (1 atomo = 0.2-3 A)

http://chemwiki.ucdavis.edu/@api/deki/files/242/Picture4.JPG?revision=1

Page 25: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Risoluzione e struttura secondaria

Risoluzione (A) Informazioni

4.0 Folding complessivo

3.5 Struttura secondaria

2.5 Posizione delle catene laterali

1.5 Definizione degli angoli phi e psi

1.0 Visualizzazione degli atomi di idrogeno

25

Page 26: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Determinazione della struttura tridimensionale di una proteina

• Misura i livelli energetici di atomi magnetici • I livelli energetici sono influenzati dall’ambiente

locale (legami covalente, prossimità) • Gli spettri NMR producono dei picchi che

corrispondono alle interazioni tra le paia di atomi • Particolari variazioni nei livelli energetici possono

essere messi in relazione con la struttura secondaria.

• Risoluzione: 1-2.5 A

26

Risonanza magnetica nucleare (NMR)

Page 27: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Determinazione della struttura tridimensionale di una proteina

• Vantaggi:

– Produce informazioni sulla proteina in soluzione e non in un cristallo rigido come raggi X

– Meno preciso delle strutture “rigide” ai raggi X ma consente di studiare gli aspetti “dinamici” della proteina

27

Risonanza magnetica nucleare (NMR)

Page 28: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Determinazione della struttura tridimensionale di una proteina

• Una struttura NMR include un insieme di strutture consistenti con la lista delle restrizioni sperimentali.

28 http://www.rcsb.org/pdb/education_discussion/Looking-at-Structures/images/restraints.jpg

Risonanza magnetica nucleare (NMR)

Page 29: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Determinazione della struttura tridimensionale di una proteina

• Microscopia elettronica:

– Un fascio di elettroni viene utilizzato per visualizzare la proteina

– Produce immagini 2D

– Dalla sovrapposizione di più immagini 2D o tramite altri trucchi è possibile ricostruire la struttura 3D

29

By Gringer (Commons: Scheme TEM en.png) [GFDL (www.gnu.org/copyleft/fdl.html) or CC-BY-SA-3.0 (http://creativecommons.org/licenses/by-sa/3.0/)], via Wikimedia Commons

Page 30: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Determinazione della struttura tridimensionale di una proteina

30

Microscopia elettronica

Page 31: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Determinazione della struttura tridimensionale

• Cristallografia a raggi X + alta risoluzione - Richiede la produzione dei cristalli - Struttura in una conformazione “statica” (artefatti dovuti alla

cristallizzazione)

• NMR + non richiede la produzione di cristalli + consente di analizzare la proteina in soluzione in conformazione

dinamica - richiede alte concetrazioni di proteina - più adatta a proteine di basso peso molecolare

• Microscopio a trasmissione + produzione diretta dell’immagine - richiede la preparazione di cristalli - possibile produzione di artefatti

31

Page 32: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Esercizio: analisi esaustiva della proteina con cod. PDB: 1VLC

Banche dati di Proteine: il Protein Data Bank

32

Ad oggi ci sono 108789 strutture depositate

http://www.rcsb.org/pdb/home/home.do

Page 33: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Banche dati di Proteine: il Protein Data Bank

PDB E’ la principale risorsa per le strutture di macromolecole: Proteine, Supercomplessi, Acidi nucleici

Le strutture sono determinate mediante cristallografia e NMR

Oltre ai file di struttura (.PDB) sono presenti informazioni sulle sequenze e molti strumenti per:

Analisi di struttura, Visualizzazione di ligandi, Determinazione delle similitudini

33

Page 34: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Accesso a PDB

• RCSB PDB (www.rcsb.org/pdb/home/home.do)

• PDBe (http://www.ebi.ac.uk/pdbe/)

• PDBj (www.pdbj.org/) • BMRB (Biological Magnetic

Resonance Data Bank, www.bmrb.wisc.edu)

4 siti membri: i dati sono gli

stessi, cambia l’interfaccia e i tool

34

Page 35: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Esempio di ricerca: 1A3I

35

Page 36: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Ricerca avanzata

36

Ricerca sulla base di un UniprotID

Page 37: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Ricerca avanzata

37

Ricerca tramite blast

Page 38: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Esempio di ricerca: 1A3I

38

ID della proteina

Descrizione

Citazione bibliografica di riferimento Struttura 3D

Descrizione molecolare

Page 39: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Esempio di ricerca: 1A3I

39

Dai tab è possibile accedere ad altre informazioni

Page 40: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Visualizzazione della struttura 3D

40

E’ possibile modificare la visualizzazione agendo sui parametri di JSmol

Page 41: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Visualizzazione grafica della sequenza

41

Rappresentazione grafica della sequenza

Page 42: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Visualizzazione grafica della sequenza

42

Page 43: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Similarità strutturali

43

All’aumentare della distanza evoluzionistica il grado di similarità diminuisce. Proteine con basso grado di similarità possono ancora avere funzione e struttura simile L’algoritmo jFATCAT consente di identificare similarità nella struttura proteica

Page 44: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Similarità strutturali

44

Cliccando su view è possibile accedere ad un tool di allineamento e comparazione tra strutture proteiche

Page 45: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Similarità strutturali

45

Page 46: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

46

Il file .PDB Si può scaricare il file .pdb dal link a destra, e aprirlo con un qualsiasi editor di testo

Lo stesso file aperto con un visualizzatore molecolare (es. PyMol o VMD) permette di visualizzare la struttura 3D della macromolecola

Page 47: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

47

Il file .PDB: formato testuale per la descrizione di strutture 3D di macromolecole biologiche

Contiene la descrizione e l'annotazione di strutture di proteine e acidi nucleici tra cui: coordinate atomiche, rotameri di catene laterali osservati, assegnazione a particolari strutture secondarie, e connettività atomica. Altre molecole come acqua, ioni, acidi nucleici, ligandi e così via possono essere descritti nel formato pdb.

Page 48: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

48

Il formato PDB

PDB ID Data sottomissione Classificazione

Tipo di dato sperimentale

Autori

Commenti più dettagliati

Descrive come calcolare le coordinate del multimero a partire da quelle esplicitate per la singola unità

Sequenza delle catene peptidiche

Coordinate degli atomi che che fanno parte della proteina

HETATM: atomi che non fanno parte della proteina (piccole molecole o ioni)

Page 49: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

49

Il formato PDB: ATOM Numero

dell’atomo Identità

dell’atomo

Identità del residuo

Catena

Numero del residuo

X Y Z

Coordinate

Occupancy

•Occupancy: indica la frazione di molecole per cui l’atomo si trova in questa posizione. Di solito = 1, sarà inferiore ad 1 in caso di conformazioni multiple •Temperature factor: indica la quantità di “sfumatura” della densità elettronica dovuta alla vibrazione degli atomi o a differenze tra le molecole nel cristallo.

Temperature factor

Page 50: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

50

http://www.rcsb.org/pdb/101/static101.do?p=education_discussion/Looking-at-Structures/coordinates.html

Zona ad alta densità (giallo) arriva fino al bordo.

Stesso amminoacido ma esposto all’esterno della proteina (meno stabile): zona ad alta densità sono in una piccola porzione centrale.

Page 51: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Banche dati – Proteine: Pfam e Prosite Utili per studiare e catalogare le strutture proteiche.

Le similitudini (domini, fold, ponti disolfuro, ecc) possono essere usate per inferire la funzione.

Utile tra proteine simili e omologhe in specie diverse

• Suddivide le proteine e ne descrive le caratteristiche in famiglie in base a metodi statistici:

– Allineamenti

– HMM

• Individua, data una sequenza, le possibili famiglie di appartenenza.

• Determina possibili caratteristiche funzionali; domini; cofattori; siti attivi; aminoacidi strutturalmente importanti; livello di conservazione

51

Page 52: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Pfam

52 http://pfam.xfam.org/

Page 53: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Pfam

53 http://pfam.xfam.org/

Page 54: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Pfam

54

Page 55: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

Database che definiscono famiglie strutturali.

Aiutano a predire le strutture e a caratterizzarle (secondo un’idea evoluzionistica della funzione).

Classificazione in modo curato sulla

base di:

CLASSE (contenuto e tipo di strutture

secondarie)

ARCHITETTURA (descrizione

dell'orientamento delle strutture

secondarie senza tener conto delle

connessioni)

TOPOLOGIA (tiene conto delle

connessioni che caratterizzano le strutture

secondarie)

(H)OMOLOGIA (raggruppa proteine con

strutture e funzioni simili) 55

Banche dati – Proteine: CATH

CATH: a hierarchical domain classification of protein structures in the Protein Data Bank

Page 56: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

56

E’ possibile prevedere proprietà strutturali di proteine a partire dalla sequenza?

In molti casi (ma non in tutti…) la strutture 3D assunta da una proteina è determinata totalmente dalla propria sequenza. Questo è alla base della scoperta di Richard Anfinsen (1957) e del paradigma del protein folding

La RNasi A denaturata chimicamente è in grado di ripiegarsi in forma nativa e catalicamente attiva se vengono gradualmente a mancare le condizioni denaturanti: l’informazione sul corretto folding deve essere nella sequenza

Page 57: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

57

Le reti neurali: un metodo efficace per predizioni di elementi strutturali proteici

Premesse: • E’ possibile riprodurre artificialmente alcune funzioni cognitive del cervello e “allenarle”, come i bambini apprendono e riconoscono

•Si possono usare architetture di calcolo dette reti neurali artificiali (ANN)

•Sulla base di caratteristiche distintive di un oggetto (osservazione) la rete deve essere in grado di classificarlo

•Il numero e le la modalità di interconnessione di equazioni di una rete ne definiscono l’architettura, che viene definita e organizzata durante l’apprendimento

Page 58: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

58

Struttura di una rete neurale Ogni rete deve possedere: 1) un’area in cui i dati distintivi dell’oggetto entrano; 2) una in cui sono elaborati; 3) un’altra in cui viene emesso il risultato. L’unità elementare di calcolo di una NN è il neurone: la connessione tra i vari neuroni è detta sinapsi. Ogni neurone riceve uno o più input attraverso valori numerici xi, e restituisce dopo l’elaborazione l’output y.

x è l’ingresso e si può esprimere come somma pesata dei singoli input xi provenienti dai neuroni i, ciascuno con un peso wi, e da un parametro di modulazione θ y è la funzione di attivazione del neurone

Sinapsi: eccitatoria se wi>0 inibitoria se wi <0

Page 59: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

59

L’output y di un neurone può costituire l’input di un altro neurone a valle, e così via, fino ai neuroni di output che emettono un valore che tiene conto di tutta l’informazione transitata nel network. I neuroni possono essere connessi a strati (layers) completamente connessi fra loro: ogni neurone di uno strato è connesso a tutti i neuroni dello strato successivo. Il flusso dell’informazione procede dal primo all’ultimo strato (feed forward): il primo strato è l’ “occhio”, l’ultimo la “bocca”, in mezzo tutti gli strati di elaborazione.

Esempio semplice: il perceptrone, NN a 2 strati. Qui riceve in ingresso 5 valori e produce in output il valore 0 o 1 a seconda della soglia t e del risultato della funzione di attivazione. Le sinapsi amplificano o attenuano il segnale in base ai pesi w

Page 60: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

60

Architettura e apprendimento di reti neurali Una rete semplicissima riesce a classificare gli oggetti in base a pochi descrittori (x1, x2, …, xN) linearmente separabili

se il “perceptrone apprende” l’equazione della retta e decide a quale parte di piano appartiene un oggetto caratterizzato dalle coordinate (x1,x2)

Se gli oggetti di due classi non sono separabili linearmente serve una rete in grado di apprendere funzioni di ordine superiore a quello lineare (retta)

Page 61: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

61

Il problema della percezione di relazioni di ordini superiori al primo si risolve mediante reti con strati nascosti, che richiedono algoritmi più complicati

Prima di usare la rete come classificatore di oggetti sulla base di un assetto di descrittori numerici, la rete deve essere guidata all’apprendimento, cioè deve imparare a riconoscere quegli oggetti

Page 62: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

62

Apprendimento: si presenta alla rete una serie di oggetti che appartiene o meno alla classe in esame e si interroga la rete. L’apprendimento ha successo se la rete riesce a riconoscere gli elementi essenziali che definiscono l’oggetto e può generalizzare. Durante l’apprendimento si modulano i parametri wi, eventualmente anche q e t per ottimizzare l’accuratezza in un apprendimento supervisonato:

Esempio: si forniscono alla NN

in sequenza alcuni vettori di n elementi xi descrittivi di oggetti noti da riconoscere (peso, lunghezza, colore…). La rete deve emettere 1 per ogni oggetto riconosciuto. Se non lo classifica bene, si modificano i parametri fino ad ottenere 1. I parametri si ottimizzano (fino ad un certo limite) con la retropropagazione (cambiando wi)

Page 63: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

63

Cosa c’entra tutto ciò con le proteine? le reti neurali possono riconoscere la presenza di particolari segnali di sequenza e prevedere proprietà strutturali e funzionali associate al segnale. Esempio: la struttura secondaria Storicamente: approcci statistici basati sull’osservazione (frequenza di residui in particolari ss; “propensione”; Chou e Fasman, 1974) Il problema però è molto adatto alle NN: L’idea: la rete può “leggere” una porzione di sequenza e decidere se il residuo centrale appartiene alle due principali ss periodiche (a-elica, b sheet) o a nessuno delle due. Usando poi finestre scorrevoli si può estendere la ricerca a tutta la sequenza

Page 64: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

64

La rete di Holley & Karplus (1989) per la previsione di ss - Ha uno strato di ingresso, uno strato nascosto e uno di output formato da due neuroni - input: 17 neuroni che “leggono” una finestra di 17 aa - la rete prevede la conformazione del residuo centrale (il nono) - la sequenza scorre dall’N- al C-terminale (residui 1-17, 2-18, ecc.) e l’info si propaga feed-forward - output dato dai due neuroni in uscita: (1,0) a elica; (0,1) b sheet; (0,0) random coil

Page 65: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

65

Per allenare la rete occorrono due set di dati: un training set (campione di apprendimento) e un test set (verifica della performance). Questi non devono mai coincidere Training set: per modulare i parametri della rete Test set: per valutare l’accuratezza e l’errore della NN Es. due set di proteine non omologhe a struttura nota per allenare e validare la rete

Page 66: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

66

CODIFICA DI UN AMMINOCIDO: Come può la rete “vedere” un amminoacido? In genere, un aa è codificato con un vettore di 21 componenti, tutti uguali a zero tranne quello la cui posizione identifica l’aa. L’ultima posizione è dedicata a caratteri riempitivi

Es. codifica dell’alanina

I caratteri riempitivi servono ad esempio per predire la conformazione del residuo all’N terminale. Se esso diventa centrale, devo riempire le posizioni precedenti

Page 67: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

67

CODIFICA DI UN ALLINEAMENTO MULTIPLO: Notevole aumento di accuratezza della previsione ss Nei singoli neuroni non entrano più singoli residui in input, ma profili contenenti le frequenze del residuo • Ciascun neurone in ingresso contiene 21 unità corrispondenti alle 21 colonne del profilo (ultima colonna: eventuali indel)

•Esempio: finestra scorrevole con N=13

Page 68: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

68

CODIFICA DI UN ALLINEAMENTO MULTIPLO: Notevole aumento di accuratezza della previsione di strutture secondarie Nei singoli neuroni non entrano più singoli residui in input, ma profili contenenti le frequenze del residuo Allineamento

multiplo in input

Profilo relativo

Page 69: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

69

Storicamente: Profile Network from Heidelberg (PHD) sviluppato da Rost e Sander (1993) è il primo sistema di previsione che sfrutta questa strategia. E’ basato su tre livelli: Livello 1: input è MA sotto forma di profilo. 13 gruppi di 21 unità ciascuno, uno strato nascosto e 3 unità di uscita (una per a elica, una per b sheet e una per random coil). Il neurone che emette il valore più elevato indica la ss prevista per il residuo al centro della finestra (mappatura sequenza-struttura) Livello 2: l’output del livello 1 può contenere incongruenze. Es., singoli residui in elica. C’è una seconda rete allenata a risolvere questi inghippi (17 gruppi di 3 neuroni, ciascuno riceve in ingresso i tre valori prodotti dal livello precedente) (mappatura struttura-struttura) Livello 3: media risultati leggermente diversi ottenuti ripetendo le previsioni utilizzando reti con parametri leggermente diversi; la “giuria” assegna la predizione in base alla media delle varie elaborazioni e fornisce l’attendibilità della previsione

Page 70: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

70

Schema del funzionamento di PHD

Nota: il numero di neuroni dei vari strati non è fedelmente riportato qui! Inoltre non sono riportate tutte le reti alternative per ciascun livello: qui solo due, nella realtà fino a 8-9

Page 71: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

71

Schema del funzionamento di PSIPRED Sviluppato da David Jones (1999), utilizza 3 iterazioni di PSI-BLAST per costruire il profilo porizionale raccogliendo le sequenze omologhe alla query

Sequenza target

15 neuroni con 21 unità ciascuno, 75 unità nascoste, 3 unità di output

(legge 15 posiz alla volta)

Page 72: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

72

Esempio di output di PSIPRED

Page 73: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

73

Schema del funzionamento di JPRED Sviluppato da Cuff & Barton (2000), al primo livello sfrutta un MA codificato mediante una matrice PSSM calcolata da PSI-BLAST o un HMM. Esiste un secondo livello per rimuovere incongruenze ed una giuria che eventualmente coinvolge una terza rete. Accuratezza 81.5%

Le matrici in ingresso servono per prevedere indipendentemente la struttura secondaria e l’accessibilità al solvente

III rete

Page 74: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

74

Le reti neurali possono essere utilizzate per predire anche altre proprietà delle proteine. Ad esempio: L’accessibilità al solvente: si fa “rotolare” una sfera di 1.4 Å sulla superficie della proteina e si determina la SAS (solvent-accessible surface). La SAS è diversa dalla superficie di Van der Waals (unione delle superfici ottenute dai raggi di VdW) e dalla superficie molecolare (inviluppo inferiore generato dal probe)

Page 75: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

75

Le proteine strutturate in soluzione presentano alcuni residui esposti al solvente, ed altri “sepolti” (buried) al loro interno. Può essere utile valutare l’accessibilità relativa del residuo X per confronto con il tirpeptide libero G-X-G Domanda: che frazione di questa Phe è effettivamente esposta? Risposta: 24/210 Å2 = 11.4 %

Page 76: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

76

JPRED permette anche di predire l’accessibilità al solvente. Esempio: sol 25 : buried (B) se l’accessibilità è < 25% Nell’output è specificata la predizione delle singole matrici usate (hmm o pssm)

Page 77: Introduzione alla Bioinformatica Strutturale Dalla ...ddlab.sci.univr.it/alberto/bioinformatica/Teoria_L08_Introduzione... · Le similitudini (domini, fold, ponti disolfuro, ecc)

77

La topologia di membrana si può predire mediante NN. Esistono vari tools che migliorano quelli storici funzionanti su indici di idrofobicità. I più moderni ed efficaci usano le NN (es. PHDhtm, Rost et al., 1995) o modelli nascosti di Markov . Un esempio è il programma TMHMM di Krogh et al. (2001) che ha un’accuratezza dell’80%

Esempio di output di TMHMM