Modelado 3D. “Introducción”

26
Paulino Gomez-Puertas Bioinformática. 2012 Modelado 3D. “Introducción” http://www.cbm.uam.es/bioweb Paulino Gómez Puertas. Centro de Biología Molecular "Severo Ochoa" CSIC-UAM, Madrid Centro de Investigacion y Tecnologia Agroalimentaria. CITA - DGA.

Transcript of Modelado 3D. “Introducción”

Page 1: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Modelado 3D.

“Introducción”

http://www.cbm.uam.es/bioweb

Paulino Gómez Puertas.

Centro de Biología Molecular "Severo Ochoa"

CSIC-UAM, Madrid

Centro de Investigacion y Tecnologia

Agroalimentaria. CITA - DGA.

Page 2: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Predicción de estructura de proteínas.

Page 3: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Protein structure prediction. Flow chart.

Page 4: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Predicción de estructura de proteínas:

Características 1D.

Page 5: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Page 6: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

1 ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT TTGGGGSSEEEEEEEEEEEETTEEEEEEEEEEEETTTTEEEEEEEETT

51 GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF

SS SS GGGGHHHHSSS GGG B GGGGGG HHHHTTTT EEEEEEEEE

101 KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV

TTS EEEEEEEEEEETTEEEEEEEEEEE TTSTTTTT B S EEE

151 YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY

EEEEEGGGTEEEEEEEEEEEETTS EEEEEEEEEEEESSSS SEE

201 LSTQSALSKDPNEKRDHMVLLEFVTAAGIT HGMDELYK

EEEEEEEE TT SSEEEEEEEEEEES

Notación de estructura secundaria

T=hydrogen bond turn, H=helix, G=310 helix, I=phi helix, B=residue in isolated beta bridge, E=strand, and S=bend Kabsch and Sander (1983) Biopolymers 22, 2577-2637

Page 7: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Métodos de 1a Generación :

Estos son métodos estadísticos basados en la tendencia que presentan los aminoácidos a adoptar estructuras

secundarias.

El primero, propuesto por Chou y Fasman en 1974 empleaba estadísticas extrapoladas de las 15 estructuras de

proteínas determinadas por rayos-X.

Tendencias que se basaban en las propiedades estereoquímicas y fisicoquímicas de los diferentes residuos (casos

especiales son glicina y prolina). Este método se ha mejorado aumentando el número de proteínas empleadas.

El método presenta una fiabilidad de ~50% (cuando se emplean 62 proteínas para obtener las estadísticas).

Métodos de 2a Generación :

La principal mejora de esta 2a generación de métodos es la combinación de bases de datos mayores de estructura de

proteínas y el uso de estadísticas basadas en segmentos: típicamente 11-21 residuos adyacentes y las estadísticas se

compilan para evaluar la propensión del residuo central de ese segmento a estar en una determinada estructura secundaria.

Los algoritmos principalmente empleados estabann basados en información estadística, propiedades fisicoquímicas, perfiles

de secuencia, redes de multicapas, teoría de grafos, estadísticas multivariable, reglas expertas, “nearest-neighbour”.

Métodos de 3a Generación :

La incorporación de la información evolutiva permite una mejora de estas predicciones. Los perfiles de intercambio de

residuos extraídos de los alineamientos de una familia son indicativos de detalles estructurales específicos. Además estos

perfiles implícitamente contienen información no local, ya que la selección evolutiva de proteínas se hace a nivel de estructura

3D y no a nivel de secuencia.

Los perfiles extendidos conseguidos a través de PsiBlast y Hidden-Markov-Models mejoran por tanto las predicciones.

Page 8: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Scheme for PHD Protein Prediction Methods Rost et al. (1997) J. Mol. Biol. 270: 471-480

Sequence information

from protein family

Profile divided from multiple aligment

for a window of adjacent residues

Two levels of neural network

systems: PHDsec and PHDhtm

One level of network

PHDacc

Page 9: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Método de 3 fases :

- perfiles de secuencia (matriz

de sustitución como input para

la red neuronal)

- 1a red neuronal

(15 x 21 input, 3 output: h,s,c)

- 2a red neuronal

(15 x 4 input, 3 output: h,s,c)

Q3 = 76.7 – 78.3%

Ventana óptima = 15 residuos

20+1 incluye la posible expansión de la

cadena; N-, C-

3+1 incluye la posibilidad de expansión

de N-

340.000 seqs.

non redundant

Databank

Query sequence PSI-blast

3 Int. PSI-blast hits

20aa

Se

q. L

en

g.

Position specific

scoring matrix

(log odds)

i

15 aa

scrolling

window

around

residue i

2nd neural network

3x15 input, 3 output

3 state prediction

for residue 1

1st neural network

15x20 input, 3 output

3 state

prediction

for residue

i+1 3 state prediction

for residue i+2

Predicción de Estructura Secundaria, PSI-Pred http://www.psipred.net

Page 10: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Ventajas y Problemas :

Ventajas:

• fiabilidad (predicciones 3-estados) > 70%

• fiabilidad para las betas ~ alfa ~ “loops”

Problemas:

• malos alineamientos llevan a malas predicciones

• confusión de alfas y betas se da en regiones en que se establecen interacciones a largo rango

• precaución al evaluar los resultados para proteínas con características inusuales

Servidores disponibles:

• PHDsec red neuronal que emplea alineamientos múltiples de secuencias. Fiabilidad ~70%.

• Jpred2 dos redes neuronales e información evolutiva (PsiBlast). Versión 2 combina los resultados de 4 redes (JNet, NSSP,

Predator, PHD)

• PSIpred usa perfiles de PsiBlast (filtrando los resultados) y redes neuronales (combina los resultados de varios métodos de

predicción de estructura secundaria). Acierto >76%.

• SAM-T08 Una red neuronal y perfiles de alineamientos múltiples mejorados mediante el empleo de "Hidden Markov".

Page 11: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Predicción de Estructura Secundaria

Accesibilidad al Solvente Predicción de Proteínas Transmembrana

Modificaciones Post-transcripcionales

http://www.expasy.ch/tools/ :

• SignalP predicción de péptidos señales

• ChloroP predicción de péptidos de cloroplastos

• MITOPROT predicción de secuencias diana de

mitocondria

• Predotar predicción de secuencias diana de

mitocondria y plástidos

• NetOGlyc predicción de sitios de O-glicosilación en

proteínas de mamíferos

• NDictyOGlyc predicción de sitos de GlcNAc O-

glicosilación en “Dictyostelium”

• .....

Page 12: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Predicción de estructura de proteínas. Reconocimiento de plegamiento

(threading).

Page 13: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Protein structure prediction. Flow chart.

Page 14: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

protein structure evolution

Page 15: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Page 16: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Espacio Estructural

Espacio de Secuencias

Homology Modelling Targets

Fold Recognition Targets

Espacio de Secuencias vs. Espacio de Estructuras

El desarrollo de los métodos de reconocimiento de plegamiento

se deriva de la observación de que muchas secuencias

aparentemente no relacionadas tienen estructuras 3D muy

similares (folds / plegamientos).

Page 17: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Modelado por Homología vs Reconocimiento de Plegamiento

Threading Modelado por Homología

% seq. ID

0 30 100

Aplicación

Calidad del

Modelo

Cualquier Secuencia >= 30-50% similitud con el molde

Nivel de Plegamiento Nivel Atómico

Secuencia

diana

Page 18: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Superfolds (Orengo et al.)

Page 19: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Algoritmos de threading. General.

Secuencia

problema

Page 20: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Count pairs of each residue

type at different separations

Algoritmos de threading

Potenciales de contacto

Energy of interaction =

-KT ln (frequency of interactions)

Boltzmann principle

d

d

Jones, 1992; Sippl, 1995

Page 21: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Algoritmos de threading

Coincidencia de estructura secundaria y accesibilidad

Rost, 1995 http://cubic.bioc.columbia.edu/predictprotein

secondary structure prediction

Page 22: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

ALGUNOS SERVIDORES DE THREADING

PHYRE: http://www.sbg.bio.ic.ac.uk/~phyre/

Page 23: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

ALGUNOS SERVIDORES DE THREADING

FUGUE: http://tardis.nibio.go.jp/fugue/prfsearch.html

Page 24: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

ALGUNOS SERVIDORES DE THREADING

PSIPRED: http://bioinf.cs.ucl.ac.uk/psipred/

Page 25: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

http://predictioncenter.org/

Critical Assessment of protein Structure Prediction (CASP)

Page 26: Modelado 3D. “Introducción”

Paulino Gomez-Puertas Bioinformática. 2012

Cuestiones…