About using new descriptors for cheminformatics

18
2º Congreso Argentino de Bioinformática y Biología Computacional Universidad Católica de Córdoba / 11-13 de Mayo de 2011 Autores: Farm. Damián Palomba 1,2 Dr. Gustavo E. Vazquez 2 Dra. Mónica F. Díaz 1,2 1 Planta Piloto de Ingeniería Química (PLAPIQUI)- U.N.S.- CONICET 2 Laboratorio de Investigación y Desarrollo en Computación Científica (LIDeCC)- U.N.S.- CONICET 2º Congreso Argentino de Bioinformática y Biología Computacional Universidad Católica de Córdoba, 13/05/2011

Transcript of About using new descriptors for cheminformatics

Page 1: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Autores: Farm. Damián Palomba1,2

Dr. Gustavo E. Vazquez2

Dra. Mónica F. Díaz1,2

1Planta Piloto de Ingeniería Química (PLAPIQUI)- U.N.S.- CONICET2Laboratorio de Investigación y Desarrollo en Computación Científica (LIDeCC)- U.N.S.- CONICET

2º Congreso Argentino de Bioinformática y Biología Computacional

Universidad Católica de Córdoba, 13/05/2011

Page 2: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Introducción

gasto de tiempo e incremento de costos

síntesis y el procesado del material dificultades intrínsecas

Campo de aplicación general

Síntesis de prototipos

poliméricos propiedades

deseadas

Campo de aplicación específico Predicción in silico de propiedades

medición experimental

Desarrollo de nuevos materiales poliméricos

estimar propiedades previo a la síntesis del materialVentaja

2

Page 3: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Temperatura de transición vítrea (Tg)

material se convierte en rígido y frágilpropiedades de los polímeros más ampliamente modeladas

restrinjan movimientos moleculares aumentan Tginteracciones intra e intermoleculares

característica del material propiedades mecánicas y físicas

cambios profundos en el rango de T

manufactura y utilización del material

más fácil modelarM= masa de la unidad repetitiva interconvertible

Tg/M = Temperatura de transición vítrea molar

¡¡Enorme!! n › 20000

3

Page 4: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Teóricos

No linealidad de la propiedad

Métodos QSPR para polímeros

Empíricos

Gran auge

correlacionan target con otras propiedades químicas y físicas

grupos químicos investigados

descriptores moleculares estructura del monómero y/o de la unidad repetitiva

mejores resultados que métodos lineales (MLR)

QSPR con redes neuronales

QSPR= Quantitative Structure-Property Relationship

Calidad del modeloCalidad de los descriptores

Buenos modelos a partir de buenos descriptores

Con

clus

ion

4

Page 5: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

características físicas, químicas, geométricas y electrónicas de las cadenas principales y laterales

Objetivos

por medio de una ANN

Nuevo Modelo QSPR

Nuevos Descriptores

5

Page 6: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Estrategias

Unidad repetitiva

Varias unidades repetitivas

Trímero Monómero Cadena Principal Grupo Lateral

Unidades repetitivasEstireno

(monómero) unidad repetitiva (mer)Poliestireno

¡¡Enorme!! n › 20000

6

Page 7: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Estrategias

Unidad repetitiva

Varias unidades repetitivas

Trímero Monómero Cadena Principal Grupo Lateral

Modelado molecular computacionalPropiedades cadena principal y al grupo lateral de la unidad repetitiva media (trímero)

(Exp las cadenas influyen en la Tg)

estructura tridimensional

7

Page 8: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

unidad repetitiva (media del trímero)

Estireno(monómero) unidad repetitiva

Poliestireno

(mer)

CP

GL

HH

cadena principal grupo lateralunidad repetitivaPolimetilmetacrilato

Modelado molecular computacionalPropiedades cadena principal y al grupo lateral de la unidad repetitiva media (trímero)

(Exp las cadenas influyen en la Tg)

estructura tridimensional

8

Page 9: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Modelado molecular computacionalBase de Datos

trímero (unidos cabeza-cola) completado con hidrógenos

optimizaciónMecánica Molecular

conformaciones energéticamente estables

cálculo de descriptores

grupo lateral unidad repetitiva media del trímero

cadena principal

Método SemiempiricalMecánica Cuántica

(Algorithm Polak-Ribiere) (Método MM+)

Descriptores-Metodología

(estructuralmente diversos)

Tradicionales Nuevos

trímero

(PM elevado)

88 homopolímerosHyperChem 8.0.7

9

Page 10: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Descriptores Tradicionales

Nuevos descriptores

área superficial (aproximada) área superficial (grid) volumen

Log P refractividad

polarizabilidad

masa molecular número de átomosPropiedad cadena principal o lateral/número de átomos de cadena principal o lateral

trímero

descriptores 3DMolecular Properties

Fingerprintsdescriptores binarios

altamente correlacionados (R≥0.9)

descriptores 0D, 1D, 2D

grupo lateral

unidad repetitiva media del trímero

cadena principal

Descriptores para QSPR

10

Page 11: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Generación del modelo QSPR

Validación del modelo QSPR

Descriptores tradicionales

validación interna

Cross-Validation y Y-Scrambling externa

set de datos (entrenamiento, testeo y validación)

al azar varias veces diferentes proporciones

ad hoc 2 grupos de datos

test de randomización

(Target =

(redes neuronales)Statistica

Delphos (software de selección óptima de descriptores)

(criterio químico y estadístico)Mejor conjunto de descriptores

Tg/M)

HyperChem

Dragon

25 mejores conjuntos alternativos de descriptores

Modelo QSPR

Descriptores nuevos

Valores exp de propiedades

11

Page 12: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Resultados y discusión

área superficial (ap)masa RBN

grupo lateral

área superficial (ap)

cadena principal trímero

modelo QSPR

MLP 4-23-1Parámetros de la red neuronal

Características de los sets

función de activación capa oculta y salida Tanh

error functionSOS

algoritmo de entrenamientoBFGS 81

Entrenamiento:50% (n= 44) testeo :23% (n=20) Validación:27% (n=24 )q2= 0.95R2= 0.992 R2= 0.946

número bajo principio de parsimonia (Occam) compuestos estructuralmente diversos

más descriptores pocos descriptores familia en particular

literatura

Rearmado de los sets60-20-20 R2= 0.98; 0.98; 0.9650-25-25

no resultado al azar

2 sets ad hocR2= 0.97; 0.93; 0.93

sin remover outliers

proporción equitativa de todas las familias

4 descriptores

R2= 0.98; 0.99; 0.92R2= 0.99; 0.97; 0.9160-15-2560-15-25

12

Page 13: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

área superficial del grupo lateral (aproximada)

área superficial de la cadena principal (aproximada)

relación inversa ocupan mayor área superficial

ante igual cantidad de materialos grupos más flexibles (los que poseen libre rotación)

si la misma cantidad de materia ocupa menos área superficial masa es más rígida

restringen los movimientos de rotación

relación inversa diferenciar estructuralmente en la cadena principal

Tg

Áre

a su

perfi

cial

GL

Áre

a su

perfi

cial

CP

Descriptores del modelo QSPR

Tg/M Tg/M13

Page 14: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

number of rotatable bonds (RBN) Es el número de enlaces que permiten libre rotación alrededor de sí mismos

cadenas laterales longitudinales extensas Falla polímeros cadena lateral corta

relación inversa

estos polímeros se diferencian A S del GL

correlación A sup del GL

≠ cdo varía la CPpolióxidos el RBN es ≠ para c/u y el A S GL es 0 para todos

el nro de enlaces que rotan libremente aumenta el A S GL

RBN también M, de modo que Tg/M

masa del grupo lateral

relación inversa

Correlac A sup GL masa similar AS GL similar masa del grupo lateral

A S GL

más representativa

2 grupos laterales

14

masa GL también M, de modo que Tg/M

Page 15: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Tg/M

mas

a G

L

RB

NTg/M

15

Page 16: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Dificultades superadas y ventajas con el enfoqueDificultad

optimizar trímero unidad repetitiva media

toda molécula es prácticamente imposible amplias distribuciones de PM y PM elevados

trímero independientes del PM

peso molecular y target

Tg ≈ cte PM ≈ 25000

PM › 50000

interacciones intramolecularesocurren a › escala

velocidad de optimización

facilidad de cálculo de los descriptores

influencia fisicoquímica, estérica y electrónica de las unidades laterales

conserva las características estructurales

Ventajas

base de datos

cálculodescriptores

16

Page 17: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

Nuevos DescriptoresNuevos Descriptores

Clara interpretación fisicoquímica

Fáciles de calcular operación automatizada

Independencia del tipo de átomos y grupos atómicos

sólo las cadenas más generalizables

Nuevo Modelo QSPRNuevo Modelo QSPR

Parámetros estadísticos equiparables a los mejoresNúmero bajo de descriptores

Conclusiones

Trabajo futuroModelo con mayor número de unidades repetitivas

Otras propiedades target mezclas de materiales poliméricos

Heteropolímeros Polímeros entrecruzados

Relación inversa Tg/M

17

Page 18: About using new descriptors for cheminformatics

2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011

18