Modelos gráficos para detección de loci de susceptibilidad en enfermedades complejas Nuria Medina...

Modelos gráficos para detección de loci de susceptibilidad en enfermedades complejas

Nuria Medina MedinaRosana Montes Soldado

María del Mar Abad Grau

Enfermedades complejas

Ej: diabetes mellitus, cardiopatía isquémica, asma, cáncer, obesidad, esclerosis múltiple, etc.

Enfermedad compleja

G1

G2

Gn

G3. . .

E1

E2

Em

E3

Métodos de identificación de

variaciones genéticas en

enfermedades complejas

(Burton et al. 2005)

F

amil

ias

y/o

no

empa

rent

ados

Fam

ilias

MR

NA

(tra

nscr

ipto

ma)

/pr

oteí

nas

(pro

teom

a)

Fen

otip

osH

aplo

tipo

s(ge

nom

a)/f

enot

ipos





F

amil

ias

y/o

no

empa

rent

ados

Fam

ilias

MR

NA

(tra

nscr

ipto

ma)

/pr

oteí

nas

(pro

teom

a)F

enot

ipos

Hap

loti

pos(

geno

ma)

/fen

otip

os

Riesgos de recurrencia





F

amil

ias

y/o

no

empa

rent

ados

Fam

ilias

MR

NA

(tra

nscr

ipto

ma)

/pr

oteí

nas

(pro

teom

a)

Fen

otip

osH

aplo

tipo

s(ge

nom

a)/f

enot

ipos

Heredabilidad

Gemelos monozigóticos y dizigóticos

Estudios de adopción





F

amil

ias

y/o

no

empa

rent

ados

Fam

ilias

MR

NA

(tra

nscr

ipto

ma)

/pr

oteí

nas

(pro

teom

a)

Fen

otip

osH

aplo

tipo

s(ge

nom

a)/f

enot

ipos

Análisis de Segregación

¿Hay genes de gran influencia? Estimación del modelo de herencia de un

fenotipo Modelos de herencia complejos: menos

usados Alternativas:

Estudios de ligamiento no paramétricos y otros estudios de genoma (desde la secuenciación genética)





F

amil

ias

y/o

no

empa

rent

ados

Fam

ilias

MR

NA

(tra

nscr

ipto

ma)

/pr

oteí

nas

(pro

teom

a)

Fen

otip

osH

aplo

tipo

s(ge

nom

a)/f

enot

ipos

Estudios de genoma Estudios (intra) familiares

Análisis de ligamiento Estudios poblacionales

Individuos no emparentados Estudios de asociación Mapeo del desequilibrio de ligamiento

Individuos emparentados Test de haplotipos de riesgo (HRR) Test de distorsión de la trasmisión (TDT)

•Directos•Indirectos

•Genoma completo

Estudios de ligamiento y poblacionales indirectos

Objetivos: Búsqueda de determinantes genéticos mediante la acotación de zonas de asociación

Conceptos clave: Estudios de ligamiento (bajo acotamiento): ligamiento Estudios poblacionales indirectos (alto acotamiento):

desequilibrio de ligamiento

Meiosis

Recombinación genética por entrecruzamiento

Ligamiento

Factor de recombinación θa,b:Probabilidad de recombinación en la meiosis entre loci a y b

Conceptos basados en la recombinación genética Ligamiento (familia): cuando alelos en dos loci

distintos pasan juntos a los gametos de forma más frecuente de lo esperado

Desequilibrio de ligamiento (DL) o asociación alélica (población): cuando en una población, alelos en dos loci distintos pasan juntos a los gametos de forma más frecuente de lo esperado

DLa,b

ligamientoa,b

1

DL

distancia 500 kb





F

amil

ias

y/o

no

empa

rent

ados

Fam

ilias

MR

NA

(tra

nscr

ipto

ma)

/pr

oteí

nas

(pro

teom

a)

Fen

otip

osH

aplo

tipo

s(ge

nom

a)/f

enot

ipos

Árbol de haplotipos en un análisis de ligamientoparamétrico para una enf.mendeliana dominante

Análisis del Ligamiento

θenf,marcador

más verosímil

•Paramétrico: enfermedades mendelianas

•Heterogeneidad genética•No paramétrico: enfermedades

complejas•Idea: más haplotipos comunes entre afectados emparentados (IBD) cerca de un gen de susceptibilidad•Tipos:

•Pares de hermanos afectados•Varios hermanos•Distintos parentescos

•Genehunter, Allegro

Construcción de mapas genéticos o de ligamiento Estimación de Ɵa =Ɵa,a+1 para cada par de posiciones consecutivas Algoritmo EM (Genehunter, Allegro, Merlin)

E: Dado Ɵi=(Ɵi1, ..., Ɵim-1), calcular la esperanza de recombinaciones por posición Elston-Stewart Cadenas ocultas de Markov (Lander & Green 87): Allegro,

Genehunter, Merlin M: Calcular EMV

Ɵi+1=(Ɵi+1 1, ..., Ɵi+1, m-1)

Construcción de mapas genéticos o de ligamiento

O(26mn)

O(6mn22n)

m: total posicionesn: total individuos

Vectores de herencia

Árbol empaquetado

Árbol ralo(Merlin: Abecasis et al. 2002)





F

amil

ias

y/o

no

empa

rent

ados

Fam

ilias

MR

NA

(tra

nscr

ipto

ma)

/pr

oteí

nas

(pro

teom

a)

Fen

otip

osH

aplo

tipo

s(ge

nom

a)/f

enot

ipos

Modelos gráficos para el análisis de haplotipos en estudios poblacionales

Deterministas Árboles filogenéticos de haplotipos Redes de recombinación ancestral

Estocásticos Redes bayesianas Redes de Markov Grafos no dirigidos

Árbol Filogenético La forma convencional de un árbol filogenético es la

siguiente:

Árbol Filogenético El nodo raíz indica la

posición de la divergencia base, y en ciencias de la computación suele situarse arriba en lugar de abajo del árbol

Las ramas que parten de los nodos interiores indican divergencias genéticas y pueden pintarse también con forma rectangular

Árbol Filogenético La rotación de las ramas no importa, de

modo que un mismo árbol permite distintas representaciones

Árbol Filogenético La raíz del árbol es importante porque da

la dirección

Árbol Filogenético Existen distintos tipos de árboles:

Dendograma: indica sólo relaciones de parecido

Cladograma: indica relaciones de parecido y evolución. Muestra la distancia al antecesor común en términos relativos. La longitud de las ramas no indican el tiempo evolutivo

Serían equivalentes en un dendograma, pues en ellos

el eje Y no tiene significado

Árbol Filogenético Filograma: indica relaciones de parecido, evolución y

distancia, para ello contiene información adicional dada por la longitud de las ramas. Los números asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad de cambio evolutivo.

Construir el Árbol Filogenético de haplotipos

Un posible ejemplo de conjunto de secuencias sería:

Construir el Árbol Filogenético Existen distintos métodos para construir árboles

filogenéticos: Métodos de distancia: Usando matrices de distancia:

UPGMA: Unweighted Pair Group Method with Arithmetic Mean. NJ-Neighbour Joining. Vecino más cercano Minimum evolution. Utiliza el método de mínimos cuadrados.

Métodos discretos: Operan directamente con las secuencias Máxima parsimonia: buscar el menor número de mutaciones

requeridas Parsimonia estadística: mutación múltiple en distancias cortas Máxima verosimilitud (Maximum likelihood): utiliza el estado del

carácter y la distancia

Construir el Árbol Filogenético

Método parsimonia: La idea es que la hipótesis más sencilla es la más

probable Entonces el objetivo es encontrar el árbol que minimice

el número de cambios

Máxima parsimonia versus parsimonia estadística (Templeton 2000)

Pasos en la construcción de árboles dehaplotipos(Templeton 2000)

Ejemplo de árbol de haplotipos

Redes de recombinación ancestral

TreeDT: Árboles de haplotipos en estudios de asociación Tree Scanning (Templeton et al. 2005): prior treeTreeDT (Sevon et al. 2006)

Se construye un árbol para cada posición y se aplica el “Tree Disequilibrium Test”que busca subárboles con muchos haplotipos enfermos

Máxima parsimonia en la recombinación(Song, Hein 2003)

Grafo de recombinación ancestral

Algoritmo determinista

Tres operaciones “poda-y-reinjerto de subárbol” (PRS)

Redes bayesianas en estudios de asociación(Sebastiani et al. 2005)

Redes bayesianas en estudios de asociación(Sebastiani et al. 2005)

Genotipos en vez de haplotipos

Modelos gráficos en estudios de asociación(Verzilli et al. 2006)

Genotipos en vez de haplotipos Grafos acíclicos descomponibles (representables

por árboles de unión) Conocimiento a priori: DL Paradigma de la media de modelos: MCMC

Modelos gráficos para estimación de haplotipos(Scheet & Stephens 2006)

Las variables son los clústeres HMM

Mapas de LD

Bloques de haplotipos de baja recombinación (Dali et al. 2001, Patil et al. 2001, Gabriel et al. 2002)

Redes bayesianas para estimación de mapas DL(Greenspan & Geiger 2004: Haploblock)

Genotipos y haplotipos

Redes bayesianas para estimación de mapas DL(Rodin & Boerwinkle 2005)

Modelo multinomial Criterio: clase de equivalencia max Usada para selección de variables Bootstrap

Modelos gráficos para estimación de mapas DL(Thomas 2009)

Haplotipos (las variables son alelos) Grafos de intervalos:

Posiciones ordenadas DL disminuye con la distancia

GDAs probabilísticos para representar filogenias(Strimmer et al. 2001)

Grafo de recombinación ancestral

Los nodos representan secuencias de la filogenia De árbol (mutación) De recombinación

Algunas ideas

TDT (U/T) en vez de caso-control Redes bayesianas:

Un nodo por SNP (eliminar aquéllos de equivalencia exacta)

Orientación de los arcos según antigüedad de la variación (información filogenética)

Una red representa varias posibles redes filogenéticas

Estudios del transcriptoma Extracción de conocimiento en datos

masivos de expresión genética (microarrays)

Identificación de genes relacionados con el cáncer

Identificación de genes relacionados con diversas funciones celulares





F

amil

ias

y/o

no

empa

rent

ados

Fam

ilias

MR

NA

(tra

nscr

ipto

ma)

/pr

oteí

nas

(pro

teom

a)

Fen

otip

osH

aplo

tipo

s(ge

nom

a)/f

enot

ipos

Agrupamiento (clustering) en datos de expresión genética

Patrones de expresión genética y agrupamiento (clustering) mediante dendogramas

Ramoni, Marco F. et al. (2002) Proc. Natl. Acad. Sci. USA 99, 9121-9126

Agrupamiento (clustering)

en datos de

expresión genética

85 muestras (78 carcinomas, 3 tumores benignos y 4 tejidos normales)

Colores: Subtipos de tumor encontrados

Sorl

ie,

Th

ere

se e

t al. (

200

1)

Pro

c. N

atl

. A

cad

. Sci

. U

SA

98(1

9):

10

869–1

0874

Agrupamiento (clustering) en datos de expresión genética

Grupos encontrados

Xu. Yin

g e

t al. (

2001)

Genom

e Info

rmati

cs 1

2:

24-3

3

Modelos gráficos para detección de loci de susceptibilidad en enfermedades complejas Nuria Medina...

Documents

Transcript of Modelos gráficos para detección de loci de susceptibilidad en enfermedades complejas Nuria Medina...