Inferência de redes gênicas por métodos de seleção de características

51
Inferência de redes gênicas por métodos de seleção de características David Correa Martins Jr Centro de Matemática, Computação e Cognição Universidade Federal do ABC (UFABC) [email protected]

description

Inferência de redes gênicas por métodos de seleção de características. David Correa Martins Jr Centro de Matemática, Computação e Cognição Universidade Federal do ABC (UFABC) [email protected]. Sumário. Processos celulares (systems biology)  redes de regulação gênica (GRN) - PowerPoint PPT Presentation

Transcript of Inferência de redes gênicas por métodos de seleção de características

Page 1: Inferência de redes gênicas por métodos de seleção de características

Inferência de redes gênicas por métodos de seleção de características

David Correa Martins JrCentro de Matemática, Computação e Cognição

Universidade Federal do ABC (UFABC)[email protected]

Page 2: Inferência de redes gênicas por métodos de seleção de características

Sumário

• Processos celulares (systems biology) redes de regulação gênica (GRN)

• Motivação para pesquisas em inferência de GRNs

• Conceitos básicos de GRN

• Inferência de GRN por seleção de características

• Pesquisas em andamento

Page 3: Inferência de redes gênicas por métodos de seleção de características

Núcleo

DNA mRNA

TranscriçãoTransporte

Proteínas

Tradução

Célula

Vias metabólicas

Page 4: Inferência de redes gênicas por métodos de seleção de características

Microarray

• Sequenciamento em larga escala (high throughput sequencing)•Arrays de expressão gênica (1995)

Page 5: Inferência de redes gênicas por métodos de seleção de características

Motivação

• Controle celular: resultado de atividade multivariada entre genes

• Modelagem de interação multivariada para propósitos terapêuticos e criação de novas drogas

• Inferência de parâmetros de uma rede regulatória a partir de dados experimentais é um dos grandes desafios da bioinformática

Page 6: Inferência de redes gênicas por métodos de seleção de características

Motivação

• Conhecer leis gerais sobre essas redes

• Identificar grupos de genes associados a determinadas características bioquímicas

• Investigar a possibilidade de controlar suas dinâmicas e qual a melhor maneira (mais prática, menos custosa, etc) de fazer isso

Page 7: Inferência de redes gênicas por métodos de seleção de características

Motivação – Systems Biology

• Área interdisciplinar que estuda a rede complexa de interações que ocorrem em sistemas biológicos– Desenvolvimento de modelos e abordagens para desvendar

propriedades emergentes de células, tecidos e órgãos, que funcionam como um sistema integrado

– Tipicamente envolve• estudos de regulação gênica, metabólica e de redes de sinalização

celular• integração e análise de massivos conjuntos de dados complexos

e heterogêneos– Big Data

• diversas plataformas (“ômicas”)– genômica, transcriptômica, proteômica, metabolômica, epigenômica,

interferômica, glicômica, lipdômica, interatômica, fluxômica, biômica, semiômica, etceterômica...

Page 8: Inferência de redes gênicas por métodos de seleção de características

Redes de regulação gênica

• Redes de regulação gênica (Gene Regulatory Networks – GRN)– Podem ser vistos como redes de interação gênica

nas quais o nível de expressão de um gene é controlado pelos níveis de expressão de outros genes

– Sinal de expressão gênica: quantidade de mRNA transcrito

• Principais tecnologias de medição de expressão gênica: microarrays, SAGE, RNASeq

Page 9: Inferência de redes gênicas por métodos de seleção de características

Motivação

• Desafios:– Poucas observações (dezenas) para muitas

variáveis (milhares)• Situação desejável: Muitas observações (milhares) para

poucas variáveis (dezenas)

– Natureza dos dados• Tecnologias de extração de mRNAs consistem de um

pipeline envolvendo diversas etapas– introdução de ruidos ao longo do processo

Page 10: Inferência de redes gênicas por métodos de seleção de características

Microarray: formato dos dados

3.45 1.12 0.24 0.67 ... 1.982.05 4.77 0.54 2.14 ... 3.660.28 1.44 5.33 0.19 ... 6.644.11 0.76 1.56 3.14 ... 0.382.44 0.43 1.15 0.97 ... 0.88 . . .3.70 0.29 0.85 1.78 ... 1.24

Gene1Gene2Gene3Gene4Gene5 . . .GeneN

Exp1 Exp2 Exp3 Exp4 ... ExpM

M <<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< N

Page 11: Inferência de redes gênicas por métodos de seleção de características

Motivação

• Desafios:– Poucas observações (dezenas) para muitas

variáveis (milhares)• Situação desejável: Muitas observações (milhares) para

poucas variáveis (dezenas)

– Natureza dos dados• Tecnologias de extração de mRNAs consistem de um

pipeline envolvendo diversas etapas– introdução de ruidos ao longo do processo

• Como lidar com esses problemas?

Page 12: Inferência de redes gênicas por métodos de seleção de características

GRN: conceitos básicos

• GRNs podem ser visualizados como um grafo

– vértices: genes

– arestas: dependências entre os genes

• definem a relação topológica da rede

[Hecker et al, 2009]

Page 13: Inferência de redes gênicas por métodos de seleção de características

GRN: conceitos básicos

• Estado da rede

– Vetor contendo os valores de expressão dos genes

– Ex: [0.75 1.78 2.42 0.94 0.51]

• X1 = 0.75, X2 = 1.78, X3 = 2.42, X4 = 0.94, X5 = 0.51

• Experimento de microarray corresponde a um estado do sistema

Page 14: Inferência de redes gênicas por métodos de seleção de características

Microarray: formato dos dados

3.45 1.12 0.24 0.67 ... 1.982.05 4.77 0.54 2.14 ... 3.660.28 1.44 5.33 0.19 ... 6.644.11 0.76 1.56 3.14 ... 0.382.44 0.43 1.15 0.97 ... 0.88 . . .3.70 0.29 0.85 1.78 ... 1.24

Gene1Gene2Gene3Gene4Gene5 . . .GeneN

Exp1 Exp2 Exp3 Exp4 ... ExpM

1 estado

Sabemos que o sistema esteve nesses M estados

Page 15: Inferência de redes gênicas por métodos de seleção de características

GRN: conceitos básicos

• Número de estados possíveis– Infinitos, se levarmos em conta que genes possuem

valores reais

– Pode-se tornar finito o número de estados possíveis tornando os valores de expressão finitos (quantização ou discretização)

– Ex: [0.75 1.78 2.42 0.94 0.51] => [0 1 1 0 0]

subexpresso (Xi < 1 => Xi = 0) superexpresso (Xi > 1 => Xi = 1)

– (Número de valores possíveis)N

• Caso binário: 2N

• Caso ternário: 3N

Page 16: Inferência de redes gênicas por métodos de seleção de características

Microarray: formato dos dados

1 1 0 0 ... 1 1 1 0 1 ... 1 0 1 1 1 ... 1 1 0 1 1 ... 0 1 0 1 0 ... 0 . . . 1 0 0 1 ... 1

Gene1Gene2Gene3Gene4Gene5 . . .GeneN

Exp1 Exp2 Exp3 Exp4 ... ExpM

1 estado

Dados binarizados

Page 17: Inferência de redes gênicas por métodos de seleção de características

GRN: conceitos básicos

• Número de estados possíveis

– O genoma humano tem em torno de N = 30000

• 230000

Page 18: Inferência de redes gênicas por métodos de seleção de características

GRN: conceitos básicos

• Número de estados possíveis

– O genoma humano tem em torno de N = 30000

• 230000

– Felizmente, o grau de entrada de cada gene (de quantos genes um determinado gene depende) costuma ser bem pequeno (média entre 2 e 3)

• 23 = 8 (OK!)

Page 19: Inferência de redes gênicas por métodos de seleção de características

GRN: conceitos básicos

• Número de estados possíveis

– O genoma humano tem em torno de N = 30000

• 230000

– Felizmente, o grau de entrada de cada gene (de quantos genes um determinado gene depende) costuma ser bem pequeno (média entre 2 e 3)

• 23 = 8 (OK!)

– Inferência de dependências é possível!

– Mas o que significa “um gene depender de outros”?

Page 20: Inferência de redes gênicas por métodos de seleção de características

Inferência de GRNs

• Dependência entre genes

– Depende.... São redes estáticas ou dinâmicas?

• Redes estáticas

– Não há informação da dinâmica (temporal)

– Dependências estáticas (co-regulação)

• Redes dinâmicas

– Informação temporal

– Dependências no tempo (predição / causa e efeito)

– Função de transição de estados

Page 21: Inferência de redes gênicas por métodos de seleção de características

Inferência de GRNs

• Como medir o grau de dependência de um gene em relação aos outros?

• Seleção de características

– Dado um gene alvo, define-se um algoritmo de seleção de características (algoritmo de busca) que tenta obter o subconjunto de genes mais relevantes para descrever o seu comportamento

– Critério de relevância

– Exemplos de funções critérios: informação mútua (baseada em entropia) e coeficiente de determinação (baseado no erro Bayesiano)

Page 22: Inferência de redes gênicas por métodos de seleção de características

Inferência de GRNs

• Processo de seleção de características

– Entrada: matriz de expressões gênicas, índice do gene alvo e critério de relevância

– Para cada subconjunto de genes considerado:

• preenche-se uma tabela de probabilidades conjuntas

• um valor de relevância é atribuído pelo critério com base nessa tabela a esse subconjunto

– Saída: subconjuntos de genes candidatos ordenados pelo critério de relevância

Page 23: Inferência de redes gênicas por métodos de seleção de características

-1 10

. . .

. . .

. . .

. . .

. . .

. . .

. . .. . .. . .. . .. . .

. . .. . .

1 2 3 4 5 M-1 M

g1

g2

g3

g4

g5

gtarget

g target-1 0 1

-1 -1-1 0-1 1 0 -1 0 0 0 1 1 -1 1 0 1 1

0 0 10 0 00 0 00 0 00 0 00 0 00 0 00 0 00 0 0

g1 g2

Page 24: Inferência de redes gênicas por métodos de seleção de características

-1 10

. . .

. . .

. . .

. . .

. . .

. . .

. . .. . .. . .. . .. . .

. . .. . .

1 2 3 4 5 M-1 M

g1

g2

g3

g4

g5

g target-1 0 1

-1 -1-1 0-1 1 0 -1 0 0 0 1 1 -1 1 0 1 1

0 0 10 0 00 0 00 1 00 0 00 0 00 0 00 0 00 0 0

g1 g2

gtarget

Page 25: Inferência de redes gênicas por métodos de seleção de características

-1 10

. . .

. . .

. . .

. . .

. . .

. . .

. . .. . .. . .. . .. . .

. . .. . .

1 2 3 4 5 M-1 M

g1

g2

g3

g4

g5

g target-1 0 1

-1 -1-1 0-1 1 0 -1 0 0 0 1 1 -1 1 0 1 1

0 0 10 0 00 0 00 1 01 0 00 0 00 0 00 0 00 0 0

g1 g2

gtarget

Page 26: Inferência de redes gênicas por métodos de seleção de características

-1 10

. . .

. . .

. . .

. . .

. . .

. . .

. . .. . .. . .. . .. . .

. . .. . .

1 2 3 4 5 M-1 M

g1

g2

g3

g4

g5

g target-1 0 1

-1 -1-1 0-1 1 0 -1 0 0 0 1 1 -1 1 0 1 1

0 0 10 0 00 0 00 1 01 0 00 0 00 0 00 0 00 1 0

g1 g2

gtarget

Page 27: Inferência de redes gênicas por métodos de seleção de características

-1 10

. . .

. . .

. . .

. . .

. . .

. . .

. . .. . .. . .. . .. . .

. . .. . .

1 2 3 4 5 M-1 M

g1

g2

g3

g4

g5

g target-1 0 1

-1 -1-1 0-1 1 0 -1 0 0 0 1 1 -1 1 0 1 1

0 0 67 0 00 4 00 9 05 0 00 0 10 0 70 0 08 0 0

g1 g2

gtarget

Page 28: Inferência de redes gênicas por métodos de seleção de características

-1 10

. . .

. . .

. . .

. . .

. . .

. . .

. . .. . .. . .. . .. . .

. . .. . .

1 2 3 4 5 M-1 M

g1

g2

g3

g4

g5

g target-1 0 1

-1 -1-1 0-1 1 0 -1 0 0 0 1 1 -1 1 0 1 1

0 1 67 0 00 4 00 9 05 0 00 0 10 0 70 0 08 0 0

g1 g2

gtarget

Page 29: Inferência de redes gênicas por métodos de seleção de características

g alvo-1 0 1

-1 -1-1 0-1 1 0 -1 0 0 0 1 1 -1 1 0 1 1

0 1 67 0 00 4 00 9 05 0 00 0 10 0 70 0 08 0 0

g1 g2 g alvo-1 0 1

-1 -1-1 0-1 1 0 -1 0 0 0 1 1 -1 1 0 1 1

2 2 23 2 20 3 12 4 31 1 21 0 12 3 11 1 04 2 2

g3 g5

Características do par (g1,g2)

●Informação mútua / CoD altos●Predição quase perfeita

●Forte candidata a ser classificada entre os melhores pares (g1 e g2 poderão ser

conectados ao gene alvo)

Características do par (g3,g5)

●Informação mútua / CoD baixos●Predição muito ruim

●Descartado

Page 30: Inferência de redes gênicas por métodos de seleção de características

Inferência de GRNs

• Uma vez que temos o melhor subconjunto de genes preditores (ou co-reguladores) para cada gene, temos toda a informação topológica da rede

• Porém, topologia não é tudo

• Também precisamos saber como são essas relações

• Tal informação está presente nas tabelas de probabilidades conjuntas

Page 31: Inferência de redes gênicas por métodos de seleção de características

Inferência de GRNs

• Exemplo: considere as variáveis binárias X1, X2, X3, sendo que X3 depende de X1 e X2

• Várias possibilidades de regras lógicas:

– X3 = X1 AND X2

– X3 = X1 OR X2

– X3 = X1 NAND X2

– ............

X1 X2

X3

Existem 24 = 16 lógicas possíveis para o caso com 2

preditores binários

Page 32: Inferência de redes gênicas por métodos de seleção de características

Inferência de GRNs

• Como obter as lógicas (ou regras de regulação) a partir das tabelas de probabilidades conjuntas?

g alvo 0 1

0 0 0 1 1 0 1 1

6 04 35 12 8

g1 g2

0001

AND

Resposta: obtendo o valor do alvo cuja probabilidade é máximapara cada linha (argmax)

Page 33: Inferência de redes gênicas por métodos de seleção de características

Inferência de GRNs

• Obtendo a topologia e as regras das dependências, temos tudo!

• Em especial, se tivermos a topologia e as regras de predição em um sistemas dinâmico, temos sua função de transição completa

• X[t+1] = f(X[t])

• Podemos determinar suas trajetórias, bacias de atração, atratores...

Page 34: Inferência de redes gênicas por métodos de seleção de características

Bacias de atração, atratores e estados transientes

110 101

111 011

000

010 100

001

Atratores

Bacias de atração

Estados transientes

Estados atratoresExemplo paraum sistema de 3 genes

Page 35: Inferência de redes gênicas por métodos de seleção de características

Principal bacia de atraçãode um sistema regulatóriode 11 genes responsáveis

pelo controle dociclo celular da Levedura

(Saccharomyces cerevisiae)

(1786 estados de um total de 2048)

F. Li, T. Long, Y. Lu, Q. Ouyang and C. TangThe yeast cell cycle is robustly designed.PNAS 101(14):4781-6, 2004

Page 36: Inferência de redes gênicas por métodos de seleção de características

Inferência de GRNs

• Obtendo a topologia e as regras das dependências, temos tudo!

• Em especial, se tivermos a topologia e as regras de predição em um sistemas dinâmico, temos sua função de transição completa

• X[t+1] = f(X[t])

• Podemos determinar suas trajetórias, bacias de atração, atratores...

• Mas com poucas amostras, há erros de estimação

Page 37: Inferência de redes gênicas por métodos de seleção de características

Inferência de GRNs g alvo-1 0 1

-1 -1-1 0-1 1 0 -1 0 0 0 1 1 -1 1 0 1 1

0 1 67 0 00 4 00 9 05 0 00 0 10 0 70 0 08 0 0

g1 g2

(g1,g2) = (1,0) não foi observado!

E agora? Essa instância não aparece porque de fato o sistema é assim ou por causa do número pequeno de observações?

Page 38: Inferência de redes gênicas por métodos de seleção de características

Pesquisas em andamento

• Como inferir “hubs” a partir de poucas amostras? (e como decidir o grau de entrada dele?)

– Hub: gene com alto grau de entrada

– Em sistemas binários, um gene com grau 8 terá uma tabela com 28 = 256 linhas

– Se tivermos 30 amostras, pelo menos 226 dessas linhas não serão observadas (princípio da casa dos pombos)

grau 8

Page 39: Inferência de redes gênicas por métodos de seleção de características

Pesquisas em andamento

• Em particular, inferência de hubs é importante para inferência de redes “livres de escala” (scale-free)

– Poucos nós com alto grau de entrada

– Muitos nós com baixo grau de entrada

Page 40: Inferência de redes gênicas por métodos de seleção de características

Pesquisas em andamento

• Exemplo de uma rede metabólica livre de escala

– vértices = metabólitos, arestas = reações químicas

Page 41: Inferência de redes gênicas por métodos de seleção de características

Pesquisas em andamento

• Inferência de redes “mundo pequeno” (small-world)

– Probabilidade alta de haver transitividade

• Se o vértice X1 está ligado a X2, e X2 está ligado a X3, então X1 está ligado a X3

– Alto número de triângulos

– Tendência de formar agrupamentos ou módulos (clusters)

X1

X2

X3alta probabilidade

Page 42: Inferência de redes gênicas por métodos de seleção de características

Pesquisas em andamento

• Exemplo de rede “mundo pequeno”

Page 43: Inferência de redes gênicas por métodos de seleção de características

Pesquisas em andamento

• Inferir a dinâmica do sistema a partir de dados estáticos (temos apenas a probabilidade de ocorrência de cada estado)

– Dados temporais permitem tanto análise de predição como de co-regulação

– Porém, dados estáticos só permitem análise de co-regulação a princípio

Page 44: Inferência de redes gênicas por métodos de seleção de características

Pesquisas em andamento

• Inferir a dinâmica do sistema a partir de dados estáticos (temos apenas a probabilidade de ocorrência de cada estado)

– Inferir um sistema dinâmico a partir das probabilidades de cada estado é um problema mal-posto

– Existem infinitas possibilidades de sistemas que convergem para tais probabilidades

– Como descobrir o sistema verdadeiro?

– Poderíamos restringir o espaço das soluções com base em conhecimento a priori sobre o comportamento de sistemas biológicos?

Page 45: Inferência de redes gênicas por métodos de seleção de características

Pesquisas em andamento

• Inferir a dinâmica do sistema a partir de dados dinâmicos (temporais)

– Infelizmente não é tão simples quanto parece

– Número de amostras geralmente muito pequeno (erros de estimação)

– Qual é a resolução temporal apropriada? Hora em hora? Minuto a minuto? 15 em 15 minutos?

– Os dados podem representar apenas uma possível trajetória do sistema dentre as inúmeras possíveis

Page 46: Inferência de redes gênicas por métodos de seleção de características

Pesquisas em andamento

• Qual seria o papel dos genes de predição intrinsecamente multivariada em redes de regulação gênica?

Page 47: Inferência de redes gênicas por métodos de seleção de características

Pesquisas em andamento

• Validação dos resultados de inferência de GRN

– “Wet lab” (bancada)

• Custoso tanto em termos financeiros como de demanda de tempo

– “In silico”

• Através de simulações a partir de um modelo específico pré-determinado

• Bancos de dados biológicos (aproveitando o esforço de “wet lab” de pesquisadores ao redor do mundo): Gene Ontology, KEGG, NCBI, etc...

• Como integrar dados de diversas naturezas para aumentar o poder de estimação dos métodos de inferência?

Page 48: Inferência de redes gênicas por métodos de seleção de características

Referências• BARRERA, Junior ; CESAR JR, Roberto Marcondes ; MARTINS JR, David

Corrêa ; VÊNCIO, Ricardo Z. N. ; MERINO, E. F. ; YAMAMOTO, Marcelo M. ; LEONARDI, Florência G. ; PEREIRA, Carlos Alberto de Bragança ; PORTILLO, Hernando A. . Constructing probabilistic genetic networks of Plasmodium falciparum from dynamical expression signals of the intraerythrocytic development cycle. Methods of Microarray Data Analysis V. : Springer US, p. 11-26, 2007.

• Lopes, Fabricio M. ; Martins Jr, David C. ; Cesar, Roberto M. . Feature selection environment for genomic applications. BMC Bioinformatics , v. 9, p. 451, 2008.

• Martins Jr, David C. ; Braga-Neto, Ulisses M.; HASHIMOTO, Ronaldo F. ; Bittner, Michael L. ; Dougherty, Edward R. . Intrinsically Multivariate Predictive Genes. IEEE Journal of Selected Topics in Signal Processing , v. 2, p. 424-439, 2008.

• [Hecker, 2009] Hecker, M.; Lambeck, S.; Toepfer, S.; van-Someren, E.; Guthke, R. Gene regulatory network inference: data integration in dynamic models-a review. Biosystems, 96(1):86-103, 2009.

Page 49: Inferência de redes gênicas por métodos de seleção de características

Referências

• F. F. Borelli ; R. Y. Camargo ; Martins-Jr, David C. ; L. C. S. Rozante . Gene regulatory networks inference using a multi-GPU exhaustive search algorithm. BMC Bioinformatics , v. 14, p. S5, 2013.

• Martins Jr, David C. ; DE OLIVEIRA, EVALDO A. ; Braga-Neto, Ulisses M. ; HASHIMOTO, Ronaldo F. ; Cesar, Roberto M. . Signal propagation in Bayesian networks and its relationship with intrinsically multivariate predictive variables. Information Sciences , v. 225, p. 18-34, 2013.

• LOPES, Fabrício Martins ; MARTINS-JR, DAVID CORREA ; BARRERA, Junior ; CESAR JR, Roberto Marcondes . A feature selection technique for inference of graphs from their known topological properties: revealing scale-free gene regulatory networks. Information Sciences , v. online, p. online, 2014.

Page 50: Inferência de redes gênicas por métodos de seleção de características

Conclusão

Redes de regulação gênica: um montãode problemas e desafios interessantes

Page 51: Inferência de redes gênicas por métodos de seleção de características