Bancos de dados Bancos de dados aplicados ao estudo de proteínas.
Transcript of Bancos de dados Bancos de dados aplicados ao estudo de proteínas.
![Page 1: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/1.jpg)
Bancos de dados
Bancos de dados aplicados ao estudo de proteínas
![Page 2: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/2.jpg)
1. Introdução
• Histórico – acúmulo de informação biológicas
![Page 3: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/3.jpg)
Histórico:Ciências convergentes
Charles Robert Darwin (1809 —1882)
Herman Hollerith (1860-1929)
![Page 4: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/4.jpg)
1953
1946
O ENIAC (Electrical Numerical Integrator and Computer)
James D Watson and Francis Crick
ENIAC30 toneladas160 m25.000 cálculos/segundo200 k memória
Histórico: Aquisição e armazenamento dos dados
![Page 5: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/5.jpg)
Insulina
1° proteína a ser cristalizada (Abel, 1926),
1° proteína a ser sequenciada (Sanger et al, 1955 ),
1° proteína a ser sintetizada por técnicas químicas ( Du et al;Zahn;Katsoyanis; 1964),
Década de 60
Histórico: Aquisição dos dados
Degradação de Edman (Químico sueco Pehr Edman)
![Page 6: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/6.jpg)
Histórico: Armazenamento dos dados
“Atlas of Protein Sequences”
1965 Margaret Dayhoff's
Primeira bionformata
![Page 7: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/7.jpg)
Surgimento da eletroforese 2D
• Surge a 2D-PAGE
• Trabalhos de MacGillivray et al.( 1974);
• O´Farrel (1975) ; Klose (1975)
O´Farrel
Década de 1970
![Page 8: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/8.jpg)
Aquisição dos dados: As Ômicas
• TRANSCRIPTÔMICA:-Differential Display (DD) - Serial Analysis of Gene
Expression (SAGE)- DNA Microarray
• PROTEÔMICA:-Eletroforese bidimensional
(2D)-MudPit
-Espectrometria de massa
Outras ômicas: Metabolômica, farmacogenômica, regulômica, peptidômica, degradômica…….
• Genômica
![Page 9: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/9.jpg)
Era “Pós-Genômica”
• GENOMA – DNA – 3,4 bilhões de nt
• TRANSCRIPTOMA – mRNA – 30 mil genes
• PROTEOMA – Proteínas – 0,3-1,2 milhão proteínas
Homo sapiens Modificações pós-traducionais?
Interações entre proteínas?
![Page 10: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/10.jpg)
Eletroforese 2D e Bioinformática
![Page 11: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/11.jpg)
Proteoma Comparativo ou Diferencial
Sobreposição permite identificar diferenças nos padrões de bandas
![Page 12: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/12.jpg)
Cromatografia líquida multidimensional-MudPit
Descrita pela primeira vez por WASHBURN et al. (2001),
![Page 13: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/13.jpg)
Identificação e Sequenciamento de proteínas
![Page 14: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/14.jpg)
E agora o que fazer?
EST
Vias metabólicas Análise in silico
SN
Ps
GENÔMICA e PROTEÔMICA
BIOTECNOLOGIA
Microarranjos
Sequenciamento genômico Eletroforese 2DEspectrometria de massa
Genes e proteínas alvos
Bancos de dados
![Page 15: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/15.jpg)
Tipos de bancos de daods biológicos
Bancos de dados PrimáriosDados obtidos diretamente de seqüenciamentoDados submetidos por pesquisadoresConteúdo controlado pela pessoa que o submeteExemplos: GenBank, EMBL, DDJB, SNP, GEO
Bancos de dados Derivados (ou Secundários)Construído a partir da base de dados primáriaPadrões resultantes da análise dos primáriosConteúdo controlado por curadores (NCBI)Exemplos: Refseq, RefSNP, UniGene, NCBI Protein, Structure,Conserved Domain, SwissProt, Pfam
![Page 16: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/16.jpg)
Tipos de bancos de dados• Bancos de dados Primários de
proteínas
“Atlas of Protein Sequences”
• Bancos de dados SecundáriosTrEMBL
+
![Page 17: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/17.jpg)
• Seqüências depositadas têm várias anotações biológicas, como:– a função da proteína, – informações de
homologia,– seqüências relacionadas
("features").
• Promove a anotação funcional de proteínas.
![Page 18: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/18.jpg)
• PIR-NRL3D– PIR - Sequence-Structure Database
• Este banco de dados é produzido pelo PIR a partir de seqüências extraídas do PDB (Protein Data Bank).
• Os títulos e as fontes biológicas das seqüências seguem o padrão de nomenclatura adotado pelo PIR.
• Referências bibliográficas, MEDLINE, estrutura secundária, sítios ativos, detalhes de métodos experimentais, estão disponíveis entre outras facilidades.
• PIR-NRL3D:http:/pir.georgetown.edu/pirwww/dbinfo/nrl3d.html
![Page 19: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/19.jpg)
SWISS-PROT e TrEMBL
• SWISS-PROT foi criado em 1986 pelo Departamento de Bioquímica Médica da Universidade de Genebra e EMBL.
• Atualmente é mantido pelo Swiss Institute of Bioinformatics (SIB) e EBI/EMBL.
• Este banco mantém um alto nível de anotações, como a descrição e a função da proteína, estrutura dos seus domínios, modificações pós-tradução, além de ter uma estrutura que facilita o acesso computacional a diferentes campos de informações.
TrEMBL
![Page 20: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/20.jpg)
SWISS-PROT e TrEMBL
• TrEMBL é um suplemento do SWISS-PROT que contém todas as traduções das entradas de seqüências codificantes de nucleotídeos do EMBL.
• As entradas do TrEMBL são menos extensivamente anotadas do que aquelas do SWISS-PROT, mas são movidas para o SWISS-PROT assim que uma anotação confiável seja disponível.
• Link SWISS-PROT e TrEMBL: http://us.expasy.org/sprot/
TrEMBL
![Page 21: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/21.jpg)
Bancos de dados de proteínas
Crescimento do UniProt
TrEMBL
![Page 22: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/22.jpg)
Busca de informações
Informações estruturais
• Modelos conceituais de estruturas de proteínas– Tipos de estruturas e modelos conceituais– Proteínas globulares– Estrutura secundária– Estrutura terciária– Estrutura quaternária– Proteínas integrais de membrana– Domínios– Evolução– Estrutura e função
![Page 23: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/23.jpg)
Informações estruturais
• Tipos de estruturas e modelos conceituais:
– Proteínas globulares são solúveis em solventes predominantemente aquosos tal como o citosol e fluídos extra-celulares
– Proteínas integrais de membranas existem dentro de ambientes dominados por lipídeos das membranas biológicas.
– Modelos conceituais de estruturas de proteínas são importantes para o entendimento da bioinformática de proteínas.
![Page 24: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/24.jpg)
Bancos de dados Estruturais
– PDB: recurso primário para dados estruturais de proteínas.
– Contém dados derivados de estudos de cristalografia de raio-X e NMR.
![Page 25: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/25.jpg)
Banco de estrutura de proteínas
![Page 26: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/26.jpg)
Ferramentas
• PDBSum– O PDBSum é um do principais recursos para
obtenção de informações estruturais, mantido pela University College London.
– Trata-se de um compêndio acessível pela Internet que contém resumos e análises de todas as estruturas no PDB.
– Cada resumo fornece a descrição da resolução, número de cadeias de proteínas, ligantes e íons metálicos, estruturas secundárias, interações ligantes, dentre muitas outras. Estas informações são vitais não somente para a visualização das estruturas mas também para o desenho, como um único recurso, das informações 1D, 2D e 3D.
![Page 27: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/27.jpg)
Ferramentas• SCOP
– O SCOP (Structural Classification of Proteins) é um banco de dados mantido pelo Laboratory of Molecular Biology e pelo Centre for Protein Engineering (MRC) e tem por objetivo descrever as relações estruturais e evolutivas entre proteínas de estrutura conhecida.
– Na medida em que as ferramentas automáticas de comparação de estruturas hoje existentes não podem identificar, de forma confiável, tais relações, o SCOP foi concebido e construído de modo a utilizar um combinação de processos de inspeções manuais métodos automáticos.
![Page 28: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/28.jpg)
Predição de estruturas• SOSUI
– Tokyo University of Agriculture and Technology (Department of Biotechnology).
– O SOSUI analisa seqüências de proteínas, com a finalidade de predizer estruturas secundárias em proteínas de membrana.
– Baseia-se nas propriedades físico-químicas dos aminoácidos, como hidrofobicidade e balanceamento de cargas.
– Esta ferramenta deve ser utilizada para os seguintes tipos de predição: discriminação entre proteínas de membrana e as solúveis, predição da existência e determinação da região de hélices transmembrânicas.
![Page 29: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/29.jpg)
Famílias de proteínas
PROSITE• O banco de dados PROSITE contem seqüências
modelo associadas com membros de famílias de proteínas, funções específicas de proteínas e modificações pós-traducionais.
• Uma notação especial envolvendo colchetes (e.g. [LIVM]), chaves (e.g. {FD}) e x(n) é usada para expressar resíduos alternativos em cada posição do modelo.
• O banco de dados é curado manualmente e os falso positivos ou falso negativos conhecidos são registrados.
• Alguns dos padrões, particularmente modelos de modificações pós-traducionais curtas, não possuem especificidade e ocorrem muitas vezes na mesma seqüência.
![Page 30: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/30.jpg)
![Page 31: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/31.jpg)
Famílias de domínios proteínas
• Muitas proteínas são construídas a partir domínios em uma arquitetura modular.
• O estudo de famílias de proteínas é melhor englobado como um estudo de famílias de domínios de proteínas.
• O Prodom é um banco de dados de seqüências de domínios de proteínas criado automaticamente a partir de bancos de dados de seqüências de proteínas.
![Page 32: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/32.jpg)
Ferramentas
• Recursos– Pfam e SMART podem ser usados para
análise de famílias de domínios de proteínas.– Um recurso integrado, o Interpro, une os
bancos de dados PROSITE, PRINTS, Pfam, Prodom, e SMART.
![Page 33: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/33.jpg)
Ferramentas
• ExPASy– O ExPASy (Expert Protein Analysis System) é
mantido pelo Swiss Institute of Bioinformatics e disponibiliza uma enorme quantidade de recursos de bioinformática.
• Link para o ExPASy: http://www.expasy.org/
![Page 34: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/34.jpg)
Ferramentas• InterPro
– Mantido pelo European Bioinformatics Institute.
– O InterPro é um banco de dados de assinaturas, capacitado para identificar relacionamentos distantes entre novas seqüências, conseguindo, assim, inferir funções protéicas.
– Como uma base integrada de documentação de famílias de proteínas, domínios e regiões funcionais, o InterPro integra os esforços do PROSITE, do PRINTS, do Pfam e do ProDom.
– Cada entrada do InterPro inclui uma descrição funcional, uma anotação e referências da literatura, além de links para os bancos de dados importantes.
![Page 35: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/35.jpg)
Interprot
![Page 36: Bancos de dados Bancos de dados aplicados ao estudo de proteínas.](https://reader036.fdocuments.net/reader036/viewer/2022062307/552fc0fe497959413d8baf97/html5/thumbnails/36.jpg)
Exercícios
• Usando o SMART:• Usar sequência EF558621;• Usar sequência editada da BVL;• Faça uma busca por domínios e famílias.• Anote os resultados informando os dados de
cada domínio obtído;• Informe o que significa o SMART e quais
ferramentas estão disponíveis (por exemplo: Modo Normal e Modo Genômico)