Post on 15-Jan-2020
2/5/15
1
Escola de Verão LNCC 2015 Jornada em Ciência de
Dados
Fabio Porto (fporto@lncc.br) LNCC – CCC - DEXL Lab http://dexl.lncc.br
Gerência de Grandes Volumes de Dados
The Data EXtreme Lab (DEXL) Missão
l Apoiar o desenvolvimento da e-ciência com técnicas de modelagem, gerenciamento e processamento eficiente de grandes volumes de dados
l Atualmente – 3 pesquisadores – 7 alunos Doutardo/Mestrado – 4 desenvolvedores
l Projetos – Astronomia – Medicina – Ciência do Esporte – Biologia, Ecologia, Biodiversidade – Petróleo
Jornada Ciência de Dados
DEXL – Projetos Atuais
DEXL Data Management
Oil Pattern Queries
Dark Energy Survey (Astronomy)
Hypothesis Database
Gene Regulatory Networks (System Biology)
R. Lopes
V. Freire, D Ericson
Y. Souto H. Lustosa
B. Gonçalves
Olympic Laboratory (Sport Science)
SIBBR, PELD (Biodiversity)
Noel Lamus Amir Khatibi
Dr. L. Gadelha
Jornada Ciência de Dados
Resalva
l Este curso oferece uma discussão sobre os principais desafios encontrados na gerência de grandes volumes de dados a partir de nossas experiências
l Este curso não é sobre o ensino de ferramentas e sistemas;
Jornada Ciência de Dados
2/5/15
2
Jornada Ciência de Dados
Sumário
l Parte I Big Data? l Parte II Como manter ! l Parte III Como usar ! l Considerações Finais
Parte I: Big Data?
Big Data
l Uma expressão atual para traduzir o grande dilúvio de dados sendo produzido na ciência, redes sociais, dispositivos de comunicação etc…
l Alguns sugerem o termo “Extremo” ao invés de “Big”, na medida em que o segundo seria associado a elementos do dia-a-dia de tamanho concretamente superior, mas ainda razoável...
Jornada Ciência de Dados
Big Data
l Dados estruturados e não estruturados – Imagens, textos, videos
l Dados imprecisos, incompletos, inconsistentes l Desafios na gerência e análise
– SGBD inadequados quanto ao modelo de representação e capacidade de processamento
– Descoberta vs extração de conhecimento – Descoberta de correlações – Interesse individual ou (mais comumente) padrões
Jornada Ciência de Dados
2/5/15
3
Um Mundo de Dados
Jornada Ciência de Dados
Extrair, descobrir, reconstruir
l “To see what is in front of one’s nose needs a constant struggle”
George Orwell
Jornada Ciência de Dados
Jornada Ciência de Dados
l Tratamento de grandes volumes de dados é a onda do momento
l Envolve áreas da ciência, sociedade, governo e indivíduos;
l Impõe grandes desafios – Políticos – Tecnológicos – Sociais
l Está no caminho crítico para a sociedade do conhecimento
Big Data - Dimensões
Volume
Velocidade
Variedade
MB GB TB PB Arq(raw) database
Img,video, audio Redes sociais, instrumentos
batch
online sensores
Tempo real
Jornada Ciência de Dados
valor
Veracidade
2/5/15
4
Jornada Ciência de Dados
Nas Ciências e além
l “Scientists are spending most of their time manipulating, organizing, finding and moving data, instead of researching. And it’s going to get worse” – Office Science of Data
Management challenge - DoE
Tópico da Década
Evolução de Dados na ciência
Arq. Texto, raw data
Metadados Dados de simulação, Astronomia Biologia (Omics)
E-Ciência Redes sociais Web 2.0
GB
TB
PB
EB
Volu
me
Jornada Ciência de Dados
O Que é “Big”?
Jornada Ciência de Dados
Unidade Qtd Bytes B 100
KiloByte 103 MegaByte 106 GigaByte 109 TeraByte 1012 PetaByte 1015 ExaByte 1018
PB=1000 discos de 1 TB ~ 20m FB DW ~ 300 PB
Na Astronomia
Jornada Ciência de Dados
LSST – Large Synoptic Survey Telescope
• 800 imagens p/ noite durante 10 anos !! • Mapa 3D do Universo • 30 TeraBytes por noite • 30 PetaBytes em 10 anos
2/5/15
5
Sequências de DNA Publicadas no GenBank (UK NCBI)
Jornada Ciência de Dados
GenBank 15/04/2014 – 171,7 MS Whole Gene Shotguns – 15/12/2014 – 200MS
Tweets por dia:
Jornada Ciência de Dados
Comunidades
Jornada Ciência de Dados
Segundo o IDC, a quantidade de dados digitais disponível em nosso cyberambiente ultrapassará número de Avogrado em 2023 (> 1023) Yottabyte
Nas Empresas
Jornada Ciência de Dados
2/5/15
6
Dados Governamentais
l Investimentos l Programas de Governo l Impostos l Contratos, prestações de contas l Índices: econômicos, sociais, educação,
saúde, … l Segurança e Defesa
Jornada Ciência de Dados
Dados Históricos
Jornada Ciência de Dados
Em números: l 12 Terabytes de Tweets a cada dia (IBM, 2012) l 10 TeraBytes em Facebook a cada dia l 24 PB processados pela Google l 43 PB trocados por smartphones e tablets l 15 min Global ó 3x Biblioteca da Congresso
dos EUA l Algumas empresas produzem terabytes por
hora, todos os dias do ano – Eventos:
l Abertura da porta do metrô l Fazer um check-in no aeroporto l Comprar uma música no iTunes Jornada Ciência de Dados Jornada Ciência de Dados
Por meio de:
l Melhores instrumentos geram maior e mais precisa quantidade de dados
– sensores, sequenciados, espectrômetros de massa, ... l Processadores mais potentes e baratos podem fazer parte de
seus smartphones, sensores no carro, no meio-ambiente l Redes de computadores permitindo compartilhar cada vez
mais informação e mais rapidamente l Sistemas de computadores de alto desempenho processam
grandes volumes de dados em paralelo l Novas aplicações com acesso ubíquo: telefone, computadores,
tablets,...
2/5/15
7
Valor dos Dados
Jornada Ciência de Dados
Valor Social
Valor Comunitário
Valor Individual Coleções de dados pessoais
Coleções de dados de comunidades sociais e científicas
Ref. Nacional e Internacional, Insubstituível
Repositórios privados
Biobliotecas digitais regionais, Centros de dados
Repositórios Nacionais e Internacionais
Questões
l Como Manter? – Infraestrutura – Sistemas computacionais – Integridade, privacidade, segurança, perenidade – Custo
l Como Usar ? – Técnicas eficientes de distribuição de dados – paralelismo – Tratamento de qualidade – Integração, padronização
Jornada Ciência de Dados
Parte II Como Manter ? “ Se infraestrutura é um requisito para a economia industrial então pode-se afirmar que uma cyberinfraestrutura é um requisito para a sociedade do conhecimento”
Relatório Atkins, EUA 2003
Jornada Ciência de Dados
2/5/15
8
Do ponto de vista institucional ao armazenamento
l Estrutura em níveis – Tier 0 – dados extraídos das fontes – Tier 1 – dados pré-processados e disponíveis
online para a instituição – Tier 2 – dados para sub-regiões – Tier 3 – dados offline
l Métodos de armazenamento – Na nuvem – Em sistemas de arquivos distribuídos – Em sistemas de gerência de bancos de dados
Jornada Ciência de Dados Jornada Ciência de Dados
Integração e Representação Semântica
Heterogeneidade e Interpretação
Jornada Ciência de Dados
2/5/15
9
Integração de dados
l Interpretação do conhecimento extraído de diversas fontes exige: – acordo semântico – estabelecimento de padrões sintáticos e
terminológicos – Unificação da visão dos dados
l Ontologias têm sido utilizadas como técnica para se alcançar homogeneização semântica
Jornada Ciência de Dados
Ontologia
l Uma conceitualização formal e compartilhada da especificação de um domínio (Gruber)
– Conceitualização: identificação dos conceitos e relacionamentos; – Formal: descrições precisas com garantias matemáticas – Domínio: área de aplicação (Biologia molecular; Impostos Federais,
etc...) l Expressa uma teoria formal do domínio l Envolve:
– o acordo semântico sobre os conceitos envolvidos em um domínio – A expressão em linguagem computacional do acordo semântico – Capacidade de raciocínio automático que permita inferência e
manutenção da consistência l Exemplos:
– GeneOntology, ....
Jornada Ciência de Dados
Arquitetura de Integração basead em Ontologias (Moura et al 2014)
Jornada Ciência de Dados
Arquitetura com fontes de dados integradas
Jornada Ciência de Dados
2/5/15
10
Ontologia de Aplicação
Jornada Ciência de Dados
Ontologias exportadas PELD
Jornada Ciência de Dados
Consultando a visão integrada
Jornada Ciência de Dados
Q1:“List the names, rank, region, and DBPedia library kingdom and phylum properties, considering all samples at their lowest level in the taxonomy hierarchy”.
Consultando as fontes (RDF-SPARQL)
Jornada Ciência de Dados
2/5/15
11
Incerteza
Dados imprecisos
l Ao integrar bases de dados – Indivíduos distintos (idênticos) ? – Qual dos endereços considerar ?
l Prontuários médicos e exames – Com identificação variada – Unidades de medidas diferentes – Exames codificados segundo diferentes padrões
l Simulação computacional – aproximações do fenômeno de estudo
Jornada Ciência de Dados
Dados imprecisos (cont.) Cadeia Filogenética
Jornada Ciência de Dados Jornada Ciência de Dados
Bancos de Dados Astrofísicos
ID Type Prob
x2234 Quasar P1,1=0.1 x2234 MainSequence
Star P1,2=0.6
X2234 White Dwarf P1,3=0.3 x5542 Quasar P2,1=1 xg413 MainSequence
Star P3,1=0.7
xg413 Quasar P3,2=0.3 y5553 White Dwarf P4,1=0.1 y5553 Binary Star P4,2=0.9
2/5/15
12
Jornada Ciência de Dados
Caso 1
l O Banco de dados é determinístico mas as consultas são aproximadas
– R(v1,…, vm) – Q= SELECT R.*, x FROM R ORDER BY score (abs(A1 - v1), …, abs(Am - vm))
as x stop after n; – funções de similaridade calculam os valores aproximados
entre objetos do banco e uma base de comparação;
Jornada Ciência de Dados
Caso 1
l Tipos de funções de similaridade – Distância Levenshtein
l Distância de edição entre duas sequencias de texto – Frequência de Termo/ frequência inversa de
documento – Distância ontológica / semântica – Similaridade fonética – Dynamic Time Warping
Jornada Ciência de Dados
Caso 1 Pessoa Afiliação Prob
Fabio Porto LNCC
Ana Maria Moura LNCC
Fabio Porto IME-RJ
Ana Maria Moura IME-RJ
Paulo Rosa IME-RJ
• Determine pessoas com filiação= IME-RJ • Resposta determinística -> Paulo Rosa • Alta precisão, baixo número de respostas
Jornada Ciência de Dados
Pessoa Afiliação Prob
Fabio Porto LNCC 0.7
Ana Maria Moura LNCC 0.6
Fabio Porto IME-RJ 0.3
Ana Maria Moura IME-RJ 0.4
Paulo Rosa IME-RJ 1.0
• Determine pessoas com filiação = IME-RJ • Resposta probabilística -> Paulo Rosa, Fabio Porto, Ana Maria Moura • Baixa Precisão, grande número de respostas
2/5/15
13
Jornada Ciência de Dados
Caso 2
l Dados são incertos l Operações sobre os dados devem considerar o
cálculo da incerteza envolvida para projetar o grau de confiança sobre as respostas.
Jornada Ciência de Dados
Resistência a Drogas Que cocktail de drogas administrar ao paciente com HV1? (atggaaaagg …)
Genbank sequence gene attgcc.. attggcc.. pol
pol gene
pol pol
Blast
ccgttgcc.. Attgggcc.. pol
pol pol pol
attgccc 0.99 12AI,345GI,..
Attggg… 0.95 123AD,222GI
attgag 0.9 444TI,555TI
Resistencia Drogas
drug1 0.88 12AI,345GI,..
drug2 0.8 123AD,233GI
drug3 0.9 444TI,556TD
query atggaaaagg …
Sistema disponível
l MayBMS – http://sourceforge.net/projects/maybms/ – desenvolvido sobre o postgreSQL – O banco de dados probabilístico é um banco de
dados relacional com representação de múltiplos mundos; l Cada mundo tem uma probabilidade de ocorrência entre
0 e 1, e a soma das probabilidades é igual a 1; l Linguagem de consulta à la SQL com cálculo de
probabilidade em função da frequência de valores l Resolução do conflito de chave
Jornada Ciência de Dados
Exemplo:
Jornada Ciência de Dados
Dados de Censo nos EUA: - o primeiro registro pode ter SSN 185 ou 785 - o estado civil pode se (1) ou (2) - o segundo registro pode ter SSN 185 ou 186
Duas pessoas não podem ter o mesmo SSN !!!
2/5/15
14
Mundos possíveis
Jornada Ciência de Dados
Representando Mundos Possíveis no modelo U-relational
Jornada Ciência de Dados
Nome de pessoas possivelmente casadas: select name from Censo where status=2 Name cond
Smith 0.2 Brown 0.25
Considerações
l Modelos de bancos de dados incertos tratam a imprecisão dos dados no modelo;
l É uma extensão do SQL l Requer a reparação das chaves, segundo
interpretação da aplicação
Jornada Ciência de Dados
Representação
2/5/15
15
À Cesar o que é de Cesar
l O uso dos dados é facilitado quando sua modelagem corresponde à interpretação que se deseja fazer deles;
l Assim: – Sequências de DNA; – Dados de simulação espaço-temporal; – Séries temporais; – Trajetórias etc...
Jornada Ciência de Dados Jornada Ciência de Dados
Modelos Multidimensionais (SciDB)
Jornada Ciência de Dados
Estrutura e DDL
l Modelo é definido por S=(D,A) – onde D é um conjunto de dimensões – A é um conjunto de atributos
Jornada Ciência de Dados
2/5/15
16
Modelando ER x Multidimensional
Jornada Ciência de Dados
Entidades anotadas com [D] -> são dimensões da matriz Entidades anotadas com [M] ou [Q] -> são atributos
Projeto de BD Multidimensional
Jornada Ciência de Dados
Jornada Ciência de Dados Jornada Ciência de Dados
2/5/15
17
Jornada Ciência de Dados
SciDB l Vetores mul+dimensionais como unidade básica de
armazenamento l Dimensões com nome e tamanho l Combinações de valores de dimensões iden+ficam
uma célula l As células podem possuir diversos valores, chamados
de atributos
Modelo em Redes (Neo4J, DEX)
Jornada Ciência de Dados
NCI – redes de sinalização mediada por Tyrosine-specific phosphatase, curada por Kira Anthony
– Redes sociais – Interações entre produtos gênicos – Transporte e tráfego
2/5/15
18
¨ Teoria e modelos com grafos são bem estabelecidos
¨ G(V,E)
¨ V conjunto das vértice
¨ E conjunto dos arestas
¨ Armazena nós e arestas com propriedades (componentes básicos)
¨ Informações sobre conectividade e topologia
¨ Banco de dados visto como um multigrafo rotulado e direcionado
¨ Neo4J
¨ Open source
¨ Java -‐ JVM
¨ Suporte nativo de grafos
¨ Livre de esquema -‐ NoSQL
Representação do Neo4j
¨ Linguagem de consulta: Cypher ou Gremilin ¨ Exporta os resultados no formato JSON
RETURN ORDER BY SKIP WITH UNION
LIMIT CREATE UPDATE DELETE READ
GenNetVirus.DB (Raquel Lopes PhD)
Jornada Ciência de Dados
Consultas
Jornada Ciência de Dados
2/5/15
19
Considerações
l Dados volumoso e complexos requerem novos modelos ou extensões do modelo Relacional
l O aumento de expressividade do modelo simplifica o desenvolvimento de aplicações e favorece o desempenho de consultas
Jornada Ciência de Dados Jornada Ciência de Dados