Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
-
Upload
petronio-candido -
Category
Science
-
view
108 -
download
4
Transcript of Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
![Page 1: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/1.jpg)
Big Data e Data Science
Admirável Mundo NovoProf. Ms. Petrônio Cândido L. Silva
![Page 2: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/2.jpg)
1. O que são dados?
2. O que é Big Data?
3. E o poder de processamento?
4. O que é Data Science?
5. E o cientista de Dados?
6. Conclusão!
Agenda
![Page 3: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/3.jpg)
O que são dados?
![Page 4: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/4.jpg)
O que são dados?
DADOS ● Simples / Escalar
INFORMAÇÃO ● Combinação de dados
CONHECIMENTO ● Combinação de informações
![Page 5: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/5.jpg)
Categorias de Dados
Estruturado Semi-Estruturado Não Estruturado
Estrutura Rígida
Atributos Fixos
Tamanhos Fixos
Integriadade e Consistencia
Estrutura Flexível Sem
Estrutura Atributos Variáveis
Tamanhos Variáveis
![Page 6: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/6.jpg)
Tipos de Dados Estruturados
Quantitativo Qualitativo
Contínuo
Discreto
Ordinal
Cardinal
Nominal
Ordinal
![Page 7: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/7.jpg)
Categorias de Dados
Estruturado Semi-Estruturado Não Estruturado
Bancos de Dados
Tabelas
Planilhas de Cálculo
Texto
Som
Imagem
![Page 8: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/8.jpg)
Semântica dos Dados
Fonte: http://okfn.de/blog/2015/04/gespraechskreis-digitalisierung-open-data/
![Page 9: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/9.jpg)
Composição da Informação
Quem ?
Onde ?
Quando ?
Como ?
Quanto ?
Por quê ?
O quê ?
![Page 10: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/10.jpg)
O macro processo da informaçãoSistemas de
ProduçãoBD
Operacional
Data Warehouse
RelatóriosCubos
DashboardsData Mining
Clientes Funcionários
DADOS
DECISÃO
INFORMAÇÃO
DADOS
INFORMAÇÃO
CONHECIMENTO
PlanejamentoMetasPromoções
OfertasPromoçõesetc
Gerentes
![Page 11: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/11.jpg)
Dado
Dado
Dado
Informação Informação
Dado
Dado
Dado
Conhecimento
![Page 12: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/12.jpg)
Fonte: http://jp4.r0tt.com/l_5013ce00-5c4a-11e1-ba5f-a9c495600004.jpg
![Page 13: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/13.jpg)
Tamanho dos DadosUnidade Conversão O que representa
Bit 0 ou 1
Byte (B) 8 bits Uma letra
Kilobyte (KB) 1024 bytes Um parágrafo de texto
Megabyte (MB) 1024 Kb Um livro, uma música de 2 min
Gigabyte (GB) 1024 Mb 40 minutos de filme em qualidade de DVD
Terabyte (TB) 1024 Gb Três semanas e meia de vídeo de alta qualidade,
Petabyte (PB) 1024 Tb ???
Exabyte (EB) 1024 Pb ???
Zetabyte (ZB) 1024 Eb ???
![Page 14: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/14.jpg)
![Page 15: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/15.jpg)
Custo por Tamanho dos Dados
Fonte: http://www.techtudo.com.br/artigos/noticia/2013/04/do-disquete-ao-pendrive-veja-evolucao-do-armazenamento-movel.html
![Page 16: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/16.jpg)
![Page 17: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/17.jpg)
![Page 18: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/18.jpg)
Custo do Armazenamento Hoje
Mídia Custo Médio por GB (R$)
Pendrive 2,50
SSD 2,60
Disco Rígido 0,37
Cloud 0,03 (mês)
![Page 19: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/19.jpg)
Velocidade de comunicação
Velocidade 1 Segundo 1 Minuto 1 Hora
bits por segundo (bps) 1 7.5 B 450 B
Kilobits por segundo (Kbps) 125 B 7.3 KB 439 KB
Megabits por segundo (Mbps) 122 KB 7.3 MB 439 MB
Gigabits por segundo (Gbps) 119 MB 6,9 GB 414 GB
Fonte: http://www.wu.ece.ufl.edu/links/dataRate/DataMeasurementChart.html
![Page 20: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/20.jpg)
Velocidade dos DadosDispositivo Velocidade Segundo Ano
Modem 56 K 56 Kbps 6,8 KB 1998
ADSL Até 8 Mbps 976 KB 1999
Cable Modem Até 52 Mbps 6,3 MB 2001
Ethernet 100Mbps 12,5 MB 1995
Gigabit Ethernet 1 Gbps 125 MB 1998
Wireless 108 Mbps 13,5 MB 2003
3G 384 Kbps 48 KB 2002
![Page 21: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/21.jpg)
Custo por Velocidade dos DadosMeio Velocidade Custo Mensal por Mbps
Celular 3G 1 Mbps 30,00
ADSL 1 Mbps 44,00
Cabo 1 Mbps 40,00
Fibra 15 Mbps 75,00
Wireless
![Page 22: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/22.jpg)
Novas Fontes de Dados
![Page 23: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/23.jpg)
Novas Fontes de Dados
● Por quê?○ Monitoramento da marca;
○ Monitoramento de campanhas de marketing;
○ Relacionamento com o consumidor;
○ Análise de tendências (trending topics);
○ ...
![Page 24: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/24.jpg)
● 4 milhões de buscas no Google
● 2,5 milhões de posts no
● 300 mil posts no Twitter
Data Explosion
● 220 mil fotos no Instagram
● 72 horas de vídeo no Youtube
● 50 mil downloads de aplicativos
na Apple Store
● 200 milhões de e-mails
O que acontece em 1 minuto na Internet?
Fonte: http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/
![Page 25: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/25.jpg)
![Page 26: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/26.jpg)
![Page 27: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/27.jpg)
Internet das Coisas (IoT)
● Diversos sensores coletando dados
automaticamente;
● Dados são enviados para a internet e
armazenados;
● Usuário é alertado sobre os dados;
![Page 28: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/28.jpg)
![Page 29: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/29.jpg)
![Page 30: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/30.jpg)
![Page 31: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/31.jpg)
Internet das Coisas (IoT)
● Sensores ● GPS● Climáticos
○ Temperatura○ Umidade○ Precipitação○ Velocidade do Vento
● Luminosidade
● Timer● Biométricos
○ Pressão○ Temperatura
Corporal○ BPM
● Carros
![Page 32: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/32.jpg)
Fonte: https://securityledger.com/2014/04/will-ot-big-data-create-darwinian-struggle-for-insurance-carriers/
![Page 33: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/33.jpg)
Dados Abertos (Open Data)
Disponibilizar arquivos de dados:
● Completos● Primários● Atuais● Acessíveis
● Tratáveis por computador
● Sem discriminação● Sem propriedade● Sem licença
![Page 34: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/34.jpg)
Dados Abertos (Open Data)
● Existência○ Os dados devem estar disponíveis e indexados na web!
● Aproveitamento○ Os dados devem estar em formato utilizável por computador!
● Utilidade○ Os dados devem estar livres de restrições jurídicas!
![Page 35: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/35.jpg)
Dados Abertos Governamentais
● Lei de Acesso à Informação (LAI)○ http://dados.gov.br/○ http://www.portaltransparencia.gov.br/○ http://www.transparencia.mg.gov.br/○ http://www.ifnmg.edu.br/acessoainformacao/sobre-
o-acesso-a-informacao○
![Page 36: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/36.jpg)
Dados Abertos Científicos
● http://br.okfn.org/● http://www.nature.com/sdata/● http://blog.visual.ly/data-sources/●
![Page 37: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/37.jpg)
Novo cenário
Dados
GovernoSistemas Emp
Social Media
E-mail, arquivos, etc
Máquinas e sensores
![Page 38: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/38.jpg)
Novo cenário
● Todos os dados○ Formatos diferentes entre si;○ Gerados em velocidades distintas;○ Validades diferentes;○ Relacionados ou não.
![Page 39: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/39.jpg)
![Page 40: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/40.jpg)
http://www.priv.gc.ca/information/ar/images/cartoon3.jpg
![Page 41: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/41.jpg)
Valor e Depreciação
● Alguns dados sofrem depreciação○ Têm dada de validade○ Custo de Oportunidade
Depois de coletados e armazenados os dados devem rapidamente serem transformados em
informação para ser consumida!
![Page 42: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/42.jpg)
Impacto da Informação
Exclusividade
Novidade
Completude
Utilidade
![Page 43: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/43.jpg)
Visualização da Informação
● Relatórios● Gráficos● Indicadores de Desempenho● Painéis de Controle (Dashboards)● Infográficos e Data Storytelling
![Page 44: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/44.jpg)
Business Intelligence
● Exemplos○ http://www.paraondefoiomeudinheiro.org.
br/dataset/estado-sao-paulo-2012○ http://ison.stratebi.es/aerobrasil/○ http://www.it4biz.com.br/apps/dados.gov.br/obrasdopac/○ http://www.estatisticasfutebolbrasileiro.com/○ http://dataviva.info/○
![Page 45: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/45.jpg)
http://www.kdnuggets.com/images/big-data-cartoon-100000-warehouses.jpg
![Page 46: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/46.jpg)
Big Data
![Page 47: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/47.jpg)
Big Data
● Buzzword da moda...● Quando o tamanho do dados faz parte do
problema!● Alta Dimensionalidade
○ Entidades / Atributos / Instâncias
![Page 48: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/48.jpg)
Big Data
![Page 49: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/49.jpg)
Big Data● 4 V's (Stapleton, 2011)
○ Volume■ Terabytes para Petabytes de dados
○ Velocidade■ Fluxo contínuo e rápido de novos dados
○ Variedade■ Dados estruturados, semi e não estruturados
○ Veracidade■ Governança de dados e qualificação entre
Consistente, Inconsistente, Incompleto, Ambíguo, ...
![Page 50: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/50.jpg)
Fonte: https://devcentral.f5.com/blogs/us/the-four-v-rsquos-of-big-data
![Page 51: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/51.jpg)
Big Data
Fonte: http://sweetlysocial.net/big-data-better-marketing/
![Page 52: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/52.jpg)
Big Data● Exemplos
○ Social Media○ Web Logs○ Sensor Networks○ Cadeias de DNA○ LHC
![Page 53: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/53.jpg)
E o poder de processamento?
![Page 54: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/54.jpg)
E o poder de processamento???
● Supercomputadores ???○ $$$ #Fail
● Multicomputadores !!!○ $$$ :-)
![Page 55: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/55.jpg)
E o poder de processamento???
● Multicomputadores○ Cluster
■ SIMD - Single Instruction Multiple Data■ Rede Local
○ Grid■ MIMD - Multiple Instruction Multiple Data■ Distribuição geográfica
![Page 56: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/56.jpg)
E o poder de processamento???
● Cluster = Dividir para Conquistar○ Sharding
■ Sistema de Arquivos Distribuídos■ Dividir os dados
○ Map/Reduce■ Processamento Distribuído & Paralelo■ Dividir o processamento
![Page 57: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/57.jpg)
Cluster
● Vantagens○ Alto Desempenho
○ Alta Disponibilidade
○ Flexibilidade
○ Custo
![Page 58: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/58.jpg)
Sharding
● Particionamento Horizontal Replicado
○ O total de dados é dividido em vários partes
pequenas (shards - cacos);
○ As partes são divididas entre vários computadores
○ Cada parte tem pelo menos 3 cópias em
computadores diferentes (segurança)
![Page 59: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/59.jpg)
Sharding
Comp 1 Comp 2 Comp 3 Comp 4 Comp N
...
Master
Dados
Índice
AB
DadosCD
DadosAC
DadosBD
DadosAD
![Page 60: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/60.jpg)
Map/Reduce: Processamento Distribuído
● Essas tarefas são executadas em duas
etapas:○ Mapeamento
○ Redução
![Page 61: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/61.jpg)
Map/Reduce: Processamento Distribuído
● Etapa de Mapeamento○ O processamento total é dividido em pequenas
tarefas○ As tarefas são enviadas para os computadores
executarem nos dados locais○ Cada computador envia o resultado para o
computador central
![Page 62: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/62.jpg)
Mapeamento
Comp 1
Proc.
Comp 2
Proc.
Comp 3
Proc.
Comp 4
Proc.
Comp N
Proc....
Master
Geren
Dados Dados Dados DadosDados
Índice
![Page 63: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/63.jpg)
Map/Reduce: Processamento Distribuído
● Etapa de Redução
○ O computador central recebe o resultado do
processamento dos outro computadores
○ Os resultados individuais são combinados em um
resultado único
![Page 64: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/64.jpg)
Redução
Comp 1
Proc.
Comp 2
Proc.
Comp 3
Proc.
Comp 4
Proc.
Comp N
Proc....
Master
Geren
Dados Dados Dados DadosDados
Índice
![Page 65: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/65.jpg)
Cluster
Comp 1
Proc.
Comp 2
Proc.
Comp 3
Proc.
Comp 4
Proc.
Comp N
Proc....
Master
Geren
Dados Dados Dados DadosDados
Índice
![Page 66: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/66.jpg)
Até aqui...
● Tenho muitos dados○ De muitos tipos○ Chegando muito rápido
● Tenho muito poder computacional○ Muitos discos○ Muitos processadores
E o que eu faço com tudo isso???
![Page 67: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/67.jpg)
Data Science
![Page 68: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/68.jpg)
Ciência de Dados● Objetivo
○ Encontrar PADRÕES e TENDÊNCIAS nos dados;
■ Novos
■ Potencialmente úteis
○ Desenvolver tecnologias a partir dos padrões
encontrados.
![Page 69: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/69.jpg)
Análise
Descritiva Preditiva
Diagnóstica Prescritiva
Padrões Tendências
Causas Ações
![Page 70: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/70.jpg)
Data Science
Bancos de DadosProgramação
Estatística
Inteligência Computacional
Cálculo
Metodologia de Pesquisa
Gestão de Projetos
Análise de Negócio
Grafos e Redes
Design
Otimização
Simulação
Álgebra Linear
![Page 71: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/71.jpg)
Data Science
![Page 72: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/72.jpg)
Processos
● KDD - Knowledge Discovery in Databases (Fayyad, Piatetsky-Shapiro, 1996)
● SEMMA (SAS, 2000)○ Sample, Explore, Modify, Model, Assess
● CRISP/DM (Chapman et al., 2000)○ CRoss-Industry Standard Process for Data Mining
![Page 73: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/73.jpg)
Data Mining
(Azevedo, 2008)
![Page 74: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/74.jpg)
Aquisição
Armazenamento
Análise Exploratória
Modelagem Descritiva
Visualização
Transformação
Modelagem Preditiva
Teste e Experimentação Validação Implantação
Seleção
Dados
Limpeza
Problema
Hipóteses
Pré
Proc
essa
men
toPr
oces
sam
ento
Pós
Proc
essa
m.
![Page 75: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/75.jpg)
PRODUTOS
Pré Processamento
CLUSTER
FONTES
Estrut.
SemiEstrut.
NãoEstrut.
Proc.
Dados
Proc.
Dados
Proc.
Dados
Processamento Pós Processamento
![Page 76: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/76.jpg)
Pré Processamento
PreditivoDescritivo
RegressãoAgrupamento
Associação
Séries Temporais
RecomendaçãoAnálise de Redes
Redes Bayesianas
Árvores de Decisão
Redes Neurais
Ganho de Informação
Correlação
PCA
SVD
SVM
![Page 77: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/77.jpg)
https://community.jivesoftware.com/docs/DOC-30464
![Page 78: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/78.jpg)
E o cientista de dados?
![Page 79: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/79.jpg)
“Pessoa que é melhor em estatística do que um engenheiro de software e melhor em engenharia de software
do que um estatístico”
DJ Patil
![Page 80: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/80.jpg)
![Page 81: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/81.jpg)
Como se tornar um cientista de dados?
![Page 82: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/82.jpg)
Conclusão
![Page 83: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/83.jpg)
Conclusão
● Tudo está conectado!● Nunca antes tivemos tantos dados,
informações e conhecimento sobre tantas coisas;
● Há um vasto leque de possibilidades latentes...
![Page 84: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/84.jpg)
Conclusão
● Data Science○ Mais do mesmo ou novidade?○ Uma nova renascença ou uma onda passageira?
Até onde podemos chegar?O que somos capazes de fazer?
![Page 85: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/85.jpg)
Efeito Borboleta
"Um parafuso mal ajustado na planta de produção de uma fábrica pode causar uma
crise econômica mundial?"
![Page 86: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/86.jpg)
"Em Deus eu confio.Todos os outros precisam
trazer dados"
William E. Deming
![Page 87: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/87.jpg)
"Dados são o novo petróleo!"
William E. Deming
![Page 88: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/88.jpg)
Conclusão
Data Warehouse
Big Data
NoSQL
ERP's
WebSocial Media
LogsArquivosE-mail
Intelligence
Analytics
DADOINFORMAÇÃO
CONHECIMENTO
![Page 89: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/89.jpg)
Referências● Azevedo, A.; Santos, M.F. KDD, SEMMA, and CRISP-DM: A Parallel Overview.
Proceedings of the IADIS European Conference on Data Mining, Amsterdam, 2008, pp. 182-185. Disponível em http://recipp.ipp.pt/handle/10400.22/136. Acesso em 28/01/2013.
● Brewer, Eric A.: Towards Robust Distributed Systems. Portland, Oregon, July 2000. – Keynote at the ACM Symposium on Principles of Distributed Computing (PODC). Disponível em http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC-keynote.pdf Acesso em 27/01/2013.
● Chapman, P. et al. CRISP-DM 1.0 - Step-by-step data mining guide. 2000. Disponível em http://www.crisp-dm.org/CRISPWP-0800.pdf. Acesso em 27/01/2013.
● Chee, Timothy; Chan, Lee-Kwun et al. Business Intelligence Systems: State-of-the-art review and contemporary applications. In Symposium on Progress in Information & Communication Technology 2009. p. 96-101.
● Codd, Edgar F.: A Relational Model of Data for Large Shared Data Banks. In: Communications of the ACM 13 (1970), June, No. 6, p. 377–387
● Dean, J. and Ghemawat, S. MapReduce: simplified data processing on large clusters. Communications of the ACM. p. 107-113. 2008.
![Page 90: Big Data e Data Science: admirável mundo novo - IV SIC IFNMG](https://reader034.fdocuments.net/reader034/viewer/2022051516/55ba5599bb61eba3538b4718/html5/thumbnails/90.jpg)
Referências● Fayyad, U. M. et al. From data mining to knowledge discovery: an overview.
In Fayyad, U. M.et al (Eds.), Advances in knowledge discovery and data mining. AAAI Press / The MIT Press.
● Fayyad, U. and Piatetsky-Shapiro, G. and Smyth, P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM v. 39, n. 11, p. 27-34. 1996.
● Inmon, W.H. Building the data warehouse. J. Wiley. 2002.● MacVittie, Lori. The Four V’s of Big Data. Disponível em https://devcentral.f5.
com/blogs/us/the-four-v-rsquos-of-big-data. Acesso em 27/01/2013.● Pritchett, Dan. BASE: An ACID alternative. ACM Queue. 2008. Disponível em
http://queue.acm.org/detail.cfm?id=1394128. Acesso em 27/01/2013.● Kimball, R.; Ross, M. et al. The data warehouse toolkit: the complete guide to
dimensional modelling. New York: 2002.● SAS Institute. SAS Enterprise Miner – SEMMA. Disponível em http://www.sas.
com/technologies/analytics/datamining/miner/semma.html. Acessado em 27/01/2013.
● Stapleton, Lisa K. Taming big data. Disponível em http://www.ibm.com/developerworks/data/library/dmmag/DMMag_2011_Issue2/BigData/index.html?cmp=dw&cpb=dwinf&ct=dwnew&cr=dwnen&ccy=zz&csr=051211. Acesso em 27/01/2013.