Cientista de Dados
-
Upload
rodrigo-senra -
Category
Technology
-
view
1.094 -
download
3
Transcript of Cientista de Dados
Cientista de DadosRodrigo Senra
O que faz ?Quem é ?
Como faz ?Por que é importante ?
Apenas um rapaz latino americano...
• Engenheiro de Software • GPr Sistemas (11 anos) • HI Tecnologia (5 anos)
• Professor Universitário - PUC-Campinas (2 anos)
• Especialista - globo.com (2 anos)
• Cientista Pesquisador - EMC2
• Engenheiro de Computação Grad-MSc-PhD IC-Unicamp
• Entusiasta de FLOSS(atuante na comunidade Python desde 2000)
Quem está aí ?
• Estudantes ?
• Profissionais
• Professores ?
• Palestrantes ?
• Cientistas de Dados ?
Cientista de DadosRodrigo Senra
Quem é ?
Por que é importante ?
fONTE: IDC Digital Universe Study, patrocinado pela EMC, 2011
20090.8 Zettabytes CRESCIMENTO
DA INFORMAÇÃO
2020
44X
MAIOR35.2 ZB
IN 2010 THE DIGITAL UNIVERSE WAS
1.2 ZETTABYTES1,200,000,000,000,000,000,000
Zetta Exa Peta Tera Giga Mega Kilo Byte
fonte: http://thehumanfaceofbigdata.com/
http://www.telegraph.co.uk/news/picturegalleries/picturesoftheday/2545407/Pictures-of-the-day-12-August-2008.html?image=8
• ︎Government-to-citizen (G2C)• Government-to-employee (G2E)• Government-to-business (G2B) • Government to-government (G2G)
Cientista de DadosRodrigo Senra
O que faz ?Quem é ?
Data Science is a newly emerging field dedicated to analyzing and manipulating data to derive insights and build data products.
https://beta.oreilly.com/ideas/what-is-data-science
It combines skill-sets ranging from computer science, to mathematics, to art.
http://images.fineartamerica.com/images-medium-large-5/1-pi-transition-paths-martin-krzywinski.jpg
http://drewconway.com/
http://berkeleysciencereview.com/scientific-collaborations-uc-berkeley-data-driven-cover/
Estatísticas descritivas: ! Média vs. Mediana. ! Desvio Padrão ! Quartis, Min/Max. ! Correlação entre variavéis
1X y
10.00 8.048.00 6.95
13.00 7.589.00 8.81
11.00 8.3314.00 9.96
6.00 7.244.00 4.26
12.00 10.847.00 4.825.00 5.68
2x y
10.0 9.148.00 8.1413.0 8.749.00 8.7711.0 9.2614.0 8.106.00 6.134.00 3.1012.0 9.137.00 7.265.00 4.74
3x y
10.0 7.468.00 6.7713.0 12.79.00 7.1111.0 7.8114.0 8.846.00 6.084.00 5.3912.0 8.157.00 6.425.00 5.73
4x y
8.00 6.588.00 5.768.00 7.718.00 8.848.00 8.478.00 7.048.00 5.25
19.00 12.508.00 5.568.00 7.918.00 6.89
Média de x: 9Variância de x: 11
Média exata de y: 7.5 (2 d.p)Variância de y: 4.13 (to 2 d.p)
Correlação entre x e y : 0.816Regressão linear: Y = 3.00 + 0.500xTruth lies on statistics !
Cientista de DadosRodrigo Senra
Como faz ?
http://i0.wp.com/sciencereview.berkeley.edu/wp-content/uploads/2014/04/spring_2014_azam_05.jpg
http://godwincaruana.me/data-science-workflow-overview-and-challenges-cacm/
Big Data a cada passo da exploração de petróleo
Navigation
Seismic: Pre-stack
Seismic: Post-stackLog Curves
Culture Data
Geologic Model
Pressure Data
Velocity Data Interpretation
Resolução de Problemas
Agrupamento
Fernando Perez, lead PI at BIDS and creator of IPython, demonstrates brain imaging analyses performed using the IPython Notebook, an interactive web-based computational environment. credit: Peg Skorpinski
https://www.kaggle.com
Kaggle is the world's largest community of data scientists. They compete with each other to solve complex data science problems, and the top competitors are invited to work on the most interesting and sensitive business problems from some of the world’s biggest companies through Masters competitions.
Tools Used By Competitors
http://www-bcf.usc.edu/~gareth/ISL/ http://www.greenteapress.com/thinkstats/thinkstats.pdf
Obrigado a todos pela atenção.
Rodrigo Dias Arruda Senra http://rodrigo.senra.nom.br [email protected]
@rodsenra
As opiniões e conclusões expressas nesta apresentação são de exclusiva responsabilidade de Rodrigo Senra.
Não é necessário requisitar permissão do autor para o uso de partes ou do todo desta apresentação, desde que não sejam feitas alterações no conteúdo reutilizado e que esta nota esteja presente na íntegra no material resultante.
Imagens e referências para outros trabalhos nesta apresentação permanecem propriedade daqueles que detêm seus direitos de copyright. Agradecimento especial a Ana Oliveira e Diego Salomone que contribuíram com alguns slides de suas apresentações sobre o mesmo tema.