Realidades y Sueños de Big Data en México
-
Upload
abel-alejandro-coronado-iruegas -
Category
Data & Analytics
-
view
114 -
download
1
Transcript of Realidades y Sueños de Big Data en México
![Page 1: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/1.jpg)
Realidades y sueños de
en México
Marzo 2015
![Page 2: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/2.jpg)
abel.coronado @ inegi.org.mx
![Page 3: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/3.jpg)
![Page 4: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/4.jpg)
@abxda
![Page 5: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/5.jpg)
@abxda
¿Qué es Big Data?
![Page 6: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/6.jpg)
@abxda
¿Qué es Big Data?
![Page 7: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/7.jpg)
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
![Page 8: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/8.jpg)
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
![Page 9: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/9.jpg)
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
![Page 10: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/10.jpg)
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
![Page 11: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/11.jpg)
http://datascience.berkeley.edu/what-is-big-data/ @abxda
¿Qué es Big Data?
![Page 12: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/12.jpg)
Según Gartner
Big data es información en altos volúmenes, alta velocidad o alta variedad que demanda formas
creativas y viables económicamente para procesarla con el fin de contribuir
a tomar decisiones, actuar y crear valor.
http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf
¿Qué es Big Data?
@abxda
![Page 13: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/13.jpg)
Existen Nuevas Fuentes de Datos que
Complementan las Tradicionales
@abxda
![Page 14: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/14.jpg)
http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg
Tomar decisiones, actuar y crear valor
![Page 15: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/15.jpg)
http://www.r-bloggers.com/data-science-toolbox-survey-results-surprise-r-and-python-win/
Comprender
Recolectar
Explorar, Visualizar
Limpiar
Transformar/
Caracterizar
Modelar / Entrenar
Validar
Comunicar ?
Imaginar /
Considerar la
Integración
de Otras Fuentes
Analizar Fuente(s) Conceptualizar
Un Proceso de Ciencia de Datos
![Page 16: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/16.jpg)
Experto en
computación y
desarrollo
avanzados
Experto en
estadística
matemática
Experto en
el dominio de
datos
CIENCIA
DE
DATOS
Zona
peligrosa!
Investigación
tradicional
Machine
learning
Ciencia de Datos
@abxda
![Page 17: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/17.jpg)
Experto en
computación y
desarrollo
avanzados
Experto en
estadística
matemática
Experto en
el dominio de
datos
Unicornio
Zona
peligrosa!
Investigación
tradicional
Machine
learning
Ciencia de Datos
@abxda
CIENCIA
DE
DATOS
![Page 18: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/18.jpg)
Científico de Datos
Ingeniero de Datos
@abxda
Productos
de Datos
Manejar
las 3 v’s
vs
Visualización
Modelado
Contar
Historias
Científico de Datos
Administración
de Sistemas
Programación
Matemáticas
Estadística
Ingeniero de Datos
Administración de
Bases de Datos
Almacenamiento de
Datos
![Page 19: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/19.jpg)
Equipo de Big Data y Ciencia de Datos
Estadística
Matemáticas
Machine Learning
Minería de Texto
Interfaces de Usuario
Experiencia del Usuario
First Mobile
Visualización de Datos
Ingeniería de Software
Administradores de Sistemas
Bases de datos NoSQL
Arquitecturas Big Data
Arquitecturas de Software
Crowdsourcing
@abxda
![Page 20: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/20.jpg)
Internet de las cosas
Internet de las personas
Internet de las ideas
Internet del todo
Datos
Crudoshdfs://
Información
(Significado)
Tomar
Decisiones
Actuar
¿quién?¿cuántos?
¿por qué?
¿qué?¿Dónde?
Análisis de Datos
Estadística Machine Learning
Estratificaciones
Análisis de Regresión
Muestreo
Mucho más…
Análisis de Redes (Grafos)
Minería de Datos
Volumen
Ciencia de Datos
(Transforma/Modela)Cómputo Concurrente y Paralelo
Arquitectura para
Ciencia de Datos y Big Data
@abxda@hbcolectivo
![Page 21: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/21.jpg)
Internet de las Personas
Internet de las Cosas
Sensores
{ json }
< xml >
c,s,v
Redes Sociales
Internet de las Ideas
Crowdsourcing
Sistemas de Archivos Distribuidos
Computo Paralelo y Concurrente
Programación Funcional
Razonamiento Algebraico
Estadística
Análisis MultivariadoMachine Learning
Análisis de Interacción Espacial
{ json }
< xml >
c,s,v
{ json }
< xml >
c,s,v
Bases de Datos NoSQL
Visualización
Panorama Tecnológico
Infraestructura de Cómputo
![Page 22: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/22.jpg)
Big Data en las Oficinas Nacionales de
Estadística
http://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184
@abxda
![Page 23: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/23.jpg)
• It is clear that during the next two years there
is a need to identify a few pilot projects that
will serve as proof of concept.
• Statistical organisations are, therefore,
encouraged to address formally Big data
issues in their annual and multi-annual work
programmes by undertaking research and pilot
projects in selected areas and by allocating
appropriate resources for that purpose.@abxda
Big Data en las Oficinas Nacionales de
Estadística
![Page 24: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/24.jpg)
• 'new' exploration and analysis methods are
required: Visualization methods, Text mining, and
High Performance Computing.
• To use Big data, statisticians are needed with a
different mind-set and new skills. The
processing of more and more data for official
statistics requires statistically aware people with
an analytical mind-set, an affinity for IT (e.g.
programming skills) @abxda
Big Data en las Oficinas Nacionales de
Estadística
![Page 25: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/25.jpg)
ESTRATIFICADOR INEGIQué es un producto de datos
![Page 26: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/26.jpg)
Ciencia de Datos
www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda
![Page 27: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/27.jpg)
Tecnologías Involucradas (2013)
@abxda
D3.js Librería JavaScript para creación de los
gráficos vectoriales interactivos.
Librería JavaScript facilita la incorporación del patrón
MVC en aplicaciones web de una sola página
Diseño de estructura de la página y habilitación
responsiva via Twitter Bootstrap.
JSON formato de intercambio de datos.
Motor de análisis estadístico,
habilitador de la inteligencia
estadística.
![Page 28: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/28.jpg)
Ciencia de Datos
![Page 29: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/29.jpg)
@abxda
Ciencia de Datos
![Page 30: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/30.jpg)
@abxda
Ciencia de Datos
![Page 31: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/31.jpg)
%Acceso a Internet, %Pc, %Telefono Celular, %Automovil @abxda
Estratificación de 1.2 M de Manzanas
En la misma Pc de 4 Procesadores:(2013)
Software Tiempo
Manzanas
Big Data 8 Seg. 1’221,180
Tradicional 8 Seg. 2,666
https://spark.apache.org/
![Page 32: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/32.jpg)
@hbcolectivo
TWITTER COMO FUENTE DE BIG DATA
![Page 33: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/33.jpg)
¿Cuántos caracteres?
@abxda
![Page 34: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/34.jpg)
140 ???
@abxda
![Page 35: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/35.jpg)
Todo listo para la presentación de #BigData en el @FSLmx .
1482
Json: Formato de Intercambio
![Page 36: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/36.jpg)
Nuestra huella en las Redes Sociales
@abxda
![Page 37: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/37.jpg)
Todos los tuits están disponibles para su
recolección en tiempo real.
@abxda
![Page 38: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/38.jpg)
Incluso permite consultas geográficas
@abxda
![Page 39: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/39.jpg)
¿Dónde recolectar?
@abxda
![Page 40: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/40.jpg)
http://www.elasticsearch.org/
@abxda
![Page 41: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/41.jpg)
¿Por qué ElasticSearch?
@abxda
![Page 42: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/42.jpg)
SwitchPuertos (a) 10.200.2.xPuertos (b)10.1.1.X
Hydra 2 – [10.1.1.X | 10.200.X.X]
Hydra1 – Master 10.1.1.X
Acceso a Internet [Recolecta información Redes Sociales]
< ESCALABILIDAD HORIZONTAL >
¿Por qué ElasticSearch?
@abxda
![Page 43: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/43.jpg)
Hydra
@abxda< ESCALABILIDAD HORIZONTAL >
![Page 44: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/44.jpg)
![Page 45: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/45.jpg)
– El 22 de enero cumplimos 1 año de estar recolectando las 24 horas 7 días de la semana.
– Mas de 121 millones de tuits recolectados
Recolección de tuits en Archivos
Distribuidos con Bases de Datos NoSQL.
![Page 46: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/46.jpg)
Visualización de la Base de Datos
121 Millones de Tuits
![Page 47: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/47.jpg)
Frecuencia de Tuiteo
# Tuits
Frecuencia por hora del día
882,007 Tuiteros generaron 43’079,312 de Tuits
![Page 48: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/48.jpg)
Frecuencia de Tuiteo
![Page 49: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/49.jpg)
Movilidad de los Tuiteros
4’469,550 de desplazamientos de 347,157 Tuiteros
![Page 50: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/50.jpg)
Movilidad hacia Pueblos Mágicos
![Page 51: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/51.jpg)
Contenido de los Tuits
![Page 52: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/52.jpg)
@abxda
Red Nacional de Caminos y Twitter
![Page 53: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/53.jpg)
Red Nacional de Caminos y Twitter
![Page 54: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/54.jpg)
Horarios de Tuiteo cerca de algún sector
@abxda
![Page 55: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/55.jpg)
PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTERMACHINE LEARNING
Qué es un producto de datos
![Page 56: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/56.jpg)
Indicador de sentimiento
…
…
Proceso de Machine Learning
Objetivo:
![Page 57: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/57.jpg)
Proceso de Machine Learning
Muestra de TuitsEtiquetado Manual
Representación numérica
http://scikit-learn.org/http://www.r-project.org/
Machine Learning
Tuits en Tiempo Real
Modelo ClasificadorIndicador
de sentimiento
@abxda
![Page 58: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/58.jpg)
http://cienciadedatos.inegi.org.mx/pioanalisis
@hbcolectivo @ricardoaolvera
@abxda
![Page 59: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/59.jpg)
@abxda
D3.js Librería JavaScript para creación de los
gráficos vectoriales interactivos.
Librería JavaScript facilita la incorporación del patrón
MVC en aplicaciones web de una sola página
Diseño de estructura de la página y habilitación
responsiva via Twitter Bootstrap.
JSON formato de intercambio de datos.
Web Api 2 / Interface REST
Tecnologías Involucradas
![Page 60: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/60.jpg)
Resultados
@hbcolectivo
@ricardoaolvera
@abxda
![Page 61: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/61.jpg)
Seguimos trabajando…
• Seguimos trabajando en la definición de la estrategia y entrenamiento de los algoritmos de Machine Learning…
![Page 62: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/62.jpg)
IMPLEMENTACIÓN DE BIG DATA
![Page 63: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/63.jpg)
Hadoop / Apache Spark
@abxda
ó
Procesamiento70 Cores > 3 Ghz
>250 Gb Ram
5 TB
+Recolección20 Cores > 3 Ghz
100 Gb Ram
1 TB
![Page 64: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/64.jpg)
• Tecnología de procesamiento en paralelo para Ciencia de Datos
Apache Spark
@abxda
![Page 65: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/65.jpg)
@abxda
![Page 66: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/66.jpg)
Reflexión
@abxda
![Page 67: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/67.jpg)
http://www.scidev.net/global/data/feature/big-data-for-development-facts-and-figures.html
Reflexión
@abxda
![Page 68: Realidades y Sueños de Big Data en México](https://reader033.fdocuments.net/reader033/viewer/2022042818/55ad5ab11a28ab2a508b485f/html5/thumbnails/68.jpg)
Preguntas
@abxda