Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402...
Transcript of Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402...
![Page 1: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/1.jpg)
Analítica de datos en Twitter
Proyecto Fin de Carrera realizado por:
Dani Mir Montserrat
Director:
Jose López Vicario
Febrero 2015
![Page 2: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/2.jpg)
Índice
1. Introducción y objetivos
2. Desarrollo
3. Resultados experimentales
4. Conclusiones y trabajo futuro
![Page 3: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/3.jpg)
Índice
1. Introducción y objetivos
2. Desarrollo
3. Resultados experimentales
4. Conclusiones y trabajo futuro
![Page 4: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/4.jpg)
1. Introducción y objetivos
Las redes sociales
• Facebook, Twitter, Google+, Linkedin,…
• Canal comunicación Fidelizar clientes
• Ing. Telecom. Comp. mercados
Comunicación eficiente
Mejora continua
![Page 5: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/5.jpg)
1. Introducción y objetivos
Objetivos iniciales
• @adidas_ES VS @Nike_Spain
•
Técnicas ML
Métodos NLP
PythonCampos de la
Ing. Telecomunicaciones
Twitter analytics
Patrones e info. interés
Com. eficiente
![Page 6: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/6.jpg)
Índice
1. Introducción y objetivos
2. Desarrollo
3. Resultados experimentales
4. Conclusiones y trabajo futuro
![Page 7: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/7.jpg)
2. Desarrollo
Herramientas
• Python
Spider
IPython
Twython API REST
• ML
Unsupervised Learning K-means
• NLP
Bag of Words tf-idf
![Page 8: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/8.jpg)
2. Desarrollo
Propuesta a resolver
1. Descartar seguidores no deseados
fakes
poca actividad
baja influencia
otros mercados
2. Localizar seguidores más influyentes
![Page 9: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/9.jpg)
2. Desarrollo
Propuesta a resolver
3. Conocer a fondo los seguidores más influyentes
Volumen en la cuenta y contribución
Relación con la marca Premium, basic,…
4. Temas más comunes comentados
Temas de interés general
Relaciones entre temas y seguidores
![Page 10: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/10.jpg)
2. Desarrollo
Implementación
1. Filtro de followers
2. Detección celebrities
3. Análisis celebrities
4. Topics
Estructura
Main
Algoritmos
ML
Obtención
datos
1.Filtro
followers
2.Deteción
celebrities
3.Análisis
celebrities
4.Topics
![Page 11: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/11.jpg)
2. Desarrollo
Algoritmos ML
• PCA
• K-means
Elbow
Main
ML
Data
12
3
4
inicio
número de
clusters K.
inicialización de los
centroids.
asignación de los
clusters.
¿se han
actualiza
do los
clusters?
cálculo de los
nuevos centroids.
sí nofin
![Page 12: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/12.jpg)
2. Desarrollo
Obtención de los datos
Main
ML
Data
12
3
4
Núm. friends Núm. followers
adidas 188 728504
Nike 203 56289
Títulométodo
Pet. 15-min Usuarios / pet. T. espera / pet. T. adidas T. Nike
GET friends/idsget_friends_ids
15 5000 60s 2.42h 0.18h
GET followers/idsget_followers_ids
15 5000 60s 2.42h 0.18h
GET users/lookuplookup_user
60 100 15s 30.35h 2.34h
GET statuses/user_timelineget_user_timeline
300 1 3s 606.96h 46.8h
Total marca: 642.15h 49.5hTOTAL: 28.81 días
![Page 13: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/13.jpg)
2. Desarrollo
1. Filtro followers
• Núm. de followers mínimo
• Media de tuits por mes
• Idioma
Main
ML
Data
12
3
4
![Page 14: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/14.jpg)
2. Desarrollo
2. Detección celebrities
Main
ML
Data
12
3
4
qualityTH
followers
inicio
fin
followers
sí
followers
celebrities
tweetsTH (monthly_tweets)
followersTH (followers_filter)
inicio
fin
![Page 15: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/15.jpg)
2. Desarrollo
3. Análisis celebrities
• Densidad, actividad, seguidores,…
• Historial menciones
• Top10 celebrities & Potential friends
• Segmentación k-means (Elbow)
Main
ML
Data
12
3
4
![Page 16: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/16.jpg)
2. Desarrollo
4. Topics
• tf-idf
Main
ML
Data
12
3
4
tokenscelebrities stopwords tf-idf datainicio fin
![Page 17: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/17.jpg)
Índice
1. Introducción y objetivos
2. Desarrollo
3. Resultados experimentales
4. Conclusiones y trabajo futuro
![Page 18: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/18.jpg)
3. Resultados experimentales
Exp. 1: Filtro de followers
Brand Flw. Flw. filter Flw. Filter % P. reach
adidas 727223 182639 25,11 245 M
Nike 56283 23832 42,34 71 M
@Nike_Spain
@adidas_ES
followers_filter=10monthly_tweets=4
lang_filter=es
• flw. adidas ›› flw. Nike
• flw. irrelevantesꜛꜛ
![Page 19: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/19.jpg)
3. Resultados experimentales
Exp. 2: Detección de celebrities
• Celebrities
followers_countꜛꜛ
friends_countꜜꜜ
![Page 20: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/20.jpg)
3. Resultados experimentales
Exp. 3: Análisis de celebritiesBrand Cel. (%) Av. activity Av. Flw. Ment. (Av.)
adidas 650 (0.35) 13402 125894 503 (0.77)
Nike 260 (1.09) 11787 114301 164 (0.64)
• número cel. adidasꜛꜛ
• relevancia cel. adidasꜛꜛ
• menciones adidasꜛꜛ
![Page 21: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/21.jpg)
3. Resultados experimentales
Exp. 3: Análisis de celebrities
• Ej. seg. 3 grupos
embajadores (producto)
famosos (sueldo)
mediáticos (sueldo más elevado)
![Page 22: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/22.jpg)
3. Resultados experimentales
Exp. 3: Análisis de celebrities
• Ej. seg. 4 grupos
conocidos (producto esporádicamente)
embajadores (reciben producto)
famosos (sueldo) mediáticos (sueldo y campañas)
![Page 23: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/23.jpg)
3. Resultados experimentales
Exp. 4: Topics
![Page 24: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/24.jpg)
3. Resultados experimentales
Exp. 4: Topics
• Nike
running
selfie
navidad
madrid
• adidas
sergioramos
cristiano
realmadrid
halamadrid
adidas_ES
![Page 25: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/25.jpg)
3. Resultados experimentales
Exp. 4: Topics
• Relación entre topics y celebrities
• Segmentación celebrities según topics
![Page 26: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/26.jpg)
Índice
1. Introducción y objetivos
2. Desarrollo
3. Resultados experimentales
4. Conclusiones y trabajo futuro
![Page 27: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/27.jpg)
4. Conclusiones y trabajo futuro
Objetivos
• Analytics en social media
• Patrones e información de interés
• Experimentado: ML, NLP, Python
![Page 28: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/28.jpg)
4. Conclusiones y trabajo futuro
Problemas
• Gran número de followers
• Limitaciones
Peticiones de API
Proceso open-sabe-close
![Page 29: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/29.jpg)
4. Conclusiones y trabajo futuro
Trabajo futuro
• Big Data
• Crear una aplicación
• Nuevos datos
Geolocalizar tuits y usuarios
API de Streaming
Análisis de sentimiento
![Page 30: Analítica de datos en Twitter - UAB Barcelona › pub › trerecpro › 2015 › hdl_2072_252402 › PFC_… · Dani Mir Montserrat Director: Jose López Vicario Febrero 2015. Índice](https://reader035.fdocuments.net/reader035/viewer/2022062414/5f1beec3439ff7568876413b/html5/thumbnails/30.jpg)
Gracias por su atención
¿Preguntas?