Análisis del lenguaje y contenido emocional en #15m en Twitter
-
Upload
outliers-collective -
Category
News & Politics
-
view
591 -
download
3
description
Transcript of Análisis del lenguaje y contenido emocional en #15m en Twitter
“Hacia un método de análisis del lenguaje y contenido emocional en la
gestación y explosión del 15M en Twitter”
#15mP2Pdatanalysis15M
1
Punto de Partida (I)
• https://github.com/datanalysis15m/datasets/blob/master/oscarmarin/AbrilJulio2011.txt
• 1.123.225 tweets
• Del 31/03/2011 al 08/07/2011
• #nolesvotes,#democraciarealya,#spanishrevolution,#acampadasol,#15m,#yeswecamp,#tomalacalle
• https://github.com/datanalysis15m/software/tree/master/twitterDataGet
2
Punto de Partida (II)
• ¿Cómo podemos caracterizar el lenguaje usado?
• ¿Cómo cambian estas características en el tiempo?
• ¿Podemos medir las emociones implicadas en los contenidos?
• ¿Cómo cambian con el tiempo? ¿Hay alguna correlación con la viralidad?
3
Análisis
• Cuantitativo:
• Frecuencias de conceptos: Temperatura
• Red de conceptos: Cohesión
• Cualitativo: emociones presentes en los contenidos
4
Análisis Cuantitativo
Extracción de
ConceptosCoocurrencias Consolidación
Ranking
Temperatura
Cohesión
“Acampada en Sol”[‘Acampada’:1,‘Sol’:1] [‘Acampada’,‘Sol’,10] Ventana temporal
1:‘Acampada’:1000,2:‘Sol’:800,
....hasta 400 posiciones
Diferencias con la ventana anterior
¿Cuántas coocurrencias de todas las posibles?
5
Cuantitativo: Extracción
Entradas de artículos
Wikipedia+ inlinks
Entradas DBPedia
BBDD
Librería“Acampada en Sol”+ inlinks_minimos
“Acampada”,”Sol”
https://github.com/datanalysis15m/software/tree/master/languageTools
6
http://assets.outliers.es/15mvocabulario7
Cualitativo: Aproximaciones
• Manual: Calidad alta, velocidad baja
• Automática: Calidad media, velocidad alta
• Calidad mediante corpus:
• ¿Están todos los que son? [Recall]
• ¿Son todos los que están? [Precision]
8
Cualitativo: NLP
• Procesado del lenguaje natural
• Análisis morfosintáctico
• http://nlp.lsi.upc.edu/freeling/demo/demo.php
9
Cualitativo: Entornos ruidosos
• Análisis literal [diccionarios]
• Expansión de raíces en diccionarios
• Eliminación de solapamientos [Aho-Corasick]
• Cancelaciones
• Gramáticas literales
10
http://assets.outliers.es/15memociones/11
Cualitativo: Nuestro corpus
• 2000 tweets
• 50% tweets emocionales escogidos a mano, corpus de entrenamiento
• 50% al azar, corpus de test
• Hay 1183 tweets en el corpus con contenido emocional
• F1: 82.4 %
12
Cualitativo: El problema de la subjetividad
• Medir objetivamente algo subjetivo
• Sumar subjetividades (crowdsourcing)
• Problema: Corpus NO de twitter
13
Conclusiones técnicas
• El análisis cuantitativo es trasladable a otros contextos y escenarios
• Para afinar el análisis cualitativo y justificar su corrección necesitamos más trabajo de corpus (colaboración)
14
Trabajos futuros
• Red completa y navegable de conceptos y entidades del #15m
• Red de emociones - conceptos/entidades
• Visualizar la propagación de las emociones
• Acabar de liberar los diccionarios, código y corpus. Necesitamos colaboración! :P
15
Referencias
• http://www.amazon.com/Foundations-Statistical-Natural-Language-Processing/dp/0262133601
• http://www.amazon.com/Speech-Language-Processing-2nd-Edition/dp/0131873210
• http://nlp.lsi.upc.edu/freeling/
• https://github.com/clips/pattern
16