Estudo do comprimento de mensagens em fóruns online · I API bem documentada com comunidade ativa...
Transcript of Estudo do comprimento de mensagens em fóruns online · I API bem documentada com comunidade ativa...
Sumario
MotivacaoO trabalho original
A distribuicao log-normal
O experimento
ResultadosErrataHistogramas
Agradecimentos
Motivacao
I Trabalhar com “grande” volume de dados.I Utilizar a internet como fonte de dados.I Introducao a distribuicao log-normal.
Sobkowicz et al. (2007)
I Lognormal distributions of user post lengths in Internetdiscussions - a consequence of the Weber-Fechner law?
I Trabalho com base em datasets dos foruns da BBC,Myspace e Youtube em ingles, e foruns poloneses.
I Comprimentos dos comentarios seguem uma distribuicaolog-normal.
I Hipotetizam que a forma log-normal esta associada com alei de Weber-Fechner atraves do tempo gasto escrevendo ocomentario a percepcao de seu comprimento pelo proprioautor.
Distribuicao log-normal
I Pode ser parametrizada com:
1xσ√
2πe−
12
(ln(x)−µ
σ
)2
(1)
I Se X segue uma distribuicao log-normal entaoln(X )∼N (µ,σ2)
I Obedece uma forma multiplicativa do TLC.
Distribuicao log-normal(cont.)
I Mas µ e σ2 nao sao a media e variancia da distribuicaolog-normal!
Moda Mediana Media Variancia
eµ−σ2eµ eµ+ σ2
2 (eσ2−1)e2µ+σ2
I Utilizada frequentemente em analise de riscos financeiros.
Procedimento
I Coleta de comentarios de foruns em diversas lınguashospedados no reddit.
I Limpeza de comentarios.I Ajuste a distribuicao log-normal utilizando MMV.I Analise resultados.
I Agregador e plataforma de discussao.I 8º lugar no Alexa.I Abriga comunidades falantes de diversos idiomas ao redor
do globo.I API bem documentada com comunidade ativa de
desenvolvedores.
Reddit - Problemas
I Comunidade anglofona enorme e difusa.I Limites da API/servidores.I Bots.I Formatacao.
Dados coletados
I Pouco mais de 12 milhoes de comentarios processados emaproximadamente duas semanas.
I 28 subreddits em 16 idiomas completamente arquivados.
Errata(cont.)
I Alguns subreddits apenas parcialmente arquivados foramacidentalmente selecionados para analise.
I Para estes subs apenas a primeira postagem de cadadiscussao havia sido arquivada.
I Sobkowicz ja havia mostrado que as primeiras postagenstendem a ser mais longas que comentarios subsequentes.
I Exatamente o que aconteceu com os subs destacados.
Resultados(discussao)
I Os comentarios seguem uma log-normal de forma bastanteclara.
I Os parametros µ e σ das distribuicoes nao parecem refletirsimilaridades entre idiomas.
I De fato comunidades falantes do mesmo idioma podem terdistribuicoes com parametros extremamentediscrepantes(eg Argentina e Colombia)
I Ha a possibilidade de os parametros representarem bemdiferencas em sistemas de escrita(cf comunidadesjaponesas).
Agradecimentos
I A comunidade de desenvolvedores do Reddit.I Em particular ao /u/GoldenSights pelo auxılio e por
disponibilizar o timesearch.