UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ … · mental de aprovação (ou não) a respeito de...
Transcript of UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ … · mental de aprovação (ou não) a respeito de...
UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ
CAMPUS UNIVERSITÁRIO DE MARABÁ
FACULDADE DE COMPUTAÇÃO E ENGENHARIA ELÉTRICA
Curso de Sistemas de Informação
Mayara Moura dos Santos
ANÁLISE DE SENTIMENTOS
MARABÁ
2014
UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ
CAMPUS UNIVERSITÁRIO DE MARABÁ
FACULDADE DE COMPUTAÇÃO E ENGENHARIA ELÉTRICA
Curso de Sistemas de Informação
Mayara Moura dos Santos
ANÁLISE DE SENTIMENTOS
Trabalho de Conclusão de Curso, apresentado
à Universidade Federal do Sul e Sudeste do
Pará, como parte dos requisitos necessários
para obtenção do Título de Bacharel em
Sistemas de Informação.
Orientador (a): Profª. Drª. Leila Weitzel
Coelho da Silva
MARABÁ
2014
II
UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ
CAMPUS UNIVERSITÁRIO DE MARABÁ
FACULDADE DE COMPUTAÇÃO E ENGENHARIA ELÉTRICA
Curso de Sistemas de Informação
Mayara Moura dos Santos
ANÁLISE DE SENTIMENTOS
Trabalho de Conclusão de Curso, apresentado
à Universidade Federal do Sul e Sudeste do
Pará, como parte dos requisitos necessários
para obtenção do Título de Bacharel em
Sistemas de Informação.
Marabá, 30 de abril de 2014.
________________________________________
Profª Drª Leila Weitzel Coelho da Silva
(Orientador – presidente da banca)
(UNIFESSPA)
______________________________________
Profª.
(membro da banca)
(UNIFESSPA)
________________________________________
Profº.
(membro da banca)
(UNIFESSPA)
Marabá, PA
2014
III
DEDICATÓRIA
Dedico este trabalho a minha mãe, Marivalda
Moura e minha avó, Marcelina Moura, que são
as grandes responsáveis por tudo o que sou
hoje e por todos os sacrifícios que fizeram para
que eu chegasse tão longe, e ao meu tio
Arlindo Moura, que me fez ser tão apaixonada
pela educação e me mostrou que um livro pode
mudar uma vida.
IV
AGRADECIMENTOS
A Deus por ter me iluminado ao longo dessa caminhada.
À minha mãe e minha avó, por toda paciência, compreensão, força e educação que deram ao
longo de toda a minha vida.
A toda minha família e amigos que me acompanharam ao longo da minha caminhada.
À Universidade Federal do Sul e Sudeste do Pará pela oportunidade de cursar nível superior.
À Profª. Drª. Leila Weitzel por ter me orientado ao longo deste trabalho e dedicando-se de
forma marcante para a conclusão do mesmo.
Aos professores da Universidade Federal do Sul e Sudeste do Pará, que contribuíram para a
minha formação.
A todos os colegas de classe que estiveram junto comigo durante todo o decorrer do curso.
A todos que diretamente ou indiretamente contribuíram para a minha formação.
V
SUMÁRIO
LISTA DE FIGURAS ............................................................................................................... VI
RESUMO ............................................................................................................................... VII
ABSTRACT .......................................................................................................................... VIII
1 INTRODUÇÃO ....................................................................................................................... 1
2 REDES SOCIAIS .................................................................................................................... 5
2.1 INTRODUÇÃO ............................................................................................................................ 5
2.2 REDES SOCIAIS REAIS - RSR ................................................................................................... 7
2.3 REDES SOCIAIS ONLINE - RSO ............................................................................................... 8
2.3.1 Tipos de Comunidade Virtuais .............................................................................................................................. 12 2.3.2 RSO utilizadas prioritariamente em Computadores ............................................................................................... 13 2.3.3 Exemplos de RSO .................................................................................................................................................. 13
2.4 REDES SOCIAIS PARA DISPOSITIVOS MÓVEIS................................................................. 19
2.4.1 Foursquare ............................................................................................................................................................. 21 2.4.2 Waze ...................................................................................................................................................................... 22
3 ANÁLISE DE SENTIMENTOS ............................................................................................ 24
3.1 PROCESSO DE ANÁLISE DE SENTIMENTOS ...................................................................... 26
3.1.1 Técnicas de Análise de Sentimentos ...................................................................................................................... 35 3.2 FERRAMENTAS DE ANÁLISE DE SENTIMENTOS ............................................................. 39
3.2.1 Emoticons .............................................................................................................................................................. 41 3.2.2 PANAS-t ............................................................................................................................................................... 42 3.2.3 SentiWordNet ........................................................................................................................................................ 43
4 TRABALHOS NA LITERATURA ....................................................................................... 44
4.1 PRINCIPAIS PESQUISADORES INTERNACIONAIS ........................................................... 44
4.1.1 Bing Liu ................................................................................................................................................................. 44 4.1.2 Pak e Paroubek ...................................................................................................................................................... 45 4.1.2 Empresas de pesquisa em AS ................................................................................................................................ 46
4.2 PRINCIPAIS PESQUISADORES BRASILEIROS ................................................................... 47
4.2.1 Emanuel Ferreira ................................................................................................................................................... 47 4.2.2 Fabrício Benevenuto .............................................................................................................................................. 47 4.2.3 NERDS .................................................................................................................................................................. 50
4.3 PRINCIPAIS PUBLICAÇÕES ................................................................................................... 51
4.3.1 Publicações mais Citadas ....................................................................................................................................... 51 4.3.2 Principais Associações........................................................................................................................................... 53
4.4 PRINCIPAIS EVENTOS ............................................................................................................ 55
4.4.1 BraSNAM .............................................................................................................................................................. 55 4.4.2 ICWSM ................................................................................................................................................................. 55 4.4.3 WOSN ................................................................................................................................................................... 56
5 DISCUSSÃO ......................................................................................................................... 57
REFERÊNCIAS ....................................................................................................................... 58
VI
LISTA DE FIGURAS
Figura 1- Redes Sociais Virtuais.................................................................................................8
Figura 2 - Página inicial do Twitter..........................................................................................13
Figura 3 - Página inicial do Facebook......................................................................................15
Figura 4 - Página inicial do Linkedin.......................................................................................16
Figura 5 - Página inicial do YouTube.......................................................................................17
Figura 6 - Página inicial do Pinterest........................................................................................18
Figura 7 - Definição das Redes Sociais Móveis.......................................................................19
Figura 8 - Página de login do Foursquare.................................................................................21
Figura 9 - Mapeamento do Waze..............................................................................................22
Figura 10 - Etapas comuns de analisadores de sentimentos.....................................................29
Figura 11 - Ilustração da técnica de Aprendizado Supervisionado...........................................35
Figura 12 - Ilustração da técnica de Aprendizado Não-Supervisionado...................................35
Figura 13 - Ferramenta iFeel para comparação de ferramentas................................................38
VII
RESUMO
Mineração Opinião e análise de sentimentos é um tema em rápido crescimento com várias
aplicações do mundo de enquetes, questões acadêmicas a colocação de propagandas. Com a
crescente disponibilidade de recursos on-line na Web e popularidade de recursos rápidos e
ricos de compartilhamento de opinião, tais como sites de avaliação on-line e blogs pessoais, a
opinião de mineração tornou-se uma área interessante de pesquisa. Mineração de Opinião é
um processo, usado para extração automática de conhecimento a partir da opinião de outras
pessoas sobre algum tema ou problema particular. Além disso, as opiniões são expressões
subjetivas que descrevem pontos de vista das pessoas, perspectivas e sentimentos sobre as
entidades, eventos e propriedades deles. Detectar expressões subjetivas é a tarefa de
identificar se um determinado texto é subjetivo (ou seja, uma opinião) ou objetivo (ou seja,
um fato relatado). Esta tarefa é considerada como o primeiro problema e é muito importante
para a mineração de opinião e análise de sentimento. Esta pesquisa apresenta o estado atual da
arte na análise de sentimentos. Descobrimos que a investigação tem-se concentrado no sentido
de encontrar sentimentos em um item e classificando-o com os polegares para cima ou para
baixo. Mineração de Opinião tem muitos domínios de aplicação, incluindo a ciência e
tecnologia, entretenimento, educação, política, marketing, contabilidade, direito, pesquisa e
desenvolvimento. Uma vez que este campo é muito novo e muito trabalho está sendo feito
nesta área, aproveitamos a oportunidade para categorizar uma parte significativa do trabalho
existente em uma forma que pode ajudar os pesquisadores a estudar este campo com mais
detalhes.
Palavras-chave: Análise de Sentimentos, Redes Sociais, Opinião.
VIII
ABSTRACT
Opinion mining and sentiment analysis is a fast growing topic with various world applications
from polls, academic issues to advertisement placement. With the growing availability of
online resources on Web and popularity of fast and rich resources of opinion sharing such as
online review sites and personal blogs, opinion mining has become an interesting area of
research. Opinion mining is a process, used for automatic extraction of knowledge from the
opinion of others about some particular topic or problem. Further, opinions are subjective
expressions that describe people's viewpoints, perspectives or feelings about entities, events
and theirs properties. Detecting subjective expressions is the task of identifying whether a
given text is subjective (i.e. an opinion) or objective (i.e. a reports fact). This task is
considered as the first problem and it is very important for opinion mining and sentiment
analysis. This research presents the current state of the art in opinion mining. We discover that
research has been concentrated towards finding out the sentiment on an item and classifying it
as thumbs up or down. Opinion mining has many application domains including science &
technology, entertainment, education, politics, marketing, accounting, law, research and
development. Since this field is very new and much work is currently being done in this area,
we take the opportunity to categorize a significant part of the existing work in a way that can
help researchers to study this field in further detail.
Keywords: Sentiments Analysis, Social Networking, Opinion.
1
1 INTRODUÇÃO
Desde o surgimento do primeiro computador, até a época atual, inúmeras revoluções
tecnológicas aconteceram, as máquinas e principalmente a Internet está cada vez mais fazendo
parte do cotidiano das pessoas. Desde a explosão da Internet na década de 90, começaram a
surgir também as Mídias Sociais, como forma de estreitar relacionamentos e como
consequência, uma infinidade de informações vem sendo postadas desde então todos os dias,
Dentro deste contexto, o foco das pesquisas tem se voltado a como fazer o gerenciamento
destas informações (FERREIRA, 2010).
Assim, no mundo cada vez mais conectado, mais e mais pessoas estão emitindo suas
opiniões, ou expresando seus sentimentos nas Redes Sociais - RS, tais como o Twitter,
Facebook, MySpace entre outras. Devido as características desses ambientes sociais online, as
opiniões e sentimentos são expressos em tempo real, e sobre os mais variados assuntos. Esta
particularidade tornou estes ambientes virtuais de relacionamentos uma fonte de dados para
estudos.
Análise de Sentimentos – AS ou Mineração de Opinião - MO ou Computação Afetiva
– CA, tem como objetivo classificar textos atribuindo a eles uma orientação, ou seja, uma
polaridade que pode ser positiva, negativa ou em alguns casos neutra. Pode-se dizer que
quando pessoas emitem uma opinião, elas postam muito do que sentem. Um sentimento
define o que uma pessoa sente a respeito de algo, pode ser considerada também uma atitude
mental de aprovação (ou não) a respeito de um determinado assunto ou uma reflexão
(KOBLITZ, 2010).
A AS é uma subárea da Mineração de Dados – Datamining, do domínio da
Inteligência Artificial, sendo uma área recente de estudo, em praticamente todos os campos,
tais como política, propaganda etc (BENEVENUTO et al., 2011; FERREIRA, 2010).
Seguindo as considerações de Koblitz (2010), um sentimento não é algo claro e
simples de ser compreendido, pois às vezes as pessoas se expressam de uma maneira muito
complexa. Por exemplo, quando uma pessoa diz ou escreve alguma coisa, mas na verdade está
querendo dizer outra coisa. Esse é o ponto crucial das pesquisas nesta área, os sentimentos
expressos podem ser por vezes muito relativos. Analise o seguinte contexto, uma pessoa
opina sobre um sistema operacional – SO de celular com a seguinte frase: “O Android é
realmente muito bom”. Uma outra pessoa responde dizendo a seguinte frase: “ Ah tá,
realmente ele é muito bom”. As duas frases apararentemente têm o mesmo sentimento a
2
respeito do SO (opinião positiva), mas se a segunda pessoa utilizar um tom sarcástico em sua
fala (neste caso oral) a segunda frase teria um sentimento negativo a respeito do SO.
De modo geral, a AS estuda sentimentos e opiniões que são que são expressas,
basicamente, em textos de Redes Sociais, mas que pode ser utilizada em outros ambientes
onde a AS se aplica. Tanto a Academia quanto as organizações tem feito uso deste paradigma
em um contexto amplo sob os mais variados assuntos. Na área acadêmica, o objetivo principal
que norteia estas pesquisas visa descobrir relações em RS, e assim pode-se produzir
conhecimento. Para fins corporativos, a AS tem como objetivo agregar valores a produtos e
serviços, ou seja, objetiva descobrir o sentimento (opinião) que o consumidor se expressa em
relação aos seus produtos e/ou serviços. Assim sendo, pode-se desenvolver estratégias para
aprimorar campanhas de marketing e melhorar o relacionamento com o consumidor (SOUZA,
2011).
A AS está sendo utilizada em praticamente todos os assuntos, por exemplo, para
avaliação da aceitação de candidatos em eleições politicas em todos os níveis como
encontrado em Albuquerque et al. (2012); e no esporte em trabalhos como o de Rodrigues et
al. (2012) abordando o campeonato brasileiro de 2009, 2010 e 2011.
É dentro deste contexto que se insere o objetivo desta monografia. Buscou-se na
literatura um referencial teórico formal para a área de AS. Todavia o que existe de referencial
teórico na atualidade sobre AS são fragmentos de texto, dispersos prioritariamente em artigos
em Eventos (Congresso, Seminários, etc), Revistas e Tese e/ou Dissertações na área de IA e
campos correlatos. Desta forma, esta monografia tem como objetivo disponibilizar aos
leitores um referencial teórico, mesmo que reduzido, mas condensando um extenso levamento
bibliográfico sobre o tema. Descrevendo os principais conceitos relacionados à AS, listando
pesquisadores e grupos de pesquisas relevantes, além Congressos, Workshpos e outros
Eventos na área., além de enumerar principais desafios. Contribui-se também fornecendo
perspectivas de trabalhos futuros, ou seja, para onde as pesquisas estão evoluindo.
Este trabalho pretende pesquisar e se aprofundar no tema de AS, e assim fornecer um
arcabouço bibliográfico e teórico sobre o tema.
Como objetivos específicos têm-se:
a) Fazer o levantamento bibliográfico do tema;
b) Discorrer sobre a origem e histórico do domínio;
c) Discorrer sobre o estado atual e principais avanços dos estudos;
3
d) Conhecer os caminhos para onde a pesquisa avança;
e) Conhecer os principais desafios na pesquisa;
f) Buscar na literatura os principais grupos de pesquisa a nível nacional e internacional;
Através deste referencial pode-se estudar e compreender o quanto AS pode evoluir,
pois sendo uma área jovem ainda há muito o que se pesquisar e descobrir. Segundo Oliveira
(2013) os desafios podem estar relacionados a(o):
Uso de dialetos locais, pois cada local tem o seu;
Ambiguidade nos comentários, pois um comentário pode ter diversos significados;
Detecção de Ironias nos comentário, pois pode inverter o sentido de um termo
utilizado;
Tamanho de um texto a ser utilizado, pois usuários podem criar seus próprios termos
ou usar de abreviaturas.
A metodologia utilizada neste estudo foi a pesquisa bibliográfica e pesquisa
exploratória, pois oferecem meios que auxiliam na definição e resolução dos problemas já
conhecidos, como também permite explorar novas áreas onde os mesmos ainda não se
cristalizaram suficientemente. Permite também que um tema seja analisado sob novo enfoque
ou abordagem, produzindo novas conclusões. Além disso, permite a cobertura de uma gama
de fenômenos muito mais ampla, principalmente quando o problema da pesquisa requer a
coleta de dados muito dispersos no espaço.
Através deste método, é possível agrupar em uma única base de dados todas as
informações coletadas, cujas fontes encontram-se em bibliotecas digitais, publicações em
anais de eventos entre outros. Assim sendo, consegue-se obter um panorama mais completo e
conciso sobre o estado atual do tema.
Segundo Marconi e Lakatos (1992), a pesquisa bibliográfica é o levantamento de toda a
bibliografia já publicada, em forma de livros, revistas, publicações avulsas e imprensa escrita.
A sua finalidade é fazer com que o pesquisador entre em contato direto com todo o material
escrito sobre um determinado assunto, auxiliando o cientista na análise de suas pesquisas ou
na manipulação de suas informações. Ela pode ser considerada como o primeiro passo de toda
a pesquisa científica.
O presente projeto apresenta 6 capítulos os quais abordarão o tema em questão,
mostrando organizados da seguinte forma:
4
Capítulo 2 e 3: Capítulos complementares que tratam sobre as principais linhas
temáticas do trabalho.
Capítulo 4: É apresentada a revisão bibliográfica que mostra pesquisas e trabalhos
dentro da temática e contexto do trabalho.
Capítulo 5: São apresentadas as considerações finais sobre o trabalho.
Capítulo 6: Por fim são apresentadas as referências bibliográficas utilizadas neste
trabalho.
5
2 REDES SOCIAIS
Este capítulo tem como objetivo posicionar o leitor no campo de Redes Sociais - RS.
O capítulo discorre sobre os principais trabalhos desenvolvidos, autores relevantes, além de
mostrar os principais elementos que compõem as RS e exemplificar algumas delas.
2.1 INTRODUÇÃO
A primeira rede de relacionamento social do ser humano é a família e o acompanha ao
logo da sua vida, é importante para o contexto desta pesquisa compreender o que realmente é
uma RS e porque são tão essenciais atualmente.
O termo RS apareceu primeiramente nas Ciências Sociais. De acordo com Acioli
(2007) uma RS é composta de atores e relações entre eles. Designa ainda os movimentos
pouco institucionalizados, reunindo indivíduos ou grupos numa associação cujos limites são
variáveis e sujeitos a diferentes reinterpretações. As RS têm como principal característica os
laços (conexões) que são formados entres os atores. Estes laços determinam o tipo de
relacionamento que é estabelecido. Mais adiante nesta seção serão apresentados alguns dos
diferentes tipos de relacionamentos entre atores.
Existem várias definições para RS na literatura. Para Barnes (1972) não seria possível
conceituar de uma forma geral as RS, porque dependendo do contexto onde é utilizada,
existem conceitos específicos para cada uma das áreas onde são aplicadas. Por exemplo,
podem-se citar as RS reais (família, amigos do trabalho, etc.) e as RS On-line ou virtuais que
são mediadas por computador.
De acordo com Marteleto (2001, p.72), as RS podem ser definidas como um “conjunto
de participantes autônomos, unindo ideias e recursos em torno de valores e interesses
compartilhados”. Downes (2005, p.411), por sua vez, entende que “uma rede social é um
conjunto de indivíduos ligados entre si por um conjunto de relações”.
Apesar das mais variadas definições para RS em suas áreas especificas, (RS on-line ou
RS as reais), existem elementos em comum a ambas. De acordo com Aguiar (2006) os
elementos principais são: o estrutural e o dinâmico.
6
O elemento estrutural refere-se aos componentes da rede, conforme apresentado na
Tabela 1 a seguir:
Tabela 1: Componentes da estrutura das Redes Sociais.
Componente Definição
Nós Ou Vértices são os Indivíduos ou Atores (podem ser objetos,
organizações, etc.)
Elos São as conexões, relações, vínculos, interesses ou objetivos
comuns que unem dois ou mais nós.
Vínculos
De acordo com Granovetter (1973), caracteriza a intensidade da
relação. Os elos podem ser fortes ou fracos. O autor definiu que
Laços Fortes são ligações relacionais com amigos próximos ou
parentes e se caracterizam pela intimidade, os Laços Fracos são
ligações relacionais com conhecidos distantes, não traduzem
intimidade ou proximidade.
recíprocos ou não-recíprocos: interações frequentes ou não.
diretos ou indiretos: os indivíduos podem se comunicar com a rede
diretamente ou através de outras pessoas que os representam.
Papéis
nós ativos: estabelecem comunicação com maior frequência.
nó focal: para onde converge o maior fluxo de mensagens da rede
Líder.
isolados: acompanham o fluxo de informações sem participar
ativamente.
líderes de opinião: influenciam as atitudes dos demais participantes
da rede.
especialistas: detentores de conhecimento e/ou experiências
imprescindíveis para o funcionamento da rede.
ponte: único elemento de ligação entre dois ou mais cliques.
Cliques ou
clusters
São subgrupos que se formam dentro da Rede, estes subgrupos são
formados porque alguns atores possuem caraterísticas (interesses)
em comum e os laços formados entre eles são mais fortes que os
laços que se formam fora do grupo. Exemplo, uma RS formada por
amigos e família, os laços com o subgrupo família tende a ser mais
intenso (mais forte) quer os laços com amigos (menos intenso –
laços fracos).
Fonte: adaptado de Aguiar (2006).
7
Em relação ao elemento dinâmico apontado por Aguiar (2006, p.15), trata-se do
elemento que indica o processo de desenvolvimento de relações na rede e tem como
principais aspectos:
O padrão do fluxo de informação entre os nós;
O ritmo das interconexões e do fluxo de informação, que pode ser contínuo ou
descontínuo, regular, sazonal ou eventual;
Os graus de participação dos integrantes da rede (frequência com que se
comunicam e a qualidade do que comunicam);
Os efeitos dessa participação nos demais membros e no desenvolvimento da
rede.
2.2 REDES SOCIAIS REAIS - RSR
As RSR surgiram desde o momento em que os primeiros humanos começaram a
interagir uns com os outros. Segundo Recuero (2004), o interesse em estudar RSR surge no
século XX, com as Ciências Exatas, como Matemática e Física com a Teoria dos grafos, mas
é somente com as Ciências Sociais, mais especificamente na área da Antropologia Social, é
que os estudos se aprofundam com objetivo geral de se ter uma maior compreensão do poder
das relações que são estabelecidas.
Segundo Acioli (2007), as primeiras concepções sobre RSR vêm de Claude Lévi-
Strauss em sua Análise Etnográfica das estruturas elementares de parentesco em 1940. Com
os estudos seminais de Claude Lévi-Strauss há uma continuidade e uma necessidade cada vez
maior de se aprofundar sobre o assunto. Desta forma, Barnes (1972), preocupa-se em entender
o termo, sua definição clara e uso específico. Ainda de acordo com o autor, há uma
necessidade de se entender o uso das RSR sob duas perspectivas distintas, a metafórica e a
analítica.
De acordo com Acioli (2007) a primeira perspectiva a ser analisada é a metafórica, ou
seja, do ponto de vista Filosófico ou Conceitual, uma percepção teórica, baseada no individuo
em sociedade. Uma RSR metafórica pode ser analisada de forma total (chamada de RSR total)
ou parcial (RSR parcial). Na análise de uma RSR total, todos os relacionamentos existentes
são analisados, ou seja, todo e qualquer tipo de relacionamento e, portanto, a Rede deve ser
analisada como um todo, diferentemente de uma RSR parcial. Em uma RSR parcial, que é
8
fonte da maior parte dos estudos, lidam com relações parciais específicas, ou seja, estuda um
tipo de relacionamento específico entre um indivíduo com outro ator (BARNES, 1972).
De acordo com o apresentado acima (ACIOLI, 2007) ressalta-se que independente de
se realizar um estudo sob uma RSR total ou parcial, a formas mais adequada de se conduzir o
estudo é analisando como as redes estão organizadas em grupos, e como as de troca de
informações podem ser valoradas, uma vez que, se está se estudando a realidade social a partir
de relações sociais, e não os atributos destes indivíduos.
Seguindo os estudos de Barnes (1972), o outro ponto de vista no qual uma RS real
pode ser analisada, é o analítico, no qual se utiliza procedimentos metodológicos baseados em
questões culturais e a localização (local ou global).
Acioli (2007), afirma que o uso analítico de uma RSR é empregado basicamente em
estudos de redes de movimento ou solidariedade, relacionada ao estudo de movimentos
sociais na Antropologia Social, utilizando-se de pressupostos das Ciências Sociais e
Geografia, o que facilita a compreensão das relações sociais, espaciais, informais e temporais.
Ainda para o autor, utilizar procedimentos metodológicos conforme descrito acima pode
auxiliar a compreender como: (i) as redes se formam, (ii) qual é o caminho percorrido por
uma informação e (iii) como as ações coletivas surgem, interagem e se influenciam nessas
redes.
Pode se dizer que apesar de existirem diferentes correntes de estudo, isso não quer
dizer que necessariamente apenas uma corrente poderá ser utilizada. Dependendo da pesquisa,
para se ter uma melhor compreensão das relações sociais existentes, pode-se utilizar mais de
uma dessas correntes (ACIOLI, 2007).
2.3 REDES SOCIAIS ONLINE - RSO
As RS são espaços para criar, construir e manter relações pessoais ou profissionais
entre pessoas, encontrar oportunidades e aprender novas ideias. As RSO podem ser formadas
por interações baseadas em relacionamentos que já existem no mundo real. A partir de uma
rede de contatos (por exemplo, amigos, família, etc.) e colocando-a no “mundo virtual” e
assim é criada uma comunidade on-line (SANTOS, 2013).
Uma RSO é uma rede de contatos ou relações entre atores com diferentes tipos de
interesses no mundo real, que foi incorporada ao “mundo virtual”. Na Figura 2.1 esta ilustrado
9
os logotipos de alguns exemplos de RSO que foram criadas nos últimos anos, tais como o
Facebook, Twitter, YouTube entre outros. Ainda neste capítulo será feito uma breve
introdução das principais RSV disponíveis na atualidade.
Figura 2.1: Redes Sociais Virtuais.
Fonte: http://lounge.obviousmag.org/artefacto (2014).
De acordo com Corrêa (2003), historicamente as RSO surgiram no final do século XX,
quando se instaura o que ele denominou de “crise de identidade”. O modelo de identidade
nacional existente, a noção de fronteira e cultura, começa a se tornar defasados. O modelo se
torna defasado, pois partir da década de 70 nos Estados Unidos da América (EUA), começa o
uso intensivo da Internet, passando para escala global na década de 80. Os indivíduos
começam a perceber que podem encontrar informações de todos os tipos (de textos, imagens
etc.), em qualquer outro local no mundo. E assim barreiras geográficas são quebradas e desta
forma sente-se a necessidade de estabelecerem uma identidade. Assim, para o autor, as
comunidades virtuais surgem justamente, devido à necessidade de estabelecer uma identidade,
fazendo com que as pessoas façam parte de grupos sociais, para encontrar outros indivíduos
com quem possam compartilhar e se fazerem conhecidas.
Vale ressaltar que, apesar de ter havido uma grande defasagem no modelo tradicional
de relacionamento, ele ainda continua existindo e que o melhor modelo para RSO é a mistura
das duas formas, denominada de identidade hibrida (CORRÊA, 2003).
10
O primeiro ambiente de RSO surgiu em 1972, e foi chamado de Bulletin Board
System (BBS). Era mais ou menos como provedores web (com fóruns, servidor de e-mail,
bate-papo e download de arquivos), só que funcionavam de forma isolada. Eram sistemas
simples, bem semelhantes a um quadro de avisos como vemos nos supermercados, escolas,
empresas etc., onde são fixados avisos de compra, procura ou ofertas de serviços, dentre
outras opções. Mais tarde evoluíram permitindo a troca de dados e mensagens, participação
em fóruns e leitura de notícias e utilização de jogos. Em 1990 surge o IRC - Internet Relay
Chat - que revolucionou a troca de mensagens instantâneas criando grandes comunidades de
usuários. Em 1997 foi lançada a primeira RS generalista, denominada de Sixdegree que
possibilitou a criação de perfis e a manutenção dos contatos, mas foi extinta em 2001
(LEMOS, 2002).
Assim a Sociedade da Informação, e o uso intensivo de tecnologias digitais se
convergem para a Sociedade em Rede, onde atores ficam cada vez mais tempo conectados.
Corrêa (2003, p.4) define assim;
A sociedade em Rede é a sociedade cuja estrutura social foi construída em torno de
redes de informação, a partir do desenvolvimento de tecnologias microeletrônicas
que resultaram no aperfeiçoamento de sistemas computacionais que, por sua vez,
estruturaram redes que conectam o mundo, com destaque para a Internet.
A época atual é caracterizada pelo crescente uso de tecnologias digitais, formando
novos e diferentes tipos de relacionamentos. As novas formas de agregação social que surgem
são mais espontâneas e têm características e práticas muito especificas, constituindo o que
pode ser denominado de cibercultura, pois surgem no ambiente virtual ou ciberespaço. As
relações sociais existentes no mundo real são empregadas em espaços como o familiar, grupo
de amigos, igreja ou em outros locais que se frequenta ou locais de convivência. O
ciberespaço é o local onde se estabelecem as RSV e é também o espaço onde a informação
trafega, servindo como fonte de comunicação e que não se opõe ao mundo real (CORRÊA,
2003).
Lemos (2002), define ciberespaço como um ambiente simulado de realidade virtual, o
qual é formado por um conjunto de redes interconectadas ou não. E desta forma, o
ciberespaço seria um ambiente propício para a constituição destas comunidades virtuais.
11
De acordo com Rheingold (1998), o estilo de vida moderna, em que as pessoas têm
várias preocupações, entre elas a violência, ou então têm uma vida agitada, não sobrando
tempo para outras atividades, favoreceu o surgimento das comunidades virtuais.
De acordo com Corrêa (2003), além do que já foi descrito anteriormente, o que motiva
um individuo a fazer parte de uma comunidade virtual, é que ele tem autonomia para escolher
se quer fazer parte ou não de uma determinada comunidade, de poder sair quando assim
desejar e fazer a escolha de participar de uma comunidade de acordo com seus objetivos,
interesses particulares em determinados assuntos e grau de afinidade com os outros
indivíduos, que fazem parte da comunidade. O autor discute ainda que apesar de serem
comunidades virtuais, elementos como emoções, conflitos, coletividade e interesses comuns
continuam existindo e para o seu bom funcionamento também é necessário utilizar regras,
denominadas Netiqueta1, havendo uma punição para aqueles que desobedecerem as regras
estipuladas pelo grupo.
É interessante observar algumas das características que compõem as RSV, justamente
para compreender porque são tão utilizadas. Segundo Recuero (2001) são classificadas em:
Nível mínimo de interação: no qual mensagens em uma determinada sequencia tem
relações entre si.
Grande quantidade de comunicadores: que está associada à primeira característica
da interatividade.
Utilização do ciberespaço: pois é um local público, onde ocorre à comunicação
interativa da comunidade, utilizando como canal uma tecnologia de comunicação
(computador, celular, tablet), imprescindível para a existência de uma comunidade
virtual e onde se formam as comunidades privadas, onde ocorre troca de mensagens
individuais.
Nível mínimo de membros associados: é necessário que haja uma mínima
quantidade de membros constantes para haver interação.
Apesar da existência do espaço (ciberespaço) ser importante, a interatividade é o que
realmente é indispensável para a existência das comunidades virtuais, pois elas dependem dos
graus de relacionamento, interesses ou trocas de mensagens para que perdurem com o passar
do tempo.
1 Regras estabelecidas pelos integrantes de comunidades virtuais, como forma de estabelecer boa covivência
entre os membros, proporcionar certa segurança e caso não sejam cumpridas por algum membro, poderá
ocasionar até expulsão do individuo.
12
A interatividade na Computação pode ocorrer de duas formas: interação mútua e
interação reativa. A interação mutua ocorre em sistemas abertos, de forma negociada entre os
agentes, são formadas por ações interdependentes que geram interpretações e possuem fluxo
dinâmico. A interação reativa ocorre em sistemas fechados, num processo de estímulo-
resposta com fluxo. A forma mais utilizada é a mútua, pois é uma interação que ocorre de
forma espontânea, como em chats do Facebook, por exemplo, e por isso é a única forma de
interação capaz de construir relações sociais, e, portanto, comunidades virtuais,
diferentemente das interações do tipo reativa que é composta por respostas e trocas de
mensagens pré-programadas, neste caso, são previsíveis, e muito comuns em serviços de
email (RECUERO, 2001).
2.3.1 Tipos de Comunidade Virtuais
De acordo com Lopes e Coutinho (2013), RS como Facebook estão totalmente
incorporadas no contexto da sociedade contemporânea. Essas comunidades evoluíram de tal
forma, que se tornaram sistemas complexos, assumindo funções diferentes, daquelas para as
quais foram criadas inicialmente, como por exemplo, a necessidade de estabelecer ligações e
potencializar a comunicação.
Deste modo, RSO passaram a ter diferentes funcionalidades, de acordo com os autores
Henri e Pudeko (2002), que as classificaram em quatro tipos:
Comunidade de interesse: é um conjunto de pessoas reunidas, que possuem
interesses comuns. Os membros participam da comunidade para trocar informações,
obter respostas a questões íntimas e compartilhar paixões, como jogos, por exemplo.
Comunidades de interesse podem ter permanência longa ou curta, que vai depender
dos interesses buscados pelos membros participantes, e, além disso, as atividades que
ocorrem dependem mais do esforço individual, do que do coletivo. É importante
ressaltar que, esse tipo de comunidade, não é voltado para um objetivo comum, como
em um grupo formal.
Comunidade de interesse orientada a metas: comparada a uma força tarefa, ou uma
equipe de projeto, é voltada para uma atividade específica, com objetivos a serem
alcançados. Geralmente, uma comunidade orientada a metas, tem um tempo de
duração pré-estabelecido e são formadas por pessoas de diferentes especialidades para
realizar um mesmo projeto, podendo assim compartilhar conhecimentos.
13
Comunidade de aprendizado: é composta por alunos que podem pertencer a uma
mesma classe, instituição de ensino ou geograficamente dispersa, que tem como
objetivo permitir a colaboração entre alunos e ajudar no processo de aprendizagem.
São comunidades que podem ser guiadas por um instrutor com objetivos disciplinares
do currículo ou programa de estudo. São concebidas de acordo com o grau de
desenvolvimento dos estudantes, porém, os membros não estão envolvidos de forma
permanente nas atividades, e, portanto, essas comunidades tem um período de duração
determinado, que vai de acordo com o ritmo das etapas de um programa educacional.
Comunidade profissional: são desenvolvidas entre pessoas que no mundo real, já são
membros de comunidade profissional, ou seja, realizam as mesmas atividades
profissionais ou compartilham as mesmas condições de trabalho. Uma comunidade
profissional é o resultado do envolvimento das pessoas em práticas profissionais, que
tem como objetivo aperfeiçoar suas práticas profissionais diárias e reforçar as suas
identidades profissionais. Essas comunidades não tem um tempo de vida estabelecido,
evoluem de forma lenta, tem uma alta capacidade de integrar novos membros e
permitem a construção de uma identidade profissional coletiva.
2.3.2 RSO utilizadas prioritariamente em Computadores
De acordo com Corrêa (2003), a popularização e desenvolvimento das tecnologias da
informação (comunicação mediada por computador) e o surgimento da internet (ambiente
virtual) no final do século XX, têm trazido profundas transformações para a sociedade
moderna. Pode-se então compreender, que para a sociedade moderna é indispensável o uso de
tecnologias, tais como os computadores pessoais (inclusive os portáteis – notebooks),
smartphones, tablets, que permitem acesso à internet e, que por sua vez, possibilitam o acesso
às RSO. Nesse cenário, encontram-se as RS que foram desenvolvidas prioritariamente para
computadores pessoais.
2.3.3 Exemplos de RSO
14
2.3.3.1 Twitter
O Twitter foi criado em 2006, mas a sua utilização foi aberta em 19 de abril de 2007.
Atualmente tem mais de 230 milhões de usuários ativos, 500 milhões de tweets são postados
por dia e tem 2.000 funcionários2.
O Twitter é uma RSO gratuita, na qual usuários postam pequenos textos, que podem
ter no máximo 140 caracteres (os “tweets”), que podem ser escritos ou apenas enviados
(“twitados”), para todas as pessoas que seguem o usuário. Atualmente, uma das principais
funcionalidades do Twitter é o Trending Topics, que lista os assuntos mais comentados do
mundo em um determinado momento, ela permite filtrar assuntos mais comentados por áreas,
como países e cidades, e listar as palavras marcadas com o símbolo # ou hashtag e nomes
próprios (SOUZA, 2011).
Um fator muito interessante, que pode ser observado nas redes de relacionamento do
Twitter, é que mesmo quando um usuário escolhe seguir outro ou uma empresa, não é
obrigatório que esse usuário ou empresa siga ele, o que o diferencia de outras RSO.
Figura 2.2: Página inicial do Twitter.
Fonte: http://www.twitter.com/ (2014).
2 Disponível em: https://about.twitter.com/company, acessado em: janeiro-2014.
15
A Figura 2.2 exibe a página inicial de um usuário do Twitter. A janela ou Timeline
contém os tweets. Os tweets podem ser retuitados, ou seja, semelhantes a mensagens de
emails, podem ser postados novamente. Os usuários que seguem outros são chamados de
following, e a pessoa que está sendo seguida é chamada de follower, assim quando uma
pessoa cria uma conta no Twitter, ela pode seguir outras ou ser seguida, formando com esse
mecanismo sua rede de relacionamentos.
2.3.3.2 Facebook
O Facebook é uma rede social gratuita, que foi lançada no mercado em 4 de fevereiro
de 2004, tendo como principal fundador o americano Mark Zuckeberg. Inicialmente foi
desenvolvido para os estudantes da Universidade de Harvard, porém como sua utilização foi
considerada prática, com o tempo foi difundido para outras instituições de ensino, até atingir a
população mundial e, atualmente, possuir mais de um bilhão de usuários, podendo ser
considerada, se fosse um país, o terceiro maior em população.
Toda receita gerada pelo Facebook é proveniente de publicidades, como banners,
destaques patrocinados nos feeds de noticia e grupos patrocinados. Usuários criam perfis, que
contém fotos e interesses pessoais, pode postar mensagens, definindo se a visualização será
publica ou privada, além de poder conversar com um ou vários usuários através do serviço
Messenger, dependendo da escolha que mais lhe for conveniente3.
Pode se dizer que atualmente o Facebook é a maior e mais utilizada RSO da
atualidade, todavia como toda RSV, não se sabe por quanto tempo ainda predominará no
cenário mundial.
3 Disponivel em http://newsroom.fb.com/Key-Facts, acessado em: janeiro-2014
16
Figura 2.3: Página inicial do Facebook.
Fonte: https://www.facebook.com (2014).
A Figura 2.3 apresenta a visualização da página inicial de um usuário do Facebook.
Na parte central (conhecida como timeline) da Figura 2.3 têm-se as mensagens (atualização de
status) que são postadas pelos amigos do titular da conta. Estas mensagens sob os mais
variados formatos (texto, imagem, vídeo etc.) podem ser “curtidas” ou compartilhadas por ele.
A prática de curtir ou compartilhar mensagens é baseada no fato de um determinado usuário
achar a mensagem interessante ou relevante; desta forma ele repassa esta mensagem para a
sua própria rede de contatos. Na tela inicial também se tem em seu lado direito a lista de
amigos que estão online e disponíveis para bate-papo (conversas síncronas). Logo acima desta
seção tem-se a lista de solicitações ou convites feitos pela sua lista de contato. Estes convites
são para participar de jogos, de grupos específicos ou de eventos. No lado direito também é
possível ver o que seus contatos estão fazendo na rede (é a timeline dos seus contatos).
2.3.3.3 Linkedin
De acordo com o próprio site, o Linkedin Foi criado por Reid Hoffman em 2002,
na sua sala de estar e teve lançamento oficial em 5 de maio de 2003. O Linkedin tem a
maior rede profissional, com 250 milhões de usuários e está presente em mais de 200
países, além disso, é uma empresa de social aberto, aonde suas receitas vem de
assinaturas de usuários, vendas de publicidade e soluções de talento. O Linkedin tem
como objetivo conectar profissionais de todo mundo, permitindo aos usuários
disponibilizarem informações sobre suas experiências profissionais, formação
17
acadêmica e expandir a lista de contatos profissionais. No Linkedin o usuário além de
poder realizar funções básicas como acessar perfil e edita-lo, visualizar contatos e
escolher grupos de acordo com seus interesses, pode localizar emprego4.
A Figura 2.4 retrata a página inicial de um usuário da rede profissional Linkedin.
A janela na parte central é composta por mensagens de sugestões de cursos, no qual o
usuário escolheu em suas áreas de interesses, marcadas por ele, além de exibir
informações para que ele possa se atualizar, do que possivelmente perdeu no tempo em
que não estava conectado na rede. No lado direito há sugestões de pessoas e empresas
para que o usuário possa se conectar e oportunidades profissionais.
Figura 2.4: Página inicial do Linkedin.
Fonte: http://www.linkedin.com (2014).
2.3.3.4 YouTube
O YouTube foi fundado em 2007 pelos desenvolvedores Chad Hurley, Steve
Chen e Jawed Karim, que eram empregados da PayPal. Atualmente possui mais de um
milhão de criadores de 30 países, que geram lucros com os vídeos do Youtube e a cada
dia milhões de pessoas se inscrevem para se tornarem usuários dele. O YouTube possui
cerca de 20 funcionários e toda a receita do site é gerada pelos vídeos postados em seus
canais e anúncios, além de possuir mais de um bilhão de pessoas que visitam o site a
4 Disponivel em http://www.linkedin.com/about-us, acessado em: janeiro-2014.
18
cada mês, sendo que a maior parte dos acessos vem de fora dos Estados Unidos, estando
localizado em cerca de 60 países5.
Figura 2.5: Página inicial do YoTube.
Fonte: http://www.youtube.com/?hl=pt&gl=BR (2014).
A Figura 2.5 permite visualizar a página inicial do YoTube, com opções de
vídeos mais acessados do momento, além da opção no canto superior direito para fazer
login ou criar uma conta, para possibilitar que usuários postem seus vídeos caseiros e
assista os seus canais favoritos. Para usuários que gostam de assistir, baixar ou postar
vídeos, o YouTube é uma opção de entretenimento, pois disponibiliza uma diversidade
de opções para agradar os diferentes tipos de vontades dos usuários.
2.3.3.5 Pinterest
O Pinterest é uma RSO de compartilhamento de fotos gratuito, que foi lançado
em março de 2010 por Ben Siberman e é afiliado com Twitter e Facebook. Atualmente
possui mais de 12 milhões de usuários, onde a maioria são mulheres, que gostam de
postar suas imagens temáticas de hobbies, roupas, acessórios. O Pinterest tem versões
em mais de 6 idiomas, como português e inglês, por exemplo, e tem um layout fácil. O
Pinterest tem como objetivo o compartilhamento de fotos pelos usuários, onde se pode
carregar, classificar e gerenciar imagens conhecidas como "pins" e coloca-las em
coleções denominadas "pinboards", que são classificados em categorias, que podem ser
5 Disponível em: http://www.youtube.com/yt/press/pt-BR/statistics.html, acessado em: janeiro-2014.
19
natureza, moda, tecnologia e também é possível, usar um botão semelhante ao curtir do
Facebook, chamado Pin It para demonstrar o conteúdo preferido do usuário6.
Figura 2.6: Página inicial do Pinterest.
Fonte: http://www.pinterest.com/ (2014).
A Figura 2.6 mostra a página inicial de um usuário do Pinterest, composta por
uma timeline composta por coleções com suas preferências, chamadas de pinboards,
que tem como foco principal moda, porém pode ser percebido também pins de filmes,
flores e paisagens.
2.4 REDES SOCIAIS PARA DISPOSITIVOS MÓVEIS
Como já foi descrito nas seções anteriores, as RS virtuais surgiram no final do
século XX, devido à evolução da internet e de tecnologias como computadores e
celulares, e de acordo com Teles et al. (2011), com a consequente popularização das RS
e do uso cada vez mais crescente dos celulares, mais precisamente na década de 90,
surgem as Redes Sociais Móveis (RSM), uma subclasse das RSV, na qual os usuários
utilizam dispositivos móveis com tecnologias de comunicação sem fio para acessar RS.
6 Disponível em: https://www.pinterest.com/, acessado em: janeiro-2014.
20
Assim usuários podem acessar publicar e compartilhar conteúdo, através dos
dispositivos móveis para maior disseminação de suas relações sociais
Em geral, pode se dizer que devido ao uso de dispositivos moveis, usuários
passaram a ter uma maior autonomia, pois podem manter contato com outras pessoas e
realizar suas postagens independentes do local onde se encontram.
De acordo Teles et al. (2011), uma RSM pode também ser chamada de RS
Pervasiva e compreende um subconjunto de RS Online. RSM é composta por três áreas
do conhecimento: Redes Sociais, Computação Móvel e Ciência de Contexto.
Assim Teles et al. (2011, p. 53) ressalta;
Redes Sociais provem funcionalidades para criar perfis que representam
entidades, as quais se relacionam socialmente trocando informações. Como
visto, estas entidades podem ser indivíduos, organizações ou mesmo
sistemas. Computação Móvel possibilita usuários estarem sempre online,
devido ao suporte de mobilidade provido pelos dispositivos portáteis e a
ubiquidade da conectividade sem fio. Ciência de Contexto adapta as
funcionalidades da aplicação e oferece recursos de acordo com informações
de contexto.
Para melhor compreensão do que realmente é uma RSM, a Figura 2.7 a seguir
mostra como se dá a integração das três áreas de conhecimento: Redes Sociais,
Computação Móvel e Ciência do Contexto.
Figura 2.7: Definição das Redes Sociais Móveis.
Fonte: (TELES et al., 2011, p. 57).
21
Enfim, foram abordados de forma resumida alguns conceitos sobre RSM, para maiores
informações sobre o assunto, citam-se os autores Amorim e Castro (2010) e Teles et al.
(2013) que se constituem em um referencial teórico sobre o assunto. Nas subseções que se
seguem, serão abordadas algumas RSM, desenvolvidas especificamente para dispositivos
móveis.
2.4.1 Foursquare
O Foursquare é uma RSM gratuita que possibilita salvar e compartilhar fotos de
lugares onde uma pessoa se encontra, ele também fornece serviços de recomendações e
ofertas personalizadas, onde um usuário ou os amigos dele que possuem gostos parecidos têm
frequentado. Foi fundado em 2009 por Dennis Crowley e Naveen Selvadurai, sendo lançado
no mercado em março de 2009 e atualmente tem mais de 45 milhões de usuários, com mais de
5 bilhões de check-ins já feitos e mais de milhões feitos a cada dia, além de ter 170
funcionários em atividade7.
Segundo Sousa (2012), o Foursquare fornece ao usuário onde ele se encontra num
determinado momento com exatidão, permitindo até uma visualização dos lugares num mapa,
além de adicionar indicações sobre a companhia do momento, o que estão fazendo e sugerir o
que se pode fazer.
Seguindo as considerações de Sousa (2012), o aplicativo no celular é atrelado a um
perfil público, no qual o usuário cria uma conta de forma gratuita e permite armazenar
diversos dados sobre esse usuário e os lugares por onde ele passou. As ações realizadas são
denominadas de check-ins, pois são elas que informam onde o usuário se encontra e podem
ser realizadas através de uma interface web, porém são direcionadas para smartphones
baseados em Android, iPhone, BlackBerry e Windows Phone.
7 Disponivel em https://foursquare.com, acessado em: janeiro-2014.
22
Figura 2.8: Página de login do Foursquare.
Fonte: https://pt.foursquare.com/ (2014).
A Figura 2.7 retrata a página de login, que permite a entrada do usuário no Foursquare
e possibilita a utilização dos serviços de armazenamento de lugares por onde o usuário já
passou e onde ele se encontra num determinado momento.
2.4.2 Waze
O Waze é uma RSM gratuita que foi criada em 2008, desenvolvida para localização de
lugares, baseada em mapeamento de cidades e foi adquirido pelo Google em 2013, que utiliza
o sistema GPS para melhorar o Google Maps. O Waze foi desenvolvido para aparelhos
celulares que tenham conexão com internet e sistemas operacionais Android, iPhone ou iPad,
Windows Phone 8 e aparelhos Symbian da Nokia. O sistema utiliza informações de trânsito
dos usuários para determinar velocidades médias e calcular a trajetória mais rápida,
proporcionado economia de tempo e dinheiro, além de proporcionar ao usuário a
possibilidade de enviar mensagens de alerta e recados8.
8 Disponível em: https://www.waze.com/pt-BR, acessado em: janeiro-2014.
23
Figura 2.9: Mapeamento do Waze.
Fonte: http://www.gazetadopovo.com.br/blogs (2014).
A Figura 2.9 descreve o mapeamento de trânsito da Avenida Jardim Silva, na cidade
de Curitiba - Paraná, que exibe como está o trafego de veículos e condições climáticas. O
aplicativo da RSM pode ser instalado num aparelho celular que tenha acesso a internet e
possua compatibilidade com determinados sistemas operacionais já descritos no parágrafo
anterior.
24
3 ANÁLISE DE SENTIMENTOS
Este capítulo tem como objetivo posicionar o leitor no campo de Analise de
Sentimentos - AS. O capítulo descreve sobre os principais trabalhos desenvolvidos, além de
mostrar os principais elementos que compõem AS e exemplificar alguns deles.
Não existe um consenso formal na denominação dos estudos na áreea. É possivel
encontrar estudos no domínio das AS com os títulos: Mineração de Sentimentos, Analise de
Subjetividade, Detecção de Emoção, Detecção de Falsas Opiniões, porém o termo mais
comum ainda é Análise de Sentimentos (LIU, 2010; BECKER e TUMITAN, 2013). Todavia,
para Koblitz (2010) AS e Mineração de Opinião não pertencem a mesma área, para o autor
AS é um subproblema da Mineração de Opinião.
Liu (2010) define AS como um campo de estudo onde analisa opiniões, sentimentos,
avaliações, atitudes e emoções para entidades, por exemplo, produtos, serviços, organizações,
indivíduos, eventos, tópicos e seus atributos.
Para Koblitz (2010) a AS tem como objetivo classificar textos atribuindo a eles uma
orientação (polaridade), que pode ser positiva, negativa ou neutra. Assim, AS atribui
relevância aos textos que são publicados principalmente em RSO, ao avaliar os sentimentos
como tristeza, raiva, felicidade, que são expressos nestes texto.
De acordo com Oliveira (2013), algumas aplicações disponíveis incluem:
Análise de tempo real:
Aplicação Twitter Sentiment Analysis fica buscando novos comentários em
tempo real no Twitter.
Observatórios da Web:
Criada por pesquisadores da UFMG (Universidade Federal de Minas Gerais) é
uma ferramenta gratuita que monitora importante fatos, eventos e entidades na
rede de computador em tempo real.
Reviews em Websites:
Motor de busca para comentários da Web de opiniões negativas e positivas
sobre produtos.
25
Aplicação para governança de empresas:
Tem como foco a tomada de decisão, identificando opiniões sobre produtos e
serviço como positivas ou negativas.
Ordenação de produtos ou resultados de pesquisas:
Realiza-se uma listagem de produtos de acordo com os comentários, ajudando
usuários a comprarem de acordo com a qualidade do produto e não somente
pelo preço.
O foco atual da AS é compreender como um usuário de RSO interpreta emoções
expressas nos comentários postados. Para alguns autores (LIU, 2010; KOBLITZ, 2010; PAK
e PAROUBEK, 2010) este é um processo complexo, pois nem sempre as opiniões são
expressas de forma clara, principalmente quando se utiliza ironias para expor uma opinião.
Além das ironias, existem também outros problemas que são inerentes a essa área,
tornando o processo ainda mais complexo do que se apresenta. Conforme Souza (2011),
alguns dos problemas pertinentes a área são:
Apontar se um texto é uma opinião ou um fato9.
Identificar se existem opiniões dentro de um fato.
Detectar ironias10 para evitar resultados diferentes aos que os autores desejavam
realmente expressar.
Identificar dentro de um mesmo texto, a que objetos11 cada opinião se refere.
Quando pronomes12 são utilizados para referenciar os objetos do texto podem
dificultar a identificação deles.
Quando o texto é escrito com ortografia13 ou sintaxe errada dificulta muito a
interpretação.
9 Um fato é uma expressão que não apresenta polaridade, expressa algum conceito, expressões objetivas. Por
exemplo, a água ferve a 100 graus centígrados. 10 Ironias são expressões de ideia ou sentimento com palavras que aparentemente, exprimem o contrário. Por
exemplo, "O celular é muito barato, custou só R$ 2.500,00.". 11 Objeto é a mesma coisa que alvo de opinião, que são entidades, com suas características. Por exemplo, “Eu
apoio cortes de impostos.". 12 Um pronome deixa o alvo da opinião oculto (implícito), de ser identificado. Por exemplo, "Ana viajou por
muito tempo, a mala dela estava muito pesada.".
26
Quando pessoas ganham dinheiro e fazem críticas e marketing contrário ao que
verdadeiramente pensam do produto. Dessa forma, é muito complicado identificar que
a opinião não exibe a realidade.
3.1 PROCESSO DE ANÁLISE DE SENTIMENTOS
De acordo com Pang e Lee (2008), o grande aumento do volume de dados disponíveis
cresceu significativamente na última década, principalmente pelo uso de RS, surgindo assim a
grande necessidade de se desenvolver técnicas que permitam a coleta, mineração e AS.
Como já foi descrito anteriormente, o processo de AS é bem complexo, não somente
pelas ironias utilizadas para se expor uma opinião, mas também pela quantidade de etapas
utilizadas para se analisar as informações. Para Koblitz (2010), o processo de AS envolve a
identificação de:
Expressões e palavras que exprimem sentimentos14.
Polaridade15 (positivo/negativo/neutro) e intensidade das expressões.
O relacionamento das expressões com o assunto que está sendo analisado.
Em geral, os autores (PANG e LEE, 2008; LIU, 2010; PAK e PAROUBEK, 2010;
BENEVENUTO, 2010), utilizam em comum, como uma das etapas do processo de AS, a
estratégia de determinação de polaridade (positivo, negativo ou neutro), no qual Becker e
Tumitan (2013) descreve como classificação de polaridade ou sentimento, que classifica um
texto em positivo ou negativo, pois o neutro geralmente é descartado ainda na etapa de
identificação, porque a qualidade dos resultados se torna maior. Para uma análise mais
completa, as classificações podem ser desdobradas em diferentes graus de intensidade, como
muitoPositivo, moderamentePositivo, etc. Dessa forma, auxilia mais intensamente na
detecção de relevância de uma informação.
13 Exemplo "Eu não gosto de filmes, pois os de comédia são uma porcaria, porém os de ação são ótimos". 14 Sentimentos é intensificação das emoções, como raiva, tristeza, alegria, amor. Por exemplo, "Eu odeio
celulares da Samsung.”. 15 Exemplo: Positivo= “Eu gosto de celulares da Nokia, pois são difíceis de quebrar." Negativo= "Celulares
Blacberry tem péssimos teclados para digitar." Neutro= "A ponte Itacaiúnas quebrou ontem”.
27
Uma informação textual pode ser apresentada de duas formas principais: Fatos e
Opiniões (SOUSA, 2011):
Fatos:
São expressões objetivas, portanto, são informações claras e concretas sobre
entidades, eventos, pessoas e suas propriedades do mundo real.
Opiniões:
São expressões subjetivas, ou seja, são informações que algumas vezes podem
ser expressas de forma não muito clara, pois descrevem sentimentos de
pessoas, avaliações ou sentimentos em relação a entidades, eventos e suas
propriedades.
Segundo Liu (2010), uma opinião pode ser expressa de duas formas distintas:
Opiniões Regulares e Opiniões Comparativas:
Opinião Regular: ou chamada simplesmente de opinião, é uma expressão de
sentimentos/opiniões sobre uma entidade alvo, que pode ser expressa tanto de forma direta
como indireta, como por exemplo:
Opinião direta: “O touch screen é realmente legal”.
Opinião indireta: “Após tomar o remédio, minha dor foi embora”.
Opinião comparativa: se dá quando se realiza a comparação de mais de uma entidade,
sendo normalmente expressa usando um advérbio de comparação, como por exemplo:
“iPhone é melhor do que Blackberry.”
Seguindo as considerações de Liu (2010), além dessas formas de classificação de
Opinião, pode-se classificar as Opiniões de acordo com o que elas expressam em textos,
sendo, portanto chamadas também de Explícitas e Implícitas.
Opinião Explicita: é uma declaração subjetiva que é dada a uma opinião regular ou
comparativa.
"Coca Cola tem gosto bom." e “Coca Cola tem gosto melhor do que Pepsi”.
Opinião Implícita: é uma declaração objetiva que implica numa opinião regular ou
comparativa, sendo que cada declaração objetiva, comumente apresenta uma fato
desejável ou indesejável, como por exemplo:
28
"Este celular não cabe no meu bolso." e "A vida da bateria dos celulares da Nokia
é maior do que a dos celulares da Samsung”.
Além do que já foi descrito acima, é interessante também compreender a diferença
entre subjetividade, emoção e sentimento, pois como Liu (2010) descreve, apesar de algumas
vezes serem confundidas como sinônimos é necessário entender que emoções são sentimentos
subjetivos de pessoas e pensamentos, e subjetividade são sentenças que podem expressar
algum sentimento, mas também expressa intenções ou crenças, e sentimento é a intensificação
das emoções, como por exemplo:
Sentença subjetiva: "Eu acho que ele foi para casa”.
Sentença emocional: “Eu odeio este carro".
Anteriormente foi discutido como verificar as opiniões que são expressas em textos. É
interessante também compreender qual processo pode ser utilizado para detectar
automaticamente as emoções. Segundo Wilson (2007), existe três dimensões para identificar
emoções, são elas: Avaliação, Potência e Intensidade.
1) Dimensão Avaliação: é normamente expressa por adjetivos, sendo a mais direta,
podendo ser positiva ou negativa.
Ex: “O filme foi bom".
2) Dimensão potência: demonstra se o escritor se identifica ou não com o significado da
sentença, sendo subdividida em três subdivisões.
Proximidade (perto/longe): Expressa a distância que o objeto se encontra. Ex:
"Eu gostaria de encontrar o Paulo”.
Especificidade (claro/vago): Expressa se o objeto é referenciado de forma
clara e direta. Ex: "Eu esqueci o livro".
Certeza (confiança/dúvida): Expressa se o escritor está totalmente convencido
sobre o que ele está escrevendo: Ex "Supostamente é um grande filme".
3) Dimensão Intensidade: é utilizada para reforçar um sentimento.
Ex: "Este é simplesmente o melhor filme".
29
Conforme Ferreira (2010), os elementos que compõem uma opinião são objeto, titular,
opinião e tempo:
Objeto: refere-se ao alvo da opinião, que contém diversas características, e esse
alvo pode ser uma entidade ou tópico.
Titular: é a pessoa, organização ou grupo que expressa sua opinião no texto,
eles podem ser chamados também de fontes de dados e geralmente são os
próprios autores dos textos postados em RS.
Opinião: é o conteúdo do texto que foi propagado um sentimento positivo,
negativo ou neutro do titular, podendo ser chamado também de orientação de
opinião.
Tempo: em que a opinião foi propagada.
A Tabela 2 a seguir mostra um quadro resumo dos conceitos que estão relacionados à
AS e suas respectivas definições e referências.
Tabela 2: Quadro resumo dos conceitos em AS
Termo Definição Fonte
Fatos Informações objetivas, portanto concretas
sobre entidades.
SOUSA,
2011
Opinião
Informações subjetivas, que expressam
sentimentos ou avaliações de pessoas sobre
alguma coisa.
SOUSA,
2011
Opinião
Explicita
Opinião subjetiva que pode ser dada a
sentenças regulares ou comparativas,
expressas de maneira clara no texto, portanto
de fácil identificação e compreensão.
LIU,
2010
Opinião
Implícita
É uma opinião expressa de maneira objetiva
que implica numa sentença regular ou
comparativa, apresentado comumente um
fato desejável ou indesejável, e, portanto,
muitas vezes de difícil identificação ou
compreensão numa sentença.
LIU,
2010
Sentença
Subjetiva
São sentenças que expressam sentimentos,
opiniões ou crenças de pessoas.
LIU,
2010
Sentença
Emocional
São sentenças que expressam emoções ou
pensamentos de pessoas.
LIU,
2010
Fonte: Elaboração própria (2014).
30
Para Liu (2010) os componentes básicos de uma opinião podem ser demonstrados pela
seguinte expressão: Gj, Hi, Tl, SOij.
Gj é um alvo
Hi é um opinante
Tl é o tempo em que a opinião foi expressa
SOij é o valor da opinião do opinante Hi sobre o alvo Gj no tempo Hi. SOij é positivo,
negativo ou neutro, ou recebe uma pontuação de acordo com uma classificação.
No estudo da AS, é necessário compreender as fases envolvidas em todo o processo,
de acordo com Matioli (2010), estas fases são: Coleta de dados, Processamento, Analise e
Apresentação de Resultado como mostra a Figura 3.1 a seguir.
Figura 3.1: Etapas comuns de analisadores de sentimentos.
Fonte: MATIOLI (2010).
Coleta de dados: defini-se qual a fonte de dados será utilizada, a qual pode ser textos
de RS, da Web, comentários de blogs.
Preparação dos dados: conhecida também como pré-processamento, é a etapa onde
os dados passarão por um tratamento, para se corrigir possíveis problemas com erros
ortográficos, abreviaturas, gírias e ditos populares, além da tradução de comentários.
Classificação dos sentimentos: é a etapa principal de um sistema de AS, pois é nessa
fase que são aplicadas técnicas de análise e os textos são classificados como positivos
negativos ou neutros.
Sumarização de resultados: nessa etapa os resultados tem que ser exibidos de forma
clara para que o usuário possa entender. Geralmente os resultados são exibidos em
formas de gráfico ou textual, porém apresentá-los em forma textual pode deixar o
31
usuário confuso devido a grande quantidade de textos, por isso é melhor utilizar
gráficos, pois são de caráter estatístico, oferecendo uma melhor compreensão.
Conforme Liu (2010) existem três diferentes formas para se realizar uma investigação
em AS, podendo ser em nível de documento, no qual se extraí a polaridade de uma opinião
em textos; nível de sentença, na qual se extrai a polaridade de opiniões em frases; nível de
aspectos e entidades, no qual se extraí através das características expostas de uma entidade
(empresas ou pessoas) as suas preferências.
Quando se realiza uma investigação em nível de documento, utiliza-se com muita
frequência técnicas de aprendizado não supervisionado da inteligência artificial. Turney
(2002) utiliza a aprendizagem não supervisionada, pois possibilita o uso de modelos fixos
para classificar os sentimentos, utilizando advérbios e adjetivos como fortes indicadores de
sentimentos.
De acordo com Turney (2002), a classificação em nível de documento pode ser por
classificação de sentimentos ou textos. Na classificação de sentimentos, o documento de
opinião é classificado completamente (por exemplo, um comentário) e é baseado no
sentimento demonstrado pelo opinante, as classes utilizadas no documento são positivas ou
negativas, e o neutro (ou nenhuma opinião) é mais difícil de acontecer, e por isso não é muito
utilizado. Na classificação por textos, somente uma parte por vez é retirada do documento
para ser analisada, denominando-a assim de classificação de textos, onde há duas abordagens,
como a classificação de textos padrão, e a classificação de textos por tópicos.
De acordo com Liu (2010), tanto a classificação de textos padrão ou por tópico, as
palavras são relevantes como computador, esporte e ciência, diferente da classificação por
sentimentos, onde as palavras mais relevantes são, grande, excelente, horrível, ruim, pior, etc.
Algo muito interessante quando se realiza um estudo em nível de documento, é que se
trabalha com o levantamento de hipóteses e metas para descobrir a relevância da informação,
e geralmente, utilizam-se comentários realizados para validar ou não a hipótese, como por
exemplo, positivo 4 ou 5 estrelas; negativo 1 ou 2 estrela, porém algumas das dificuldades
encontradas para realizar esse processo, é o fato de blogs e fóruns mencionar e comparar
múltiplas entidades, além disso, muitos posts não expressam sentimentos.
Apesar de frequentemente utilizar técnicas de aprendizado não supervisionado, por
serem mais práticas e mais precisas, utiliza-se também técnicas de aprendizado
supervisionado. Conforme Pang et al. (2002), as técnicas de aprendizado supervisionado são
32
aplicadas diretamente para classificar os comentários realizados em textos, como positivo ou
negativo, e o neutro é ignorado. Existem muitas técnicas de aprendizado supervisionado,
porém a mais utilizada é a Support Vector Machine (SVM), pois possibilita uma maior
precisão de classificação baseada no equilíbrio dos dados de treinamento.
Seguindo as considerações de Pang et al. (2002), quando se realiza um pré-
processamento no aprendizado supervisionado, algumas das características que podem ser
percebidas são: tags de negação, unigram (palavras simples), bigram (palavras compostas),
POS tags, posição. Quando se obtém os dados do teste, pode ser percebido em comentários
com estrelas que de 4-5 estrelas positivo e 1-2 estrelas negativo. Enfim, este tipo de
abordagem inclui adaptação de domínio e multilíngue, possuindo como chave a engenharia de
recursos, sendo composta por diversas características como:
A frequência de uso dos termos e diferentes esquemas de avaliação
Part of speech (POS) tag
Palavras e frases de opinião
Negações
Dependência sintática
Anteriormente foi descrito sobre a classificação no nível de documento, agora será
descrito sobre a classificação em nível de sentença, que de acordo com Liu (2010), pode
também ser chamada de classificação de subjetividade, e é utilizada, pois a classificação no
nível de documento é considerada muito "bruta" para certos tipos de aplicações, ou seja, tem
um processamento mais complexo e demorado, diferente da classificação no nível de
sentença, que nada mais é do que a divisão de um documento em frases, e cada frase será
estudada de maneira particular, denominada de sentença. Uma classificação em nível de
sentença, também pode ser chamada de classificação de subjetividade, porque foca na
identificação de sentenças subjetivas. Geralmente, utiliza-se com maior frequência, técnicas
de aprendizagem supervisionada, onde a mais aplicada é a de Naive Bayesiano.
Seguindo as considerações de Liu (2010), a AS em nível de sentença é constituída de
dois passos: Classificação de Subjetividade, para identificar sentenças subjetivas;
Classificação de Sentimentos, que possui duas classes, positivo e negativo. Porém, é
importante frisar que, algumas sentenças objetivas podem conter sentimentos, como por
exemplo, “Então, ele parou de funcionar ontem” e muitas sentença subjetivas podem não
expressar sentimentos ou opiniões, como por exemplo, “Acredito que ele voltou para casa
33
ontem.” Quando se realiza o processo de classificação, tem-se como passo intermediário a
identificação das sentenças, que auxilia em filtrar sentenças sem opiniões e determinar, de
certa forma se os sentimentos sobre entidades e seus aspectos são positivas ou negativas,
porém é importante ressaltar que nem sempre identificar a sentença como positiva ou negativa
é o suficiente.
De acordo com Liu (2010), o primeiro passo em um processo de classificação de uma
sentença é a Hipótese, e depois a sentença é analisada, verificando a polaridade expressa, ou
seja, uma opinião positiva ou negativa, caso a hipótese não seja verdadeira, outra será
levantada, até que se encontre uma verdadeira. Por exemplo:
Hipótese: Cada sentença é escrita por uma pessoa e expressa uma opinião ou
sentimento positivo ou negativo.
Sentença simples: "Eu gosto deste carro." Logo, a hipótese acima é verdadeira
para essa sentença.
Sentença composta: “Eu gosto da qualidade da imagem, mas a vida da bateria é
uma porcaria." Logo, a hipótese, será falsa para essa sentença.
Como já foi descrito as classificações em nível de documento e sentenças, agora será
discorrido sobre a classificação no nível de aspectos, que conforme Liu (2010a) surgiu,
porque nos níveis de classificações anteriores, não é possível identificar quem são os alvos
das opiniões (entidades e seus aspectos), limitando assim, a utilização da opinião e
impossibilitando de descobrir o que pessoas gostam ou não gostam. Neste nível de
classificação, trabalha-se muito com comentários online, pois torna o processo mais fácil,
porque a entidade é geralmente conhecida, e os opinantes expressam somente opiniões
positivas ou negativas. Pode-se também utilizar blogs e fóruns de discussão, porém torna o
processo mais difícil, pois há muitas informações irrelevantes, muitas comparações e
entidades e aspectos são desconhecidos.
Conforme Liu (2010), para encontrar uma entidade, utiliza-se a seguinte formulação:
Dado um conjunto Q de entidades da classe C, e um conjunto D de entidades candidatas,
queremos determinar quais das entidades em D pertencem a C. Nesse caso, para resolver o
problema de classificação, utiliza-se uma decisão binária para cada entidade D (pertencente a
C ou não), onde pode haver muitas comparações, mas que podem ser resolvidas como um
problema de ranking. Enfim, existem muitos métodos tanto de aprendizagem supervisionada e
34
não supervisionada para realizar a classificação em nível de aspectos, como: Similaridade de
distribuição, Aprendizado PU, Bayesians Sets, Abordagem por frequência e sem frequência,
etc., porém são demasiadamente longos e complexos, impossibilitando que sejam explicados
nesse momento, mas para concluir, os três tipos de classificações descritas anteriormente, são
de grande utilização e importância, e o que determina qual tipo será utilizado, é a necessidade
de qual tipo de dado quer se obter e a rapidez desejada nessa obtenção.
Além, dos três níveis de classificação para investigação em AS, existem também a
classificação de Spams, que de acordo com Jindal e Liu (2008), se trata que são na realidade
falsas opiniões. O uso de Spam se tornou frequente nos últimos anos, pois se tornou um bom
negócio para algumas entidades, que vai desde a publicação de críticas positivas para
promovê-las, aumentado dessa forma, prestígio e lucratividade, até comentários maliciosos
para prejudicar a reputação de outras entidades, assim usuários passaram a ser mais
cuidadosos com falsas avaliações.
Segundo Jindal e Liu (2008), o grande problema quando se lida com spams em
opiniões, é que são de difícil detecção, geralmente quando alguém vê não consegue detecta-
los, pois só podem ser identificados pelos seus autores, ainda mais se tiverem sido escritos de
forma cuidadosa, é quase impossível identifica-los pelo seu conteúdo. Um spam pode ser
categorizado em três tipos:
Tipo 1: comentários falsos que podem promover ou prejudicar reputações. Ex: “Toda
Maria não presta".
Tipo 2: comentários falsos somente sobre marcas. Ex: "Eu não confio na HP e nunca
compro nada deles”.
Tipo 3: não são comentários, podem ser anúncios ou descrição de produtos. Ex:
"Ficha detalhada do produto: compatíveis, 802.11g IMR,..." “... Comprar este produto
em: compuplus.com".
Seguindo as considerações de Jindal e Liu (2008), um grande problema quando se
trabalha com essas categorias, é que Spams tipo 2 e tipo 3, são mais fáceis para serem
detectados, além de possuírem um desempenho melhor, diferente dos de tipo 1, que tem uma
rotulação mais difícil e o desempenho não é tão bom se comparado ao tipo 2 e 3.
De acordo com Liu (2010) quanto aos tipos de spammers (pessoas que declaram falsas
opiniões) existentes, existem duas categorias, onde na primeira, é um spammer que trabalha
sozinho, escrevendo opiniões falsas usando um único id de usuário - user-id; a segunda
35
categoria é o grupo de spammers (pessoas que declaram falsas opiniões em conjunto), em que
uma única pessoa pertencente ao grupo registra vários ids de usuários (chamados marionetes).
Algo também bem discorrido no estudo de spams é o tipo de dado e pistas das opiniões, que
são duas categorias distintas: Conteúdo do comentário e Informação do produto:
Conteúdo do Comentário: pode ser o conteúdo real de cada comentário com suas
características de estilo e linguísticas, ou metadados sobre cada opinante, como:
classificação por estrelas ou user-id; tempo usado para escrever e postar um
comentário; endereço IP e endereço MAC; geo-localização do revisor; sequencia de
cliques no site do comentário.
Informação do Produto: pode ser as informações que estão sendo comentadas sobre
uma entidade, como: descrição do produto; volume de vendas; classificação das
vendas, ou o tipo de dado, como: dado público, que é de fácil obtenção; dado privado,
são mais úteis, mas de difícil obtenção.
3.1.1 Técnicas de Análise de Sentimentos
De acordo com Koblitz (2010), existem vários tipos de técnicas para classificação de
polaridade em documentos, estas técnicas são baseadas em Aprendizado Supervisionado
(Figura 3.2) e Aprendizado Não-Supervisionado (Figura 3.3).
Na primeira técnica, durante a sessão de treinamento da classificação, uma função de
entrada é aplicada e um resultado de saída é obtido. Esta resposta é comparada, a priori, com a
saída desejada (ou resposta objetivo). Se houver diferença entre a entrada e a saída desejada, a
rede gera um sinal de erro que será utilizado para calcular o ajuste dos pesos, até que não haja
diferença, ou então até que se alcance um limite de erro tolerável. Em outras palavras, o erro é
deste modo minimizado. O processo de minimização do erro requer o uso de uma estrutura
especial que ficou conhecida como Professor ou Mestre, que tem o papel de conferir a
resposta da rede e compara-la com o padrão, gerando uma correção que só será nula se a
resposta estiver correta.
Em contraste com o Aprendizado Supervisionado, o Não-Supervisionado não
requer a figura do mestre, pois não existe o sinal de saída desejado (ou objetivo). Durante a
sessão de treinamento, a rede recebe nas suas entradas diferentes tipos de excitações, ou
padrões de entrada, e arbitrariamente organiza-os em categorias. Quando um estímulo é
aplicado, a Rede produz um sinal de saída que indica a que classe o estímulo pertence. Se a
classe não é localizada nas classes armazenadas, então uma nova é gerada. Embora o
36
aprendizado não supervisionado não necessite da figura do mestre, este aprendizado requer
uma metodologia para que se determine como será feita a formação das classes ou grupos,
extraindo características similares nos tipos dos padrões de entrada.
Figura 3.2: Ilustração da técnica de Aprendizado Supervisionado.
Fonte: Weitzel (1999).
Figura 3.3: Ilustração da técnica de Aprendizado Não-Supervisionado.
Fonte: Weitzel (1999).
Nas classificações fundamentadas em Aprendizado Supervisionado, considera-se
que haja um conjunto de documentos previamente, e que os mesmos já estão etiquetados
como positivos ou negativos, onde poderá se extrair características, que originarão um
conjunto de dados que servirá de entrada para algum classificador,
As classificações baseadas em Aprendizagem Não-Supervisionada realiza-se uma
busca de documentos, depois se realiza uma classificação para determinar se são positivos ou
negativos, para só então realizar o último passo da aprendizagem supervisionada, que é a
extração de características que originarão um conjunto de dados que servirão de entrada para
algum classificador.
Seguindo as considerações de Koblitz (2010), dentre as características que podem ser
extraídas de um documento encontram-se "Termos e suas Frequência", que podem ser de
letras, palavras e tamanhos de palavras; "Partes do Discurso", onde será analisado o valor
Algoritmo de
Aprendizagem
RNA Par de
Treinamento Mestre
Par de
Treinamento RNA Saída
37
morfológico das palavras, dentre elas a detecção de adjetivos, que por si só exibem um modo
positivo ou negativo; e "Sintaxe de Documento", como quantidade de palavras em
documentos, parágrafos e sentenças.
3.1.1.1 Técnicas de aprendizado supervisionado
Como foi descrito anteriormente, existem inúmeras técnicas de aprendizado
supervisionado que podem ser aplicadas em AS, porém uma das abordagens mais utilizadas
desse tipo de técnica é o algoritmo Support Vector Machine (SVM). De acordo com Ferreira
(2010), a SVM foi desenvolvida por Vladimir Vapnik, porém a versão mais atual foi proposta
por Cortes e Vapnik (1995). O algoritmo tenta estimular a função 𝑓: 𝑅𝑛 → {+1} usando um
conjunto de treinamento, onde cada elemento desse conjunto é um vetor N-dimensional
(𝑥1|𝑦1) ∈ 𝑅𝑛 X {+1}, de forma que essa função será capaz de classificar corretamente uma
nova instância (x, y), ou seja, 𝑓(𝑥) = 𝑦.
Dessa forma, Ferreira define o funcionamento do algoritmo como:
O SVM tenta encontrar um hiperplano ou conjunto de hiperplanos numa dimensão
alta (ou infinita) de forma a obter uma boa separação entre as classes das instâncias.
Esta separação pode ser definida como a maior distância entre os elementos mais
próximos de classes distintas, apesar de que, em geral, quanto maior essa distância,
menor o poder de generalização.
3.1.1.2 Técnicas de aprendizado não supervisionado
Como já foi descrito nas subcessões anteriores, Turney (2002) apresenta um algoritmo
de classificação não supervisionada, sendo esse tipo de abordagem uma das mais utilizadas,
pois tem uma precisão de 74%, porém o seu resultado é mais preciso quando é empregado em
nível de documento, para os outros níveis já não se torna tão eficaz, além de que para algumas
palavras é necessária uma classificação manual. Turney dividiu as etapas realizadas pelo
algoritmo em três, onde na primeira, utiliza-se de um Pos-Tagger para definir a classe
gramatical de cada palavra; depois é feito a classificação dos adjetivos e verbos através do
algoritmo PMI-IR; e por ultimo, para se realizar o calculo da polaridade das palavras, é obtido
a partir da diferença entre sua paridade com a palavra positiva e a sua paridade com a palavra
negativa.
38
Assim, pode se descrever os passos realizados da seguinte forma:
Passo 1:
Part-of-speech (POS) tagging.
Extrair 2 palavras consecutivas (two-word phrases) dos comentários, caso os tags
sigam determinados padrões, por ex.: (1) JJ, (2) NN.
JJ = Adjetivo, NN = nome (sing. ou pl.).
A Tabela 3 mostra algumas tags POS padrão utilizadas em comentários de textos, que
auxiliam no processo de identificação da relevância das informações.
Tabela 3: Padrões de tags POS
Primeira Palavra Segunda Palavra Terceira Palavra
JJ NN ou NNS Nenhuma
RB, RBR, ou RBS JJ Nem NN nem NNS
JJ JJ Nem NN nem NNS
NN ou NNS JJ Nem NN nem NNS
RB, RBR ou RBS VB, VBD, VBN ou
VBG Nenhuma
Fonte: Adaptado de LIU (2010).
Legenda:
JJ - adjetivo
NN - nome, singular
NNS - nome, plural
RB - Advérbio
RBR - advérbio, comparação
RBS - advérbio, superlativo
VB - verbo,
VBD - verbo, passado
VBN - verbo, passado particípio forma básica
VBG - verbo, gerúndio ou presente particípio
Passo 2:
Avaliar a orientação do sentimento (so) das frases extraídas do texto.
39
Utilizar PMI (Point wise Mutual Information)
PMI (word1, word2) = log2 P (word1 ^ word2)
P (word1) P (word2)
Orientação semântica (SO):
SO (phrase) = PMI (phrase, “excellent”)
PMI (phrase, “poor”)
Usando operador NEAR do AltaVista para encontrar o número de acertos para
calcular PMI e SO.
Passo 3:
Calcular a SO media de todas as frases
Classificar os comentários como positivo se a SO média for positiva, caso
contrário será negativa.
3.2 FERRAMENTAS DE ANÁLISE DE SENTIMENTOS
Como foi apresentado anteriormente, de forma breve, existem várias técnicas que
podem ser aplicadas para se realizar AS, e com as técnicas, surgem também ferramentas
baseadas nessas técnicas, com interface amigável e tornando o processo mais prático e
compreensível.
A Figura 3.4 a seguir mostra um sistema oline chamado iFell (GONÇALVES et
al.(2013) que faz AS com diferentes metodologias, na realidade um comparativo entre elas.
Os resultados são gerados para cada uma dessas técnicas, a partir de uma palavra ou frase
submetida ao sistema. Nas seções que se seguem serão apresentadas de forma sucinta,
algumas dessas ferramentas.
40
Figura 3.4: Ferramenta iFeel para comparação de ferramentas.
Fonte: http://blackbird.dcc.ufmg.br:1210 (2014).
A Figura 3.4 mostra o resultado da AS da frase “oh! the weather is so nice”, (a
tradução mais próxima da frase é “Oh!, o clima está muito bom”. A frase foi analisada com
polaridade negativa por duas ferramentas: SentiWordNet e SASA. Foi analisada com
polaridade positiva em quatro ferramentas: Happiness Index, SenticNet, SentStrenght e o
método Combinado (faz uma combinação com todos os outros métodos). E a frase foi
analisada como neutra nos métodos Emoticons e Panas-t. A frase analisada apresenta ironia16
e/ou sarcasmo17, o que dificulta a avaliação por sistemas automáticos. Este aspecto mostra
claramente uma dos maiores desafios nesta área, ou seja, análise de frases que apresentam um
duplo sentido.
16 Modo de exprimir-se que consiste em dizer o contrário daquilo que se está pensando ou sentindo. 17 O sarcasmo é uma figura de estilo muito utilizada nas artes orais e escritas, designadamente na literatura e
na oratória. Manifestação intencional, malévola, maliciosa, por meio do riso, de palavras, atitudes ou gestos,
com que se procura levar ao ridículo.
41
3.2.1 Emoticons
De acordo com Gonçalves et al.(2013a) emoticons se tornaram muito populares nesses
últimos anos, e foram adicionados inclusive no dicionário inglês Oxford. No inicio, os
emoticons conseguiam detectar apenas sentimentos baseados em felicidade (positivos) e
tristeza (negativos), e a instância <3 representa um coração traduzido por amor ou afeição.
Com o tempo foram surgindo outras variações de emoticons, alguns deles podem ser visto na
Tabela 4 Para realizar a extração de polaridade de emoticons, Gonçalves et al.(2013a) utilizou
emoticons do Messenger18, Yahoo19 e Smileys20 listados na Tabela 3.3 a seguir e ilustra
variações populares que expressam sentimentos positivos, negativos ou neutros. Geralmente
as mensagens que possuem um maior número de emoticons associados a elas, implica em
maior quantidade de acertos.
De acordo com Gonçalves et al. (2013a) a maior expectativa utilizando esse tipo de
ferramenta, é gerar um número mais baixo de comparações, no número total de mensagens
que podem expressar emoções. Depois emoções podem ser utilizadas em combinação com
outras técnicas, como por exemplo, para construir treinamentos de dados em técnicas de
aprendizado supervisionado de máquina.
Tabela 4: Emoticons e suas variações
Emoticons Polaridade Símbolos
Positiva
:) :] :} :o) :o] :o}
:-] :-) :-} =) =] =}
=^] =^) =^} :B :-D :-B
:^D :^B =B =^B =^D :’)
:’] :’} =’) =’] =’} <3
^.^ ^-^ ^_^ ^^ :* =*
:-* ;) ;] ;} :-p :-P
:-b :^p :^P :^b =P
=p \o\ /o/ :P :p :b =b
=^p =^P =^b \o/
Negativa
D: D= D-: D^: D^= :( :[
:{ :o( :o[ :^( :^[ :^{
=^( =^{ >=( >=[ >={
>=(
18 http://messenger.msn.com/Resource/Emoticons. aspx. 19 http://messenger.yahoo.com/features/emoticons. 20 www.cool-smileys.com/text-emoticons.
42
>:-{ >:-[ >:-( >=^[ >:-(
:-[ :-( =( =[ ={ =^[
>:-=( >=[ >=^( :’( :’[
:’{ =’{ =’( =’[ =\ :\
=/ :/ =$ o.O O_o Oo
:$:-{ >:-{ >=^{ :o{
Neutra
:| =| :-| >.< >< >_< :o
:0 =O :@ =@ :^o :^@ -
.-
-.-’ -_- -_-’ :x =X :#
=# :-x :-@ :-# :^x :^#
Fonte: Adaptado de GONÇALVES et al. (2013).
3.2.2 PANAS-t
Conforme Gonçalves; Benevenuto e Cha (2013), PANAS-t é um método de escala
psicométrica proposta para detectar humor de navegação dos usuários do Twitter, pois é ótimo
para analisar textos de postagens curtas, e se adapta às versões de escalas de emoções
positivas ou negativas, em que se tem um bom conhecimento de métodos da psicologia. A
ferramenta é composta por uma grande quantidade de palavras associadas a 11 especificas
formas de humor, são elas: serenidade, surpresa, hostilidade, cansaço, medo, segurança,
tristeza, culpa, timidez, atenção, juventude. O método é direcionado para acompanhar o
aumento ou diminuição dos sentimentos, no decorrer de um tempo determinado.
Seguindo as considerações de Gonçalves; Benevenuto e Cha (2013), quando se utiliza
o método PANAS-t, os textos são associados a sentimentos, onde primeiramente usa-se uma
linha base ou de valores normais para cada sentimento baseado em todos os dados, logo em
seguida o método computa os pontos para cada sentimento s para dar um período de tempo
com os valores entre [−1.0, 1.0], que indicam mudança. Por exemplo, se tweets que foram
colocadas contém P ("surpresa") com 0.250, o sentimento relatado para "surpresa" aumentou
em 25% se comparado há um dia comum. Igualmente, P(s) = -0,015 é o meio em que um
sentimento s diminui em 1,5% se comparado há um dia comum. O diferencial da ferramenta,
é que possibilita encontrar mais de dois tipos de sentimentos numa postagem simples.
43
3.2.3 SentiWordNet
De acordo com Souza (2013), SentiWordNet é uma ferramenta léxica para mineração
de opinião, que tem como base o banco de dados WordNet, que possui palavras da língua
inglesa, como sinônimos, advérbios, substantivos, verbos, agrupados em conjuntos de
sinônimos denominados synsets, onde cada conjunto pode possuir uma dos três tipos de
classificações de sentimentos: positivo, negativo ou neutro. Cada synset está ligado a três
valores numéricos, que indicam o quanto um termo pode ser positivo, negativo ou objetivo,
são eles: Pos(s), Neg(s) e Obj(s). Um mesmo termo pode assumir vários valores de positivo,
negativo ou neutro. Por exemplo, uma palavra como "estimable" pode assumir o significado
de adjetivo e possuir os valores de objetivo = 1, positivo = 0, negativo = 0, ou assumir o
sentido de merecimento e assim adquirir os valores de objetivo = 0.25, positivo = 0.75 e
negativo = 0. No final, os valores têm que está na faixa de 0.0, 1.0 e a soma dos três valores
tem que ser 1 assim cada synset terá valores diferentes em pelo menos uma categoria.
Ainda de acordo com as considerações de Souza (2013), o método depende da
formação de um conjunto de três classificadores ternários, onde cada um deles decide se um
synset é positivo, negativo ou objetivo. Cada classificador ternário é diferente dos outros no
conjunto e mecanismo de aprendizado de treinamento produzindo diferentes classificações
dos synsets do WordNet. Os scores21 incluídos a opiniões de cada synset são definidos pelo
volume dos classificadores ternários que tenham o rotulado. Se todos os classificadores
ternários derem o mesmo rótulo a um synset, esse terá o maior score, caso contrário, cada
rótulo terá um score proporcional aos classificadores. Na realização do processo são criados
três conjuntos de synsets, Lp (positivo), Ln (negativo) e Lo (objetivo), onde logo no início é
criado manualmente os Lp e Ln com um número reduzido de synsets e com semânticas
basicamente positivas e negativas, por exemplo, “good” e “bad”. Quando se utiliza as
relações do WordNet, como antonímia, similaridade e derivação, os Lp e Ln são ampliados
através de K iterações. Lo é o conjunto de synsets que não estão em Lp ou Ln. Enfim se forem
usados baixos valores de K, os classificadores produzidos terão baixa memória e alta precisão,
porém quando K aumenta os conjuntos e memória também aumentam, mas surgem os ruídos,
diminuindo a precisão.
21 Scores: é a pontuação ou valor de placar atribuído aos synsets, como um mecanismo de classificação.
44
4 TRABALHOS NA LITERATURA
Este capítulo tem como objetivo posicionar o leitor no campo da análise de
Sentimentos - AS. O capítulo discorre sobre os principais Grupos de pesquisas, autores
relevantes, além de listar os principais repositórios de materiais de estudo e aprofundamento
neste tema.
Atualmente encontra-se na literatura uma infinidade de trabalhos que envolvem AS
que estão sendo publicados em journals, magazines e em eventos próprios na área de KDD –
Knowledge Discovery in DataBase (Descoberta de Conhecimento em Base de Dados). AS
tem despertado grande interesse e tem sido amplamente estudada por diversos pesquisadores e
grupos de pesquisas em todos os âmbitos. Os estudos vão desde questões acadêmicas até
àqueles que englobam as questões do meio empresarial.
4.1 PRINCIPAIS PESQUISADORES INTERNACIONAIS
Atualmente, no cenário internacional existem muitos pesquisadores e grupos de
pesquisa que estudam a área de AS com diferentes tipos de interesses, assim nas subcessões a
seguir são descrito alguns dos principais trabalhos publicados.
4.1.1 Bing Liu
Pode se dizer que no cenário atual Bing Liu é um dos mais importantes pesquisadores
da área de AS. Atualmente Liu é pesquisador na Universidade de Toronto (Canadá), e
publicou uma série de artigos, além do único livro na área de AS.
Liu (2010) afirma que "opiniões são o centro de quase toda a nossa vida humana,
porque elas são as chaves que influenciam nosso comportamento". Assim, essa seria a
justificativa para estudar opiniões, pois são elas que movem o ser humano. Além disso, o
autor define que existem três níveis para realizar uma investigação em AS: nível de
documento, nível de sentença e nível de aspectos e entidade.
Nível de documento: este nível de tarefa é para classificar se toda opinião expressa
num texto tem um sentimento negativo ou positivo.
Nível de sentença: este nível de tarefa é para determinar se cada sentença expressa
uma opinião positiva, negativa ou neutra.
45
Nível de aspectos e entidade: tanto o nível de sentenças como o nível de documentos
não fazem analises para descobrir o que exatamente as pessoas gostam e não gostam.
Ainda de acordo com Liu (2010) o processo para se realizar uma analise em AS é bem
complexo e pode ser dividido nas seguintes etapas:
Análise/detecção de subjetividade: responsável por detectar se um texto é subjetivo
ou objetivo;
Extração de características: responsável por extrair do texto às características do
produto ou serviço sob análise (etapa necessária para realizar AS no nível de
característica);
Classificação de sentimentos: tem por objetivo determinar a polaridade do texto;
Visualização dos resultados: é responsável por apresentar ao usuário o resultado da
análise do texto, por meio de gráficos, tabelas ou de resumos em linguagem natural.
4.1.2 Pak e Paroubek
Pak e Paroubek são pesquisadores da Universidade de Paris (França), publicaram
vários artigos na área. O foco das suas pesquisas é a plataforma de microblogging Twitter.
Para Pak e Paroubek (2010a) "com a popularização dos blogs e RS, mineração de opinião e
análise de sentimentos tornou-se um campo para muitas pesquisas". Outras motivações para a
utilização deste ambiente incluem:
Plataformas de microblogging são usadas por diferentes pessoas para expressar suas
opiniões sobre diferentes tópicos, assim elas valorizam as fontes de opiniões das
pessoas.
Twitter contém um enorme número de textos postados e elas crescem a cada dia. Os
corpos coletados são arbitrariamente grandes.
A audiência do Twitter varia de usuários regulares para celebridades, companhias
representativas, políticos e presidentes de todos os países. Portanto, é possível coletar
textos de diferentes grupos sociais e interesses.
A audiência do Twitter é representada por usuários de vários países. Embora os
usuários dos Estados Unidos sejam dominantes, pois eles têm a possibilidade de
coletar dados em diferentes linguagens.
Para Pak e Paroubek (2010b), em um artigo publicado posteriormente, utilizaram
especificamente a API do Twitter, para colecionar textos de jornais que foram tuitados e
46
formar uma base de dados, com três classes: sentimentos positivos, sentimentos negativos e
neutros. Para seus estudos utilizaram somente os sentimentos negativos e positivos
relacionados à emoticons (ícones de comunicação paralinguisticos, também chamados de
carinhas, que expressam emoções), onde definiram que existem dois tipos:
“Emoticons felizes: ”:-)”, “:)”, “=)”, “:D” etc.
“Emoticons tristes: “:-(”, “:(”, “=(”, “;(” etc.
Seguindo as considerações de Pak e Paroubek (2010b), a importância de utilizar textos
postados no Twitter seria mais plausível, porque queriam trabalhar especificamente, nesse
caso, com textos de jornais populares, e como o New York Times e Washington Posts
possuem conta no Twitter, possuiriam textos mais objetivos para fazer uma coleção de dados
e depois realizar observações. Além disso, outro fator que contribuiu para a utilização do
Twitter, é que seus textos, possuem no máximo 140 caracteres, tornando a busca e a análise
dos dados mais rápida e simples.
4.1.2 Empresas de pesquisa em AS
Twitter é uma rede social e serviço de microblogging que permite aos usuários postar
em tempo real mensagens chamadas tweets (Agarwal et al., 2010). Como o twitter passou a
ser um dos principais alvos para pesquisas acadêmicas, as empresas também passaram a
utiliza-lo, nesse sentido existem grandes corporações como a Microsoft Research e Palo Alto
Research nos EUA.
A Microsoft Research publicou três artigos, onde dois deles tiveram como foco
descobrir características significantes das informações que são retuitadas. Foi coletada uma
grande quantidade de textos postados pelos usuários. A partir de então os pesquisadores
avaliaram estes textos para diferenciar quais as informações que possuíam dados
significativos. Como resultado da análise os autores compreenderam os aspectos que levam os
indivíduos à retuitar, e quais são os tipos de informações que são mais retuitadas (BOYD et
al., 2010).
O grupo da Palo Alto Research, da cidade de Palo Alto (SUH et al., 2011) publicou
trabalhos sobre o mecanismo de retweet. Os autores analisaram qual o impacto que uma
informação causa quando está sendo retuitada. A base de dados coletada contou com mais de
74 milhões em dados de twittes.
47
4.2 PRINCIPAIS PESQUISADORES BRASILEIROS
No cenário brasileiro, existem vários trabalhos em destaque e que estão em franco
desenvolvimento, como artigos, teses, dissertações e monografias publicadas na área. A seguir
faz-se uma breve introdução dos principais autores nacionais
4.2.1 Emanuel Ferreira
Ferreira (2010) apresentou sua dissertação na UFPE - Universidade Federal de
Pernambuco, na cidade de Recife, que delineia sobre a utilização de AS em textos de RS.
Apesar, de o autor ter realizado sua pesquisa no ambiente Twitter, ela pode ser aplicada em
outras RS. Para Ferreira (2010) uma opinião pode não ser expressa de forma direta, mas como
uma relação comparativa entre dois ou mais objetos em questão que compartilham algumas
características em comum. A opinião se apresenta de duas formas: explicita, quando ela ou
algum dos seus sinônimos, aparece no texto, caso contrário será uma característica implícita,
e, portanto de difícil compreensão.
4.2.2 Fabrício Benevenuto
O presente autor publicou diversos trabalhos na área, tanto na língua portuguesa, como
na língua inglesa. Atualmente é professor na UFMG onde criou um grupo para estudar redes
sociais online, no qual se chama NERDS (Núcleo de Estudos de Redes Sociais).
Em sua tese de doutorado Benevenuto (2010a) define uma rede social online sendo um
termo que é usualmente usado para descrever alguns grupos de pessoas que interagem
principalmente via mídia de comunicação. Assim, uma rede social seria um local, composto
por muitos grupos e cada qual com suas características próprias, usando como um meio para
as pessoas se comunicarem, ou seja, faz um papel de um meio de comunicação, dessa forma
seria um dos meios mais utilizados pelas pessoas que fazem parte desses grupos.
Na definição de rede social, sob o ponto de vista de Benevenuto (2010a), rede social é
uma forma para as pessoas interagirem, sendo assim, quer dizer que é um lugar composto por
pessoas que opinam sobre muitos assuntos e expressam sentimentos, dessa forma é um tipo de
dado complexo para estudo, mas que pode ser extraídas muitas informações uteis, assim de
acordo com Benevenuto et al. (2011) analisando uma grande quantidade de dados em RS, os
elementos que justificam estuda-las são:
48
Comercial: Com usuários passando muito tempo navegando em RS online, esses
sítios Web têm se tornado um grande alvo para propagandas. Usuários recebem muitas
informações podendo influenciar e ser influenciado por seus amigos, tornando-se
assim alvo de propaganda, onde são encorajados a compartilhar anúncios sobre marcas
e produtos com seus amigos.
Sociológica: Redes sociais online permitem o registro em larga escala de diversos
aspectos da natureza humana relacionados à comunicação, à interação entre as pessoas
e ao comportamento humano, em geral: elas permitem que as pessoas interajam mais,
mantenham contato com amigos e conhecidos e se expressem e sejam ouvidas por
uma audiência local ou até mesmo global.
Melhorias dos sistemas atuais: Assim como qualquer sistema Web, redes sociais
online são vulneráveis a novas tendências e estão sujeitas a experimentarem uma
rápida transferência de seus usuários para outros sistemas, sem aviso prévio.
Segurança e conteúdo indesejável: Redes sociais online estão cada vez mais se
tornando alvo de usuários maliciosos ou oportunistas que enviam propagandas não
solicitadas, spam, e até mesmo "phishing".
Segundo Benevenuto (2010b) RS possuem muitas funcionalidades, porém como
principais pode se destacar as seguintes:
Perfis dos usuários: Redes sociais online possuem muitas funcionalidades
organizadas ao redor do perfil do usuário, na forma de uma página individual, que
oferece a descrição de um membro. Perfis podem ser utilizados não só para identificar
o indivíduo no sistema, mas também para identificar pessoas com interesses em
comum e articular novas relações.
Atualizações: Atualizações são formas efetivas de ajudar usuários a descobrir
conteúdo. Para encorajar usuários a compartilhar conteúdos e navegarem por
conteúdos compartilhados por amigos, redes sociais online geralmente fazem as
atualizações imediatamente dispóniveis aos amigos na rede social.
Avaliações: Em muitas redes sociais online, o conteúdo compartilhado por um usuário
pode ser avaliado por outros usuários. Avaliações podem aparecer em diferentes níveis
de granularidade e formas. Avaliações de conteúdo são úteis de várias formas. Como
exemplo, elas são importantes para sistemas como o YouTube para ajudar usuários a
49
encontrar e identificar conteúdo relevante. Avaliações podem ainda ajudar
administradores a identificar conteúdo de baixa qualidade ou mesmo conteúdo
inapropriado. Além disso, avaliações podem ser utilizadas para outras finalidades no
sistema, como conteúdo em destaque, sistemas de recomendação, etc.
Listas de Favoritos: Várias aplicações sociais utilizam listas de favoritos para
permitir usuários selecionar e organizar conteúdo. Listas de favoritos ajudam usuários
a gerenciar seu próprio conteúdo e podem ser úteis para recomendações sociais.
Para Benevenuto; Almeida e Silva (2012), além dos elementos expostos acima, que
auxiliam na compreensão sobre RS online, é indispensável entender também um pouco da
teoria de redes complexas, pois para ele RS online são inerentemente redes complexas e
muitos estudos realizados na área, são baseados nessa teoria.
De acordo com Benevenuto; Almeida e Silva (2012), uma rede é um conjunto de
elementos, que podem ser denominados de vértices ou nodos, com conexões entre si
chamadas de arestas. A topologia de uma rede pode ser modelada por um grafo, que possui
muitas métricas de estudo, que são:
Grau dos Vértices: distribuição dos graus dos vértices da estrutura de uma rede.
Coeficiente de agrupamento: o coeficiente de agrupamento de um nó (ou vértice) x é
a razão entre o número de arestas (conexões) existentes entre os vizinhos de x e o
número máximo de arestas possíveis entre estes vizinhos.
Componentes: é um conjunto de vértices, onde cada nó possui um caminho para
todos os outros nós do conjunto. Para grafos direcionados um componente é
fortemente conectado quando existe um caminho direcionado entre cada par de nós do
conjunto. Para grafos não direcionados é fracamente conectado quando o caminho não
é direcionado.
Distância Média e Diâmetro: a distância média de um grafo é o número médio de
arestas em todos os caminhos mínimos existentes entre todos os pares de nós do grafo.
Assortatividade: Para caracterizar a assortatividade de uma rede, medimos o grau
médio de todos os vizinhos dos nós com grau k, dado por knn(k). Valores crescentes
indicam assortatividade, isto é, nós com graus maiores tendem a se conectar a nós com
um número maior de conexões.
50
Centralidade Intermediação (Betweeness): é uma medida relacionada à centralidade
dos nodos ou de arestas na rede. A Centralidade de Intermediação B(e) de uma aresta e
é definido como o número de caminhos mínimos entre todos os pares de nodos em um
grafo que passam por e.
Reciprocidade: pode ser obtida observando a reciprocidade de um nodo i em um
grafo direcionado realizando uma medida da porcentagem dos nodos apontados por i
que apontam para ele.
PageRank: é um algoritmo interativo proposto inicialmente por Larry Page em sua
tese de doutorado no ano de 1998, e logo depois Sergey Brin, Rajeev Motwani e Terry
Winograd (1999), continuaram trabalhando no algoritmo para aperfeiçoar ainda mais a
ordenação dos resultados de busca, para o protótipo de mecanismo de buscas de
páginas Web do Google.
4.2.3 NERDS
Como foi abordado na subseção anterior, o NERDS é um grupo de estudos e pesquisas
na área de RS, criado por Fabrício Benevenuto, que tem como membros pesquisadores, tanto
professores da UFMG como professores da UFOP - Universidade Federal de Ouro Preto.
Todos os anos os pesquisadores do grupo publicam muitos artigos, nas diversas áreas
que abrangem RS, como mineração de dados e textos, atribuição de polaridade a textos de RS,
coleta e análise de dados de RS online, estudo dos dados do microblogin Twitter, etc. Como o
NERDS possui muitos membros, pode se citar alguns deles como: Altigran S. da Silva, Diego
Silveira, Jussara M. Almeida, Jonathan Messias, Pollyanna Gonçalves, Virgílio Almeida,
Wagner Meira, etc.
Messias et al. (2012), realizaram em seu trabalho um experimento e análise de dois
sistemas de classificação de influência: Klout e Twialyzer, para poder medir a precisão desses
tipos de sistemas. Eles desenvolveram um robô que permitisse uma simples interação em
contas do Twitter e mediram sua influência, assim com os resultados obtidos, foi possível
provar que os sistemas de classificação de influências não são precisos e que é possível ser
influente através de estratégias simples.
Rodrigues; Minardi e Meira (2012), desenvolveram uma ferramenta de mineração de
opiniões para o Twitter chamada "Como nos Sentimos", cuja metodologia elaborada ajuda o
usuário a se aproximar das RS e descobrir padrões e tendências nas informações produzidas,
51
como por exemplo, como uma pessoa se sente num dia de sol, como torcedores de um
determinado time se sentem quando ele ganha ou perde ou em que região de um país as
pessoas se sentem mais estressadas.
Araújo et al. (2013), realizaram uma medição de oito ferramentas populares para
análise de polaridade de produtos, eventos em RS online.Com esse experimento, puderam
realizar uma comparação entre todas as ferramentas e descobrir qual, dentre elas, era a
melhor, eles concluíram que a melhor, e, portanto, a mais precisa era a iFeel, um serviço da
Web que provê uma API de acesso gratuito e comparou resultados através de diferentes
modalidades de sentimentos para um determinado texto.
Araújo; Gonçalves e Benevenuto (2013) desenvolveram um estudo profundo sobre
como usuários do Twitter utilizam emoticons e analisaram quais são os mais populares e
como aparecem associados a eventos de escala mundial. Eles utilizaram 1,8 bilhões de tweets
para analisar o humor dos usuários em uma serie de acontecimentos, que cobrem assuntos de
tragédia, política, saúde e eventos esportivos. Assim, puderam concluir que emoticons podem
realmente capturar sentimentos em mensagens de rede de forma correta, mas também
demonstram que existem limitações nessa abordagem.
4.3 PRINCIPAIS PUBLICAÇÕES
Com a existência de uma infinidade de publicações em geral, há uma necessidade de
atribuir relevância, dessa forma foram desenvolvidos associações como IEEE - Institute of
Electrical and Electronics Engineers, ACM - Association Computing Machinery e SciELO -
Scientific Electronic Library, que estabelecem um conjunto de normas, possuindo assim as
publicações mais relevantes, além do mecanismo de trabalhos mais citados do Google
Acadêmico, que ajuda saber quais são os trabalhos de maior interesse dos usuários.
4.3.1 Publicações mais Citadas
Quando se realiza buscas no Google Acadêmico, por exemplo, pode se visualizar
publicações e autores, além disso, essa visualização se torna mais ampla com o recurso de
trabalhos mais citados. Com a infinidade de publicações existentes em AS pode se dizer que
os trabalhos mais citados no Google Acadêmico foram: Kim e Hovy (2006a) do Instituto de
Ciência da Informação da Califórnia (EUA), citados 97 vezes, propõem um sistema que extrai
52
pros e contras de sites que fazem revisões de textos online, demonstrando em índices o quanto
podem ser precisos e imprecisos. Kim e Hovy (2006b) realizaram outro trabalho, onde foram
citados 152 vezes, no qual propuseram uma metodologia para identificar julgamento de
opiniões dividido em valência, titular e tópico e para realizar esse processo dividiram a análise
de opinião em quatro partes: reconhecimento da opinião, identificação da valência,
identificação do titular e identificação do tópico. Além dos trabalhos já referenciados, Kim e
Hovy (2006c) citado 254 vezes, desenvolveram especificamente um método para extrair e
identificar opiniões de titulares automaticamente em textos das mídias sociais online atuais.
McDonald et al. (2007) citado 173, desenvolveu um trabalho investigando qual o
melhor modelo de estrutura para classificar sentimentos em textos com variados níveis de
granularidade, o autor concluiu que o melhor modelo é a classificação de sequências usando
Verbetes Limitados, que pode reduzir significativamente erros de classificação em modelos
formados isoladamente.
Popescu e Etzioni (2005) da Universidade de Washington (EUA), citados 1044 vezes,
desenvolveram um sistema para extrair características e opinião crítica a respeito de produtos
que são publicadas em redes sociais, para auxiliar clientes escolherem melhor um
determinado produto, pois disponibiliza a opinião de outros usuários sobre a qualidade do
produto.
Pang e Lee (2008), da Universidade de Nova York (EUA), foram citados 2153 vezes,
realizaram um trabalho abordando técnicas que possibilitam uma busca de informações
orientadas a opinião. Os autores focaram em métodos que visam enfrentar os novos desafios
propostos em aplicações de sentimento consciente comparando com a análise baseada em
fatos mais tradicionais.
Liu et al. (2009), um dos mais importantes estudiosos de AS atualmente, citado 59
vezes, realiza uma análise de sentenças condicionais, no qual frases são compostas por duas
condições, e por isso são complexas para identificar a real polaridade que possuem, além de
propor uma metodologia que auxilie nessa identificação.
Pak e Paroubek (2010a) da Universidade de Paris (França), foram citados 415 vezes,
desenvolveram um trabalho utilizando como base para coleta de dados o Twitter, que
denominam como um microblogging. No trabalho desenvolvido, utilizaram o Twitter devido
a grande quantidade e diversidade das opiniões que são postadas diariamente. Depois de
coletarem as opiniões postadas, realizaram uma análise, utilizando métricas, para determinar
53
qual o tipo de sentimento exposto no texto, além disso, também construíram uma
classificação, que poderá determinar se o sentimento é negativo, positivo ou neutro.
4.3.2 Principais Associações
Atualmente existem muitas associações que publicam trabalhos científicos, porém
para a área de AS as mais importantes são ACM, IEEE e SciELO, pois são as que contêm o
maior e mais completo acervo de publicações.
ACM22 foi fundada em 1947, em Nova Iorque nos EUA, sendo a primeira comunidade
científica e educacional dedicada à computação. A ACM publica trabalhos dos diversos
campos da computação e na área de AS pode se dizer que os mais buscados foram: Melville;
Gric e Lawrence (2009), Tan et al. (2011) e Hu et al. (2013). No trabalho de Melville; Gric e
Lawrence (2009), apresenta-se um framework unificado, que pode ser utilizado para a
formação de informações léxicas em termos de palavras associadas, e refinar a informação
para especificar domínios utilizados, que disponibilizam alguns exemplos de formação de
sentimentos expressos em textos da Web, provendo as empresas um marketing mais efetivo
dos produtos.
Tan et al. (2011) demonstrou que informações sobre relações sociais podem melhorar
a análise de sentimentos em nível de usuário. Neste trabalho foi utilizado o Twitter como
fonte para dados experimentais, e como resultado obtido, na tradução dos resultados de
aprendizagem, demonstrou que o uso de informações de RS pode levar estatisticamente
melhorias significativas no desempenho da classificação de sentimentos baseado na
abordagem Suppport Vetor Machines para ter acesso somente a recursos textuais.
Hu et al. (2013) estudou o Twitter por ser uma plataforma popular das expressões
humanas, onde podem ser publicados eventos, notícias e críticas. No trabalho foi utilizada a
formulação matemática para aperfeiçoar a busca de sentimentos em textos ruidosos de
microblog, e também foi utilizado dois modelos do mundo real no conjunto de dados do
Twitter para mostrar a superioridade do modelo proposto nos tweets curtos e ruidosos.
22 Disponivel em: http://dl.acm.org/, acessado em janeiro-2014.
54
IEEE23 é uma organização sem fins lucrativos, fundada nos EUA em 1884, que tem
como objetivo dar suporte aos profissionais elétricos, promovendo congressos, fóruns e
disponibilizando publicações.
O IEEE apesar de ser um instituto voltado para publicações na área Elétrica divulga
também trabalhos em outras áreas, e em AS pode se dizer que os trabalhos mais significativos
são: Bermingham et al. (2009), Gloor et al. (2009), Asur e Huberman (2010). Bermingham et
al. (2009) utilizou o Youtube em seu trabalho para estudar a presença do grupo radical
jihadistas, que tem aumentando sua presença em fóruns online. Coletou-se uma grande
quantidade de dados a partir de um grupo dentro do Youtube e usaram-se ferramentas de AS
para analisar os temas debatidos e descobrir qual é a polaridade existente nas mensagens
publicadas, assim pode se descobrir que os pontos de vistas mais extremos e menos tolerantes
foram de mulheres.
Gloor et al. (2009), propôs um novo algoritmo para análise das RS, para minerar
dados da Web, blogs e fóruns online, e identificar novas tendências. O algoritmo proposto, foi
implementado no software Condor, que realiza pesquisa e previsão especialmente em RS. O
algoritmo permite um cálculo de medidas temporais, minerar e analisar uma grande
quantidade de textos de RS, para depois filtrar, extrair e prever tendências sobre a
popularidade de produtos, serviços e pessoas.
Asur e Huberman (2010) realizaram um trabalho onde demonstraram que as mídias
sociais podem ser utilizadas para prever situações reais. Assim utilizaram-se as mensagens
publicadas no Twitter para prever receitas de bilheteria de filmes, utilizando um modelo
baseado em taxas que os tweets são citados para prever temas específicos. Demonstrou-se
também que os sentimentos extraídos no Twitter, podem ser utilizados para melhorar o poder
de previsão em RS.
SciELO24 é uma biblioteca eletrônica que abrange uma coleção selecionada de
periódicos brasileiros. A SciELO é o resultado de um projeto de pesquisa da FAPESP –
Fundação de Amparo a Pesquisa de São Paulo, que é uma das principais agências de
promoção à pesquisa científica e tecnológica do país e incentiva essas pesquisas em diversas
áreas do conhecimento, através de bolsas financeiras, sendo a única base em língua
23 Disponivel em: http://www.ieee.org, acessado em janeiro-2014.
24 Disponível em: http://www.scielo.br/, acessado em janeiro-2014.
55
portuguesa, mas que não contempla todos os assuntos em AS, em parceria com a Birene –
Centro Latino-Americano e do Caribe de Informação em Ciências da Saúde.
Pode se dizer que na área de AS, a principal e uma das poucas publicações da SciELO
foi: Freitas (2013), que descreveu em seu trabalho um léxico de elementos afetivos da língua
portuguesa e polaridade associada, auxiliando no processo de análise de sentimentos. O
trabalho contribui para prover elementos linguísticos para processamento de linguagem
natural e atribuir polaridade para o vocabulário informal da língua portuguesa.
4.4 PRINCIPAIS EVENTOS
Atualmente, existem poucos eventos, como Workshops, conferências e simpósios na
área de AS, tanto no âmbito nacional como no internacional, porém, apesar da existência de
poucos eventos, pode-se dizer que existem alguns que merecem destaque, são eles: BraSNAM
- Brazilian Workshop on Social Network Analysis and Mining, ICWSM - Conference on
Weblogs and Social Media e WOSN - Workshop on Online Social Networks.
4.4.1 BraSNAM
BraSNAM25 é um Workshop brasileiro na área de mineração de dados das RS, criado
por Fabrício Benevenuto da UFMG, que é o atual coordenador geral do evento. O Workshop
ocorre todos os anos no CSBC - Congresso da Sociedade Brasileira de Computação, que já
está na 34° edição e trata das diversas temáticas que englobam computação, sendo promovido
pela SBC - Sociedade Brasileira de Computação. O BraSNAM é um Workshop
multidisciplinar, ou seja, trata de todas as áreas que abrangem a análise de RS. Pode se dizer
que alguns tópicos que geralmente são abordados no BraSNAM são: Visualização de RS,
Evolução das Comunidades, Extração e Tratamento de Dados Sociais, Técnicas de
Mineração, Detecção de Influência, etc.
4.4.2 ICWSM
Segundo o ICWSM26 é um fórum multidisciplinar, e algumas das disciplinas
abordadas são: Processamento de Linguagem Natural, Mineração de Dados e Textos,
25 Disponível em: https://sites.google.com/site/brasnam/, acessado em janeiro-2014.
26 Disponível em: http://www.icwsm.org/2014/index.php, acessado em janeiro-2014.
56
Aprendizado de Máquina, Psicologia, Análise de Redes Sociais e Antropologia, etc. Além
disso, há também as mídias sociais trabalhadas, como: Weblogs, Sites de Redes Sociais
(Facebook, Linkedin), Microblogs (Twitter, Tumblr), Sites de Mídias Comunitárias (e.g.,
YouTube, Flickr, Instagram), Localização Baseada em Redes Sociais (Foursquare). Por
último, pode se dizer que alguns dos tópicos abordados são: Psicologia, base da personalidade
e estudos etnográficos de mídias sociais, Analise de relacionamentos entre mídias sociais e
mídias convencionais, Estudos quantitativos e qualitativos de mídias sociais,
Centralidade/Influência de publicação de autores em mídias sociais, Ranking/Relevância de
blogs e microblogs; Ranking de Web páginas baseadas em Weblogs, Análise de RS;
identificação de comunidades; identificação de polaridade/opinião e extração; analise
linguística de comportamentos em mídias sociais, Categorização de textos; reorganização de
tópicos; identificação demográfica de sexo/idade.
4.4.3 WOSN
WOSN é um Workshop da área de RS online, que ocorre todos os anos no SIGCOMM
- Special Interest Group on Data Communication, promovido pela ACM, e que tem como
objetivo central design de arquiteturas de sistemas, tráfico e explosão nas novas mídias e
acesso mobile. O WOSN discute questões importantes sobre as emergentes RS online,
fazendo uma simples caracterização e enumeração das propriedades das redes comunitárias,
atacando os vários problemas existentes. No Workshop são apresentadas também novas
ideias, aplicações e resultados de experimentos que possam solucionar os problemas
levantados27.
Pode se dizer que algumas das áreas que são abordados no WOSN são: Implicações
das RS e design das redes, Design de arquiteturas de redes para suportar uma larga escala de
aplicações sociais, Estratégias de buscas em RS, Reputação e confiabilidade de sistemas, etc.
Além de possibilitar a submissão de artigos, no qual para obtenção de mais informações estão
disponíveis no site do evento.
27 Disponível em: http://conferences.sigcomm.org/sigcomm/2014/wosn14.php, acessado em: janeiro-2014.
57
5 DISCUSSÃO
O objetivo desta pesquisa foi se aprofundar no tema de Análise de Sentimentos,
fornecendo um arcabouço teórico sobre o respectivo assunto.
Analise de Sentimentos pode ser também chamada de Mineração de Opinião, é a área
da mineração de dados que estuda opinião de pessoas sobre produtos, serviços e organizações,
atribuindo relevância as informações, usando fatores de polaridade, a qual pode se negativa,
positiva ou neutra.
Para alcançar o principal objetivo desta pesquisa, realizou-se um levantamento
bibliográfico sobre o tema, descrevendo sobre sua origem e história, os principais desafios
encontrados, qual o estado atual das pesquisas e para onde os estudos estão avançando. A
nível nacional autores que se destacam nesta área incluem Professor Dr. Fabrício Benevenuto
da UFMG e grupo NERDS. Já autores internacionais cita-se Bing Liu, Pak e Paroubek e
dentre as empresas que incentivam a pesquisa, destaca-se a Microsoft Research.
Realizar pesquisas e entender a área de Análise de Sentimentos se tornou fundamental
para compreender as informações que são postadas diariamente nas Redes Sociais Online,
como Facebook, Twitter, Linkedin. Redes Sociais Online são baseadas em redes de
relacionamentos já existentes no mundo real, que são postas no mundo virtual, dessa forma as
pessoas que compõem essas redes de relacionamento que passam a fazer parte do mundo
virtual, postam um grande volume de informações sobre os mais variados assuntos, havendo a
necessidade de compreender melhor o usuário, para saber quais sãos os seus interesses e o que
mais desejam.
Atualmente, a maior parte dos estudos na área de Análise de Sentimentos é realizado
por empresas, que desejam conhecer melhor o seu consumidor ou então para desenvolver um
marketing mais eficiente, basicamente estes estudos visam agregar valor a produtos e
serviços. AS é um campo de estudo que está avançando para outras áreas, como esporte,
política e medicina.
58
REFERÊNCIAS
ACIOLI, S. Redes Sociais e Teoria Social: revendo os fundamentos do conceito. Informação
& Informação, Londrina, v. 12, n. esp., p. 1-11, 2007.
AGARWAL, A. et al. Sentiment Analysis of Twitter Data. In: IEEE INTERNATIONAL
CONFERENCE ON SOCIAL COMPUTING, 2010, New York, Proceedings… New York:
Institute of Electrical and Electronics Engineers, 2010. p. 1-8.
AGUIAR, S. Redes sociais e tecnologias digitais de informação e comunicação no Brasil
(1996-2006). Relatório final de pesquisa. NUPEF Rits - Núcleo de Pesquisas, Estudos e
Formação da Rede de Informações para o Terceiro Setor, 2006, p.37.
ALBUQUERQUE, D. et al. Estudo do uso do Twitter como Ferramenta de Análise de
Opinião durante as Eleições Municipais de João Pessoa. In: BRAZILIAN WORKSHOP ON
SOCIAL NETWORK, ANALYSIS AND MINING, 1., 2012, Natal, Anais... Natal:
Sociedade Brasileira de Computação, 2011. p. 1-13.
AMORIM, P; CASTRO, D. Mídias digitais: uma nova ambiência para a comunicação móvel.
In: ENCONTRO DE HISTÓRIA DA MÍDIA DA REGIÃO NORTE, 1., 2010, Palmas,
Anais... Palmas: Associação Brasileira de Pesquisadores de História da Mídia, 2010. p. 1-11.
ARAÚJO, M.; GONÇALVES, P.; BENEVENUTO, F. Métodos para Análise de Sentimentos
no Twitter. In: BRAZILIAN SYMPOSIUM ON MULTIMEDIA AND THE WEB, 19.,
2013, Salvador, Anais… Salvador: Sociedade Brasileira de Computação, 2013. p. 1-8.
ARAÚJO, M. et al. iFeel: A Web System that Compares and Combines Sentiment Analysis
Methods. In: INTERNATIONAL WORLD WIDE WEB CONFERENCE COMMITTEE, 14.,
2013, Seoul, Korea, Proceedings… Seoul, Korea: Association Computing Machinery, 2013.
p. 1-4.
ASUR, S.; Huberman. B. Predicting the Future with Social Media. In: IEEE
INTERNATIONAL CONFERENCE ON SOCIAL COMPUTING, 2010, New York,
Proceedings… New York: Institute of Electrical and Electronics Engineers, 2010. p. 1-8.
Disponível em: http://arxiv.org/abs/1003.5699v1. Acesso em 18 fev. 2014.
BARNES, J.A. Social networks. In. Addison - Wesley Module in Anthropology. Module 26,
1972, p. 1-29.
BENEVENUTO, F. Uma Análise Empírica de Interações em Redes Sociais. 2010 a. 149 f.
Tese (Doutorado em Ciência da Computação) - Instituto de Ciências Exatas, Universidade
Federal de Minas Gerais, Belo Horizonte, 2010.
_______. Redes Sociais Online: técnicas de coleta, abordagens de medição e desafios futuros.
In: SIMPÓSIO SBSC, WebMedia, IHC e SBBD, 1., 2010b, Belo Horizonte, Anais... Belo
Horizonte: Universidade Federal de Minas Gerais, 2010. cap.2, p 1-30.
BENEVENUTO, F.; ALMEIDA, J.; SILVA, A. Coleta e Análise de Grandes Bases de Dados
às Aplicações. In: JORNADAS DE ATUALIZAÇÕES EM INFORMÁTICA, 30., 2011,
Natal, Anais... Natal: Pontífice Universidade Católica, 2011. p. 11-58.
59
_______. Coleta e Análise de Grandes Bases de Dados às Aplicações. In: JORNADAS DE
ATUALIZAÇÕES EM INFORMÁTICA, 31., 2012, Curitiba, Anais.... Curitiba: Pontífice
Universidade Católica, 2012. p. 11-58.
_______. Explorando Redes Sociais Online: Da Coleta e Análise de Grandes Bases de Dados
às Aplicações. In: SIMPÓSIO BRASILEIRO DE REDES DE COMPUTADORES e
SISTEMAS DISTRIBUÍDOS, 29., 2011, Campo Grande., Anais... Campo Grande:
Sociedade Brasileira de Computação, 2011. cap.2, p.63-102.
BERMINGHAM, A. et al. Combining Social Network Analysis and Sentiment Analysis to
Explore the Potential for Online Radicalization. In: PROCEEDINGS OF THE 2009
INTERNATIONAL CONFERENCE ON ADVANCES IN SOCIAL NETWORK
ANALYSIS AND MINING, 13., 2009, Washington, Proceedings… Washington: Institute of
Electrical and Electronics Engineers, 2009. p. 231-236.
BOYD, D.; GOLDER, S.; LOTAN, G. Tweet, Tweet, Retweet: Conversational Aspects of
Retweeting on Twitter. In: IEEE INTERNATIONAL CONFERENCE ON SOCIAL
COMPUTING, 2010, Kauai, Proceedings… Kauai: Institute of Electrical and Electronics
Engineers, 6 January, 2010. p. 1-10.
CHI, H.; HONG, L. et al. Want to be Retweeted? Large Scale Analytics on Factors Impacting
Retweet in Twitter Network. In: IEEE INTERNATIONAL CONFERENCE ON SOCIAL
COMPUTING, 2011, Palo Alto, Proceedings… Palo Alto: Institute of Electrical and
Electronics Engineers, 2011. p. 1-8.
CORRÊA, C. Comunidades virtuais Gerando Identidades na Sociedade em Rede. Ciberlegenda,
Rio de Janeiro, n. 11, p. 1-14, 2003.
CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, Pallo Alto, n. 20,
p. 273-297, 1995.
DOWNES, S. Semantic networks and social Networks. National Research Council Canada.
The Learning Organization. vol. 12, n. 5, p. 411-417, 2005.
FERREIRA, E. Analise de Sentimento em Redes Sociais Utilizando Influência das
Palavras. Monografia - Centro de Informática, Universidade Federal de Pernambuco, Recife,
2011.
FREITAS, C. Sobre a Construção de um Léxico da Afetividade para o Processamento
Computacional do Português. Scientific Electronic Library, Belo Horizonte, v. 13, n. 4, p.
1031-1059, 2013.
GLOOR, P.A. et al. Web Science 2.0: Identifying Trends through Semantic Social Network
Analysis. In: INTERNATIONAL CONFERENCE ON SOCIAL COMPUTING, 9., 2009,
Vancouver. Proceedings… Vancouver: Institute of Electrical and Electronics Engineers,
2009. p. 215-222. Disponível em: <http://dx.doi.org/10.1109/CSE.2009.186>. Acesso em 16
fev. 2014.
GONÇALVES, P. et al. Comparing and Combining Sentiment Analysis Methods. In:
CONFERENCE ON ONLINE SOCIAL NETWORKS, 2013, Boston. Proceedings...
Boston: Association for Computing Machinery, 2013. p. 1-11.
60
GONÇALVES, P.; BENEVENUTO, F.; ALMEIDA, V. O que Tweets Contendo Emoticons
podem Revelar sobre Sentimentos Coletivos? In: BRAZILIAN WORKSHOP ON SOCIAL
NETWORK ANALYSIS AND MINING, 2., 2013, Maceio, Anais… Maceió: Sociedade
Brasileira de Computação, 2013. p. 1-12.
GONÇALVES, P.; BENEVENUTO, F.; CHA, M. PANAS-t: A: Uma Escala Psicométrica
para Medição de Sentimentos no Twitter. In: BRAZILIAN WORKSHOP ON SOCIAL
NETWORK, ANALYSIS AND MINING, 2., 2013, Maceio, Anais… Maceió: Sociedade
Brasileira de Computação, 2013. p. 1-10,
GRANOVETTER, M. The strength of weak ties. American Journal of Sociology, [S.I.], vol.
78, nº 6, may. 1973.
GUTEMBERG, N. BestChoice: Classificação de Sentimentos em Ferramentas de Expressão
de Opinião. Monografia - Centro de Informática, Universidade Federal de Pernambuco.
Recife, 2010.
HENRI, F.; PUDELKO, B. Understanding And Analysing Activity And Learning In Virtual
Communities, Journal of Computer Assisted Learning, [S.I.], n°. 19, p. 474-487. 2003.
Disponível em: <http://hal.archivesouvertes.fr/docs/00/19/02/67/PDF/Henri-France-
2003.pdf>. Acesso em 20 jan. 2014.
HU, X. et al. Exploiting Social Relations for Sentiment Analysis in Microblogging. In:
INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING, 6., 2013,
New York. Proceedings… New York: Association for Computing Machinery, 2013. p. 536-
546.
JINDAL, N.; LIU, B. Identifying comparative sentences in text documents. In:
PROCEEDINGS OF ACM SIGIR CONF. ON RESEARCH AND DEVELOPMENT IN
INFORMATION RETRIEVAL, 29., 2006, New York, Proceedings… New York:
Association for Computing Machinery, 2006. p. 1-8. Disponível em:
<doi:10.1145/1148170.1148215>. Acesso em 18 fev. 2014.
KIM, S.M.; HOVY, E (a). Automatic identification of pro and con reasons in online reviews.
In: PROCEEDINGS OF COLING/ACL 2006 MAIN CONFERENCE POSTER SESSIONS,
6., 2006, Stroudsburg, PA, Proceedings… Stroudsburg, PA: Association for Computing
Machinery, 2006. p. 1-8. Disponível em: <doi:10.3115/1273073.1273136>. Acesso em 18
fev. 2014.
KIM, S.M.; HOVY, E (b). Extracting opinions, opinion holders, and topics expressed in
online news media text. In: PROCEEDINGS OF THE WORKSHOP ON SENTIMENT AND
SUBJECTIVITY IN TEXT, 4., 2006, Stroudsburg, PA, Proceedings… Stroudsburg, PA:
Association for Computing Machinery, 2006. p. 1-8.
KIM, S.M.; HOVY, E (c). Identifying and analyzing judgment opinions. In: PROCEEDINGS
OF HUMAN LANGUAGE TECHNOLOGY CONFERENCE OF THE NORTH
AMERICAN CHAPTER OF COMPUTATIONAL LINGUISTICS, 6., 2006. Stroudsburg,
PA, Proceedings… Stroudsburg, PA: Association for Computing Machinery, 2006. p. 200-
207. Disponível em: <doi: 10.3115/1220835.1220861>. Acesso em 18 fev. 2014.
61
KOBLITZ, L. Ambiente de Análise de Sentimentos Baseado em Domínio. 2010. 101 f.
Tese (Doutorado em Engenharia Civil) - Programa de Pós-graduação em Engenharia Civil -
COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2010.
LEMOS, A. Cibercultura, Tecnologia e Vida Social na Cultura Contemporânea.1 ed.
Porto Alegre: Sulina, 2002.
LIU, B. Sentiment Analysis and Subjectivity. In. Handbook of Natural Language
Processing. 2nd., Toronto: Graeme Hirst, 2010.
LIU, B.; NARAYNAN, R.; CHOUDHARY, A. Sentiment Analysis of Conditional Sentences.
In: PROCEEDINGS OF THE 2009 CONFERENCE ON EMPIRICAL METHODS IN
NATURAL LANGUAGE PROCESSING, 7., 2009, Singapore, Proceedings… Singapore:
Association for Computational Linguistics, v. 1, 2009. p. 180–189.
LOPES, C.; COUTINHO, C. Livemocha: perfil e percepções do utilizador português.
Repositórium, Minho, Portugal, 2013.
MCDONALD, R. et al. Structured Models for Fine-to-Coarse Sentiment Analysis. In:
PROCEEDINGS OF THE 45th ANNUAL MEETING OF THE ASSOCIATION OF
COMPUTATIONAL LINGUISTICS, 45., 2007, Prague - Czech Republic, Proceedings...
Prague, Czech Republic: Association for Computational Linguistics, 2007. p. 432-439.
MARCONI, M. A.; LAKATOS, E. M. Metodologia do trabalho científico. São Paulo:
Editora Atlas, 1992. 4a ed. p.43 e 44.
MARTELETO, R. M. Análise de Redes Sociais: aplicação nos estudos de transferência da
informação. Ciência da Informação. Scientific Electronic Library Online. [S.I.], vol. 30, n.
1, p. 71-81, 2001. Disponível em:
<http://www.scielo.br/scielo.php?pid=S010019652001000100009&script=sci_arttext&tlng=p
>. Acesso em 22 jan. 2014.
MATIOLI, L. Protótipo para Mineração de Opiniões em Redes Sociais: Estudo de casos
selecionados usando o Twitter. Monografia - Departamento de Ciências da Computação,
Universidade Federal de Lavras, Minas Gerais, 2010.
MELVILLE, P.; GRYC, W.; LAWRENCE, R. Sentiment Analysis of Blogs by Combining
Lexical Knowledge with Text Classification. In: PROCEEDINGS OF THE 15TH ACM
SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND
DATA MINING, 15., 2009, New York, Proceedings... New York: Association for
Computational Linguistics, 2009. P. 1275-1284.
MESSIAS, J. et al. Sigam-me os bons! Transformando robôs em pessoas influentes no
Twitter, In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND
MINING, 1., 2012, Curitiba, Anais... Curitiba: Sociedade Brasileira de Computação, 2012. p.
1-11.
OLIVEIRA, F.W.C. Análise de Sentimentos de Comentários em Português Utilizando
Sentiwordnet. Monografia (Especialização em Sistemas de Desenvolvimento para Web) -
Departamento de Informática, Universidade Estadual de Maringá, Maringá, 2013.
62
OLIVEIRA, L.; CAMPOS, G.; SILVA, R. Mineração de dados e análise de opinião em redes
sociais – Um estudo de caso sobre as Olimpíadas 2012 utilizando o Twitter. In: BRAZILIAN
WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING, 1., 2012, Maceió.
Anais... Maceió: Sociedade Brasileira de Computação, 2012. p. 1-4.
PAGE, L. et al. The PageRank Citation Ranking: bringing order to the web. Technical
Report. Stanford InfoLab. 1998. Disponível em: <http://ilpubs.stanford.edu:8090/422/1/1999-
66.pdf>. Acesso em 10 fev. 2014.
PAK, A.; PAROUBEK, P (a). Twitter as a corpus for sentiment analysis and opinion mining.
In: PROCEEDINGS OF THE SEVENTH CONFERENCE ON INTERNATIONAL
LANGUAGE RESOURCES AND EVALUATION, 7., 2010, Valleta, Malta, Proceedings…
Valleta, Malta: Conference on Language Resources and Evaluation, p. 1320-1326, 19-21
May.
_______ (b). Twitter Based System: Using Twitter for Disambiguating Sentiment Ambiguous
Adjectives. In: PROCEEDINGS OF THE 5TH INTERNATIONAL WORKSHOP ON
SEMANTIC EVALUATION, 5., 2010, Uppsala, Sweden, Proceedings… Uppsala, Sweden:
Association for Computacional Linguistics, 2010. p. 436-439.
PANG, B. et al. Thumbs up? sentiment classification using machine learning techniques. In:
PROCEEDINGS OF THE ACL-02 CONFERENCE ON EMPIRICAL METHODS IN
NATURAL LANGUAGE PROCESSING, 2., 2002, Philadelphia, PA, Proceedings…
Philadelphia, PA: Association for Computational Linguistics, 2002. p. 79-86.
PANG, B.; LEE, L. 2008. Opinion Mining and Sentiment Analysis, Foundations and Trends
in Information Retrieval, New York, v.2, n. 1-2, p. 1–135, 2008.
POPESCU, A.M.; ETZIONI, O. Extracting product features and opinions from reviews. In:
HLT ’05: PROCEEDINGS OF THE CONFERENCE ON HUMAN LANGUAGE
TECHNOLOGY AND EMPIRICAL METHODS IN NATURAL LANGUAGE
PROCESSING, 5., 2005, Morristown, New Jersey, Proceedings… Morristown, New Jersey:
Association Computing Machinery, 2005. p. 339–346.
RECUERO, R.C. Comunidades Virtuais: uma abordagem teórica. In: SEMINÁRIO
INTERNACIONAL DE COMUNICAÇÃO, 5., 2001, Porto Alegre, Anais eletrônicos...
Porto Alegre: PUCRS, 2001. Disponível em:
<http://www.pontomidia.com.br/raquel/teorica.pdf>. Acesso em 22 jan. 2014.
________. Teoria das Redes Socias na Internet: considerações sobre o orkut, os weblogs e
fotologs. In: CONGRESSO BRASILEIRO DE CIÊNCIAS DA COMUNICAÇÃO, 27.,
2004, Porto Alegre, Anais... Porto Alegre: Sociedade Brasileira de Estudos Interdisciplinares
da Comunicação, 2004. Disponível em: <http://www.pontomidia.com.br/raquel/teorica.pdf>.
Acesso em 22 jan. 2014.
RHEINGOLD, H. The Virtual Community. [S.I.], 1998. Disponível em:
<http://www.rheingold.com/vc/book/>. Acesso em 20 jan. 2014.
RODRIGUÊS, A.O.; MINARDI, R.; MEIRA, W . Como nos Sentimos: uma ferramenta de
mineração visual de sentimentos no twitter, In: BRAZILIAN WORKSHOP
63
ON SOCIAL NETWORK ANALYSIS AND MINING, 2., 2013, Maceió, Anais... Maceió:
Sociedade Brasileira de Computação, 2013. p. 1-12.
RODRIGUÊS, A. et al. Campeões do Brasileirão em uma Análise de Substituições de
Jogadores Através do Prisma de Redes Sociais, In: BRAZILIAN WORKSHOP
ON SOCIAL NETWORK ANALYSIS AND MINING, 1., 2012, Curitiba, Anais... Curitiba:
Sociedade Brasileira de Computação, 2012. p.1-4.
RODRIGUES, D. H. Construção Automática de um Dicionário Emocional para o Português.
2009. Dissertação de Mestrado - UBI, Covilhã, Portugal. 2009.
SANTOS, H. Identificação de Autoridade em Topicos na Blogsfera Brasileira Usando
Comentários com Relacionamento. 2013. 56 f. Dissertação (Mestrado em Ciências da
Computação) - Instituto de Informática, Universidade Federal do Rio Grande do Sul, Porto
Alegre, 2013.
SOUSA, P.V.B. A Rede Social Móvel Foursquare: um estado da arte, In: CONGRESSO DE
ESTUDANTES DE PÓS-GRADUAÇÃO EM COMUNICAÇÃO, 5., 2012, Niterói, Anais...
Niterói: Universidade Federal Fluminense, 2012. p. 1-15.
SOUZA, L. Análise De Sentimentos No Twitter Utilizando Sentiwordnet. Monografia -
Centro de Informática, Universidade Federal do Pernambuco, Recife, 2011.
TAN, C. et al. User-Level Sentiment Analysis Incorporating Social Networks. In:
ROCEEDINGS OF THE 17TH ACM SIGKDD INTERNATIONAL CONFERENCE ON
KNOWLEDGE DISCOVERY AND DATA MINING, 17., 2011, New York, Proceedings…
New York: Association for Computing Machinery, 2011. p. 1397-1405.
TELLES, André. A Revolução das Mídias Sociais, 2. ed. São Paulo: M. Books do Brasil,
2011.
TUMITAN, D.; BECKER, K. Introdução à Mineração de Opiniões: Conceitos, Aplicações e
Desafios. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS, 24., 2013, Recife,
Proceedings... Recife: Sociedade Brasileira de Computação, 2013. pag. 27-52.
TURNEY, P. D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised
classification of reviews. In: PROCEEDINGS OF THE 40TH ANNUAL MEETING ON
ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 40., 2002, Stroudsburg, PA,
Proceedings… Stroudsburg, PA: Association for Computational Linguistics, 2002. pp. 417–
424.
WILSON, T. Fine-Grained Subjectivity and Sentiment Analysis: Recognizing the
Intensity, Polarity, and Attitudes of Private States. 2007. Dissertation, University of
Pittsburgh, Pittsburgh, USA, 2007.