Mineração da opinião sobre aspectos de candidatos a eleições em comentários de notícias

Transcrição

1 paper:78 Mineração da opinião sobre aspectos de candidatos a eleições em comentários de notícias Leonardo Augusto Sápiras, Karin Becker Instituto de Informática Universidade Federal do Rio Grande do Sul (UFRGS) Caixa Postal Porto Alegre RS Brazil {lasapiras,karin.becker}@inf.ufrgs.br Resumo. A classificação automática da opinião pública sobre aspectos de candidatos a eleições, a partir de opiniões disponíveis na web, é um problema complexo para a Mineração de Opiniões. Este artigo descreve uma experiência de mineração de opiniões em nível de aspecto no contexto de comentários de leitores de jornais sobre notícias eleitorais. Nosso desafio é identificar e sumarizar a opinião baseada em aspectos a partir de fontes de opiniões fracamente estruturadas. Mostramos ser possível identificar, classificar a polaridade e sumarizar a opinião de leitores de um jornal sobre os aspectos Saúde e Educação relacionados a candidatos de uma eleição municipal. Abstract. The automatic classification of opinions about aspects of political candidates, from public web data, is a complex Opinion Mining problem. This paper describes a case study of aspect-based opinion mining in the context of comments that newspaper readers express about political news. Our challenge is to identify and summarize opinions on aspects of election candidates, using an ill-structured source of opinion. Our case study propose techniques that can be used to identify, classify and summarize opinions on Health and Education issued by readers about political candidates. 1. Introdução A opinião pública sobre entidades e seus aspectos expressa em documentos textuais pode ser analisada e sintetizada através de Mineração de Opiniões, que realiza essas atividades combinando técnicas de mineração de dados com processamento de linguagem natural [Liu 2012]. Os trabalhos pioneiros nessa área buscaram identificar a opinião global contida em revisões sobre produtos e serviços, escritas por usuários [Pang and Lee 2008, Tsytsarau and Palpanas 2012]. Como um substancial avanço, a opinião passou a ser detalhada em termos dos diferentes aspectos de produtos/serviços [Hu and Liu 2004, Guo et al. 2009, Qiu et al. 2011, Liu et al. 2013], tais como o preço, capacidade ou desempenho de um computador. Essas opiniões detalhadas são extremamente úteis e influenciam potenciais consumidores. Revisões de produto são fontes de opinião bem estruturadas e possibilitam obter a opinião pública sobre entidades e seus aspectos mais facilmente [Tsytsarau and Palpanas 2012, Liu 2012], porque o alvo da opinião é a entidade sendo revisada. Por outro lado, as opiniões expressas em fontes de opiniões menos estruturadas, tais como redes sociais [Tumasjan et al. 2010, Castellanos et al. 2011], blogs e notícias [Balahur et al. 2010], são mais difíceis de serem mineradas porque as tarefas de 117

2 encontrar o conteúdo de opinião, e o seu alvo, são bem mais complexas. Ao contrário do contexto de revisão de produtos, no qual o objeto da revisão é a entidade alvo da opinião, documentos nessas mídias podem conter opiniões sobre múltiplas entidades, sobre aspectos específicos destas, ou mesmo podem não conter nenhuma opinião. Este artigo descreve uma experiência de mineração de opiniões em nível de aspecto no contexto de comentários de leitores de jornais sobre notícias eleitorais. Nosso desafio é identificar e sumarizar a opinião baseada em aspectos a partir de fontes de opiniões fracamente estruturadas. Aplicamos a mineração de opiniões em fontes de dados relacionadas com eleições, já que a plataforma eleitoral de candidatos inclui propostas relevantes para a população em diversas áreas, tais como saúde, educação, segurança, as quais são exploradas durante uma campanha com o intuito de obter votos. Essas áreas são tratadas neste trabalho como os aspectos de um candidato sobre os quais os leitores podem opinar. Assim, partimos da premissa que, além da percepção global de um candidato, é possível identificar a opinião pública em relação a aspectos específicos deste. Por exemplo, desejase identificar que a percepção sobre um candidato X em relação à saúde é mais positiva que a do candidato Y, mas no que se refere à educação a percepção é mais negativa. A contribuição do presente trabalho é uma abordagem para minerar e sumarizar, em nível de aspecto, opiniões sobre candidatos a eleições, a qual foi aplicada a um estudo de caso. Ela integra resultados parciais de experimentos sobre extração de aspectos [Sapiras and Becker 2014], e de mineração de opiniões em nível de sentença sobre a mesma fonte de opiniões fracamente estruturada [Tumitan and Becker 2013, Tumitan and Becker 2014], a saber, opiniões expressas por leitores de jornal em comentários como reações a notícias. Em nosso conhecimento, este é um trabalho pioneiro de mineração de opiniões em nível de aspecto fora do contexto de revisões de produtos. O restante deste artigo está estruturado como segue: a Seção 2 descreve os trabalhos relacionados; a Seção 3 detalha um estudo de caso para minerar a opinião sobre aspectos de entidades políticas; a Seção 4 apresenta conclusões e trabalhos futuros. 2. Trabalhos relacionados A mineração de opiniões pode ser dividida em três grandes tarefas [Tsytsarau and Palpanas 2012]: a) identificação de conteúdo subjetivo e do alvo das opiniões; b) classificação da polaridade das opiniões; c) sumarização das opiniões através de métricas e/ou recursos visuais. A mineração de opiniões pode ser realizada em nível de documento, sentença ou aspecto, sendo este último o foco deste trabalho. Métodos para classificação da polaridade de opiniões incluem abordagens baseadas em dicionário, aprendizagem de máquina, estatísticas e semânticas [Tsytsarau and Palpanas 2012], sendo as duas primeiras as mais frequentemente empregadas [Liu 2012]. A abordagem baseada em dicionários requer bons léxicos sentimento para a língua alvo, e pesquisas mostram a importância de dicionários de domínio (e.g. [Hu and Liu 2004]). Já para bons resultados usando aprendizagem de máquina, é necessário um extenso corpus anotado para treino. O trabalho pioneiro na identificação de opinião em nível de aspecto foi o de [Hu and Liu 2004], o qual utiliza regras de associação envolvendo substantivos. [Qiu et al. 2011] utilizam dependências sintáticas para identificar o alvo da opinião, mas 118

3 bons analisadores sintáticos não estão disponíveis para o português. Modelos mais sofisticados de co-ocorrência (e.g. [Guo et al. 2009]) também foram propostos com o mesmo fim. Essas pesquisas exploram revisão de produtos, que são fontes de opinião mais estruturadas, pois: (i) geralmente apresentam opiniões sobre uma única entidade, (ii) explicitam a entidade-alvo da opinião, (iii) pertencem ao mesmo domínio (e.g. informática, cinema). Não se pode assumir tais características em fontes de dados menos estruturados, como blogs ou redes sociais, pois esses tipos de documentos podem apresentar opiniões sobre múltiplos alvos (ou mesmo não conter opinião) e em domínios sem relação entre si. Trabalhos que usam fontes de opinião fracamente estruturadas (e.g. tweets, comentários) identificam o alvo de opinião no momento da extração, usando um conjunto de termos que representam a entidade alvo. Trabalhos que se propõem a fazer previsões sobre eleições políticas baseadas em sentimentos usando tweets [Tumasjan et al. 2010, O Connor et al. 2010] ou comentários de jornais [Tumitan and Becker 2014] usam essa estratégia e realizam a mineração de opiniões em nível de documento ou sentença. LCI [Castellanos et al. 2011] monitora o sentimento em tweets, agrupando os termos mais frequentes em tópicos e sumarizando as opiniões envolvendo esses termos. O Observatório da Web 1 monitora tweets sobre vários assuntos, incluindo eleições, sumarizando os principais tópicos, mas sem envolver mineração da opiniões. Modelos visuais para a tarefa de sumarização são propostos em trabalhos como [Hu and Liu 2004, Castellanos et al. 2011]. Em nível de aspecto, um modelo comum mostra a quantidade de opiniões positivas/negativas para cada um dos aspectos de um produto frequentemente citados [Hu and Liu 2004]. LCI [Castellanos et al. 2011] usa este modelo de sumarização para entidades e seus aspectos, além de propor uma nuvem de termos para os aspectos mais comentados. O presente artigo integra contribuições desenvolvidas em trabalhos prévios dos autores. Experimentos para extrair aspectos de comentários de notícias foram reportados em [Sapiras and Becker 2014], mas não envolveram mineração de opiniões. Observamos como comportamento dos leitores que os comentários não necessariamente têm relação com o conteúdo da notícia (e.g. uma notícia sobre transportes pode ter comentários opinando sobre saúde, transportes ou corrupção). Assim, optamos por considerar todos comentários, e experimentamos diferentes técnicas probabilísticas de co-ocorrência para identificar aspectos. O processo de mineração de opiniões para o mesmo estudo de caso foi detalhado em [Tumitan and Becker 2013], incluindo a extração e pré-processamento de comentários, identificação dos candidatos alvo, e classificação da opinião em nível de sentença. A classificação da polaridade usando léxicos de sentimento e aprendizado supervisionado foi comparada em [Tumitan and Becker 2014], também em nível de sentença. O presente trabalho diferencia-se destes ao propor uma abordagem para minerar e sumarizar opiniões em nível de aspecto para a mesma fonte de opiniões fracamente estruturada, a saber, comentários de jornais sobre candidatos a eleições. 3. Estudo de caso 3.1. Objetivo Neste estudo de caso realizamos uma experiência pioneira de mineração de opiniões em nível de aspecto fora do contexto de revisão de produtos. Tal como em

4 [Tumitan and Becker 2013], usamos como fonte de opinião comentários sobre notícias envolvendo eleições municipais de 2012 da cidade de São Paulo, e os três candidatos a prefeito mais comentados (i.e. Serra, Russomanno e Haddad). As notícias e comentários foram extraídos da Folha de São Paulo, e o período analisado corresponde ao mês que antecede o primeiro turno da eleição. O objetivo do estudo foi propor uma abordagem que permitisse detalhar a opinião dos leitores em relação a aspectos específicos destes candidatos (e.g. a percepção de X sobre saúde é mais positiva que a dos candidatos Y e Z no mesmo aspecto), e aplicá-la sobre o corpus escolhido. Consideramos os mesmos aspectos já explorados em [Sapiras and Becker 2014]: saúde e educação Abordagem proposta A abordagem proposta para o estudo de caso é apresentada na Figura 1. As caixas com fundo cinza correspondem às técnicas discutidas em trabalhos prévios dos autores e as com fundo verde correspondem às etapas desenvolvidas no presente artigo. Uma vez extraídos os comentários dos jornais relevantes ao estudo de caso [Tumitan and Becker 2013], dois procedimentos são realizados: a) a identificação dos comentários envolvendo os aspectos alvo de acordo [Sapiras and Becker 2014]; e b) a mineração de opiniões em nível de sentença, para sentenças mencionando os candidatos observados [Tumitan and Becker 2014]. O nível de sentença foi adotado para a polarização da opinião porque cada comentário pode envolver opiniões sobre mais de um candidato. Então, a relação entre as sentenças polarizadas e os respectivos comentários é analisada para verificar se se referem a algum aspecto específico. Finalmente, a opinião dos leitores é sumarizada por candidato e por seus aspectos. Na discussão que segue, sejam A = {a i } um conjunto de aspectos, E = {e j } um conjunto de candidatos monitorados e C = {c k } um conjunto de comentários. Figura 1. Abordagem de mineração de opiniões em nível de aspecto. Extração de comentários: extração de comentários sobre notícias eleitorais, identificadas usando rótulos pré-definidos em um indexador de notícias (Google Reader). O pré-processamento elimina comentários duplicados (similaridade superior a 85% usando cosseno), ou muito curtos (até 3 palavras). Os detalhes da extração e limpeza de comentários são relatados em [Tumitan and Becker 2013]. Identificação de comentários que mencionam aspectos: identificação dos comentários C a C que contêm termos representativos de cada aspecto a A, de acordo o método detalhado na Seção 3.4. Divisão de comentários em sentenças: utilizando o módulo punkt do NLTK 2, treinado para português, os comentários são divididos em sentenças. A relação entre 2 Natural Language Toolkit

5 sentença e comentário de origem é armazenada, criando o conjunto de sentenças S = {< s i, c k >: c k C}. Identificação de sentenças que mencionam entidades eleitorais: filtragem de todas sentenças de S que fazem menções explícitas aos candidatos e E, criando um conjunto SM = {< s i, e j, c k >: e j E < s i, c k > S}. As menções são identificadas usando os nomes dos candidatos (e.g. Serra, Russomano) e suas variações (e.g. vampissera, tarussomano), encontradas a partir de expressões regulares. Polarização de sentenças: as sentenças com menções SM são polarizadas em três classes, gerando o conjunto SP = {< s i, e j, pol, c k >: pol {pos, neut, neg} < s i, e j, c k > SM}. Os detalhes relacionados à classificação das opiniões são discutidos na Seção 3.5. Associação das sentenças polarizadas aos aspectos: as sentenças com opiniões sobre aspectos específicos são separadas, usando o seu relacionamento com os respectivos comentários. Para cada aspecto a A, buscamos as sentenças SP a = {< s i, e j, pol, c a >: c a C a }, SP a SP, considerando estas como opiniões sobre o aspecto a do candidato e j. Sumarização da opinião sobre as entidades e seus aspectos: sumarização das opiniões sobre os candidatos em geral, e sobre seus aspectos, de acordo com os mecanismos apresentados na Seção 3.6. Agregamos as sentenças por comentário e candidato, para representar o número de pessoas emitindo opiniões sobre cada candidato Corpus e Gold Standard O corpus utilizado consiste de comentários de notícias sobre as eleições municipais de São Paulo relativos aos meses de setembro e outubro de Após pré-processamento, o corpus foi reduzido a comentários, divididos em sentenças. Deste corpus, foram extraídos dois subconjuntos de dados a serem usados como Gold Standard. Todos os dados foram anotados por três anotadores, em que somente anotações com no mínimo duas concordâncias foram consideradas. Os anotadores foram orientados a basear sua avaliação apenas no conteúdo explicitamente escrito, sem usar julgamento próprio ou conhecimento do domínio político para inferir entendimento. A concordância dos anotadores para polaridade foi 91,81%, e para aspectos, 85,75%. Os datasets 1 e 2 são subconjunto dos comentários sobre eleições municipais de 2012, enquanto que o Dataset3 foi criado para as pesquisas relatas em [Tumitan and Becker 2014], e envolve eleições de A identificação de aspectos foi validada usando o Dataset1. Os datasets 2 e 3 foram utilizadas para treinar e testar os classificadores de opinião. Dataset1: aleatoriamente, foram selecionadas 407 notícias eleitorais do corpus, as quais foram anotadas em relação aos tópicos que evocavam (i.e. saúde ou educação). Dos respectivos comentários, foram selecionadas também aleatoriamente 2072 sentenças, em que cada anotador deveria avaliar se a sentença evocava um dos tópicos, quais candidatos eram explicitamente mencionados, se expressava uma opinião e a respectiva polaridade. Assumiu-se que todo comentário que contivesse pelo menos uma sentença anotada como evocando um dado tópico, por transitividade, também mencionava aquele tópico. 121

6 Dataset2: aleatoriamente foram selecionadas 1071 sentenças de comentários do mesmo corpus, as quais foram anotadas no tocante à polaridade, possuindo 732 sentenças negativas, 180 neutras e 159 positivas. Dataset3: considerando as eleições presidenciais e governamentais de São Paulo de 2010, foram selecionadas aleatoriamente 990 sentenças de comentários extraídos segundo o mesmo processo, que, após anotação quanto à polaridade, resultaram em 356 sentenças negativas, 480 neutras e 154 positivas Identificação de Aspectos A Figura 2 detalha a abordagem utilizada para encontrar os aspectos [Sapiras and Becker 2014], a qual visa identificar os comentários que mencionam determinado aspecto com base em um conjunto de termos representativos do mesmo. Dado um conjunto de notícias sobre um dado aspecto (documentos de domínio), os termos representativos são encontrados com base na co-ocorrência entre termos encontrados nestes documentos (palavras candidatas), e um conjunto de palavras-semente. Figura 2. Processo de identificação de aspectos. No estudo de caso, as palavras-semente foram definidas pelos próprios autores a partir do conhecimento do domínio. Exemplos de palavras-semente para Saúde são hospital, médico e vacinação, e para o aspecto Educação, aula e escola. O processo de identificação dos termos representativos tem início com a extração de documentos específicos do domínio de cada aspecto. Nosso estudo de caso utiliza um corpora de notícias classificadas pelo Jornal Folha de São Paulo para os aspectos saúde e educação. O processo de extração desse corpora resultou em 1000 notícias com o rótulo Educação, e 1000 notícias com o rótulo Saúde. De cada um desses corpora, foram extraídas, usando NLTK, todas as palavras existentes, junto com suas respectivas frequências e classes gramaticais (part-of-speech tags). Stopwords foram eliminadas. Foram consideradas como palavras candidatas apenas os substantivos que apareciam no respectivo corpus (e.g. notícias sobre saúde) e que não apareciam no outro (e.g. notícias sobre educação). Dentre as técnicas de co-ocorrência examinadas, os melhores resultados foram obtidos com EMIM (Expected Mutual Information Measure), detalhada na Equação

7 Dado que x representa uma palavra candidata e y representa uma palavra-semente, a é número de vezes que as palavras x e y co-ocorrem em um documento; b é o número de vezes que x ocorre em um documento e y não ocorre; c é o número de vezes que y ocorre e x não ocorre, e d é o número de vezes que nem x nem y ocorrem um documento. EMIM (x,y) = log 2 a(a + b + c + d) (a + b)(a + c) (1) Um termo x é considerado como representativo quando: a) EMIM(x, y) > 0, e b) x e y co-ocorrem em, no mínimo, 10 documentos do domínio, em que estes limites foram fixados empiricamente. Em nossos experimentos, melhor detalhados em [Sapiras and Becker 2014], obtivemos 73,83% de precisão, 79,8% de revocação e 76,7% de F-score para o aspecto Saúde. Já para o aspecto Educação, obtivemos 70,54% de precisão, 80,53% de revocação e 75,21% de F-score. Também experimentamos as técnicas LSI e Phi-squared, mas essas apresentaram resultados inferiores Polarização de Opinião Usamos a experiência desenvolvida em [Tumitan and Becker 2014] para polarizar as sentenças, com a diferença de que consideramos três classes: positivo, neutro e negativo. Optamos por utilizar apenas técnicas de aprendizagem de máquina, testando diferentes classificadores no WEKA [Hall et al. 2009]. Os melhores resultados foram obtidos usando o algoritmo SMO para treinar um classificador Support Vector Machine (SVM). Para preparação de features, utilizamos unigramas, representação de pesos usando TF-IDF e seleção de atributos utilizando a técnica BestFirst. Testamos várias outras preparações (e.g. n-gramas, stopwords, representação binária e frequência, outras funções de seleção), mas os resultados foram inferiores e não são descritos aqui. A Tabela 1 apresenta os resultados usando Precisão, Revocação, Medida-F e a respectiva média ponderada. Foram feitos dois experimentos: com validação cruzada, e com conjuntos de treino e teste distintos. Na abordagem SVM (Cross-validation), mesclamos os datasets 2 e 3, e verificamos o desempenho do classificador utilizando validação cruzada com 10 folds. Já na segunda abordagem, utilizamos o Dataset3 como conjunto de treinamento e o Dataset2 como conjunto de teste. Os resultados são animadores quanto à precisão, mas com baixa revocação para algumas classes, em particular a neutra. O pior desempenho da segunda abordagem é devido a overfiting, já que termos distintos foram usados em cada eleição. Por exemplo, nas eleições de 2010 existiam várias referências às primeiras candidatas à presidência (e.g. guerreira, presidenta ), enquanto que, em 2012, foram evocados feitos passados dos candidatos e os escândalos de seus partidos. Tabela 1. Resultados da polarização das sentenças com Precisão (P), Revocação (R), F-score (F), respectivas médias ponderadas (WP, WR, WF) e Acurácia (A). Abordagem Polaridade P(%) R(%) F(%) WP(%) WR(%) WF(%) A(%) Positivo 86,6 51,9 64,9 SVM (Cross-validation) Neutro 93,7 26,8 41,7 83,9 82,5 79,5 82,46 Negativo 81,6 98,5 89,3 Positivo 76,2 48,4 59,2 SVM (Com conjunto de teste) Neutro 92,5 20,6 33,6 79,3 77,3 73,2 77,31 Negativo 76,8 97,5 85,9 123

8 Os melhores resultados foram obtidos para a classe negativa, já que há um número muito maior de sentenças negativas, quando comparado às demais classes. No futuro, reavaliaremos os resultados com classes mais equilibradas. A sumarização dos resultados descrita na próxima seção utiliza SVM com validação cruzada, pois foi a que apresentou o melhor desempenho Sumarização O modelo visual de sumarização adotado, exemplificado nas Figuras 3 e 4, é semelhante ao apresentado em [Castellanos et al. 2011]. Através dele, é possível visualizar a percepção da população sobre cada candidato em geral, os aspectos analisados em particular, bem como os termos mais comentados em cada tópico. Figura 3. Modelo visual de sumarização de opiniões. A opinião sobre cada candidato é sumarizada usando o número absoluto e percentual de comentários positivos, negativos ou neutros. O mesmo é feito especificamente para cada aspecto. Os resultados mostrados na Figura 3 correspondem à aplicação da abordagem proposta no corpus completo (i.e comentários). Agregamos as opiniões por comentários para representar pessoas emitindo opiniões. O uso de sentenças, como em [Tumitan and Becker 2014], provocaria distorções nos resultados, e.g. um comentário com diversas sentenças negativas teria mais peso que um comentário com uma única sentença positiva. Classificamos um comentário c k C como positivo em relação a uma entidade e j, se contiver mais sentenças positivas sp i P relacionadas a c k que mencionem e j, do que negativas. Caso o número de sentenças negativas seja superior, o comentário é classificado como negativo, se não, ele é neutro. Note-se que o mesmo comentário pode ser contabilizado para mais de um candidato, caso expresse opiniões sobre múltiplos candidatos. Neste caso, são contabilizadas as sentenças referentes a cada candidato. A mesma lógica foi aplicada na sumarização dos comentários por aspecto. Com base na sumarização apresentada na Figura 3, concluímos que os leitores expressam um número substancialmente maior de opiniões negativas, tanto para os candidatos em geral, quanto para seus aspectos. Observamos também que, apesar de existir 124

9 uma grande quantidade de comentários com opinião sobre os candidatos, a proporção em relação ao total de comentários foi relativamente baixa (51%). Além disso, a quantidade de opinião da população sobre os aspectos analisados (saúde e educação) também foi baixa. Isso está relacionado ao fato de que o conteúdo dos comentários apresenta opiniões sobre outros aspectos (e.g. corrupção) ou opiniões diretas aos candidatos. Considerando que dois candidatos haviam sido ex-ministros de educação e saúde, é interessante interpretar os comentários por aspecto. Os leitores têm uma percepção mais positiva sobre educação do ex-ministro da saúde do que o ex-ministro da educação sobre educação. A nuvem de palavras (Figura 4) mostra os termos representativos para cada aspecto, em que o tamanho das palavras está relacionado à frequência de ocorrência de tais termos nos comentários. (a) Saúde (b) Educação Figura 4. Nuvem de palavras para termos representativos de cada aspecto. 4. Conclusões Este artigo apresentou uma proposta de mineração de opinião pública em nível de aspecto para entidades eleitorais, considerando uma fonte de opinião fracamente estruturada. Desenvolvemos um estudo de caso completo, no qual, identificamos, classificamos e sumarizamos a percepção dos leitores de um jornal sobre os aspectos saúde e educação de candidatos, baseado em seus comentários. Em nosso conhecimento, trata-se de um trabalho pioneiro de mineração de opiniões em nível de aspecto fora do contexto de revisões de produtos. No estudo de caso, foi possível observar que apesar de existir uma grande quantidade de opiniões em relação aos candidatos, a quantidade em relação aos aspectos analisados é pequena. Isso se deve ao fato da população apresentar opiniões sobre outras dimensões destes candidatos. Este trabalho apresenta limitações, que serão tratadas em trabalhos futuros, tais como a extensão do estudo de caso para outros aspectos, o uso de corpus balanceado para classificação de opiniões, o tratamento de opiniões irregulares e implícitas e a identificação automática das entidades eleitorais nos comentários. Também é importante a identificação automática de aspectos. Para resolver o problema de uma sentença expressar opiniões sobre vários candidatos (e.g. X é horrível, votarei em Y ), a solução seria polarizar a opinião em nível de cláusulas. Pretendemos também aplicar nossa abordagem para as eleições presidenciais de 2014 e utilizar outros meios além de comentários de notícias, tais como posts em redes sociais. Referências Balahur, A., Steinberger, R., Kabadjov, M., Zavarella, V., Van Der Goot, E., Halkia, M., Pouliquen, B., and Belyaeva, J. (2010). Sentiment analysis in the news. In Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC), volume 10, page

10 Castellanos, M., Dayal, U., Hsu, M., Ghosh, R., Dekhil, M., Lu, Y., Zhang, L., and Schreiman, M. (2011). Lci: a social channel analysis platform for live customer intelligence. In Proceedings of the 2011 ACM SIGMOD International Conference on Management of data, SIGMOD 11, pages , New York, NY, USA. ACM. Guo, H., Zhu, H., Guo, Z., Zhang, X., and Su, Z. (2009). Product feature categorization with multilevel latent semantic association. In Proceedings of the 18th ACM Conference on Information and Knowledge Management, CIKM 09, pages , New York, NY, USA. ACM. Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I. H. (2009). The weka data mining software: an update. ACM SIGKDD Explorations Newsletter, 11(1): Hu, M. and Liu, B. (2004). Mining and summarizing customer reviews. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD 04, pages , New York, NY, USA. ACM. Liu, B. (2012). Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers. Liu, Q., Gao, Z., Liu, B., and Zhang, Y. (2013). A logic programming approach to aspect extraction in opinion mining. In Proceedings of the 2013 IEEE/WIC/ACM International Conferences on Web Intelligence, pages O Connor, B., Balasubramanyan, R., Routledge, B. R., and Smith, N. A. (2010). From tweets to polls: Linking text sentiment to public opinion time series. ICWSM, 11: Pang, B. and Lee, L. (2008). Opinion mining and sentiment analysis. Found. Trends Inf. Retr., 2(1-2): Qiu, G., Liu, B., Bu, J., and Chen, C. (2011). Opinion word expansion and target extraction through double propagation. Computational Linguistics, 37(1):9 27. Sapiras, L. and Becker, K. (2014). Identificação de aspectos de candidatos eleitorais em comentários de notícias. In Anais do III Brazilian Workshop on Social Network Analysis and Mining - BraSNAM Tsytsarau, M. and Palpanas, T. (2012). Survey on mining subjective data on the web. Data Min. Knowl. Discov., 24(3): Tumasjan, A., Sprenger, T. O., Sandner, P. G., and Welpe, I. M. (2010). Predicting elections with twitter: What 140 characters reveal about political sentiment. In ICWSM 10. Tumitan, D. and Becker, K. (2013). Tracking Sentiment Evolution on User-Generated Content: A Case Study on the Brazilian Political Scene. In Anais do XXVIII Simpósion Brasileiro de Banco de Dados, pages Tumitan, D. and Becker, K. (2014). Sentiment-based features for predicting election polls: a case study on the brazilian scenario. In Proceedings of the 2014 IEEE/WIC/ACM International Conferences on Web Intelligence, page 8p. IEEE Computer Society. 126