2 Sentiment Analysis 2.1

Documentos relacionados
Política de Gestão Estratégica de Riscos e Controles Internos CELESC

Curso de Desenvolvimento de Negócios Sociais e Inclusivos

Prof. Daniela Barreiro Claro

ALTERAÇÕES NA SATISFAÇÃO DA IMAGEM CORPORAL A PARTIR DA INTERVENÇÃO COGNITIVO-COMPORTAMENTAL EM UM PROGRAMA DE REEDUCAÇÃO ALIMENTAR MULTIDISCIPLINAR.

Título do Case: Categoria: Temática: Resumo: Introdução:

BUSCA DE FIDELIZACÃO DOS CLIENTES ATRAVES DA QUALIDADE NO ATENDIMENTO

Accountable Marketing Porque Educação Executiva Insper Cursos de Curta e Média Duração Educação Executiva

RELATÓRIO FINAL - INDICADORES - DOCENTES ENGENHARIA AMBIENTAL EAD

Modelagem de Sistemas Web. Metodologias para o desenvolvimento de sistemas web

INTRODUÇÃO DEFINIÇÕES DE CIÊNCIA CIÊNCIA DEFINIÇÕES DE CIÊNCIA METODOLOGIA DA PESQUISA APLICADA À CONTABILIDADE

MODELAGENS. Modelagem Estratégica


MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/ / 25

Política de Responsabilidade Socioambiental - (PRSA) Política de Responsabilidade Socioambiental (PRSA).

O POTENCIAL DE INOVAÇÃO E A QUESTÃO DA PROPRIEDADE INTELECTUAL NAS INDÚSTRIAS DA REGIÃO NOROESTE DO RS 1

Impactos da redução dos investimentos do setor de óleo e gás no PIB

Métricas de Software

do reconhecimento de expressões faciais. Outras abordagens teóricas

São Paulo, 17 de Agosto de 2012

PLANEJAMENTO ESTRATÉGICO

Estudo sobre a dependência espacial da dengue em Salvador no ano de 2002: Uma aplicação do Índice de Moran

A dependência entre a inflação cabo-verdiana e a portuguesa: uma abordagem de copulas.

Auditoria de Meio Ambiente da SAE/DS sobre CCSA

Tecnologias aplicadas à Inteligência Empresarial e Inteligência Competitiva e o Brasil?

#PESQUISA CONEXÃO ABAP/RS E O MERCADO PUBLICITÁRIO GAÚCHO NOVEMBRO DE 2015

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini prof.andre.luis.belini@gmail.com /

PLANO DA QUALIDADE (MAPEAMENTO DOS ELEMENTOS DO PROCESSO)

Gestão da Qualidade Total para a Sustentabilidade 2013

PRÓ-REITORIA DE PESQUISA E INOVAÇÃO DO IFRN INCUBADORA TECNOLÓGICA NATAL CENTRAL

ENGENHARIA DE SOFTWARE

Adaptação com Base na Comunidade Lista de Controlo do Plano de Implementação do Projecto

Data Envelopment Analysis in the Sustainability Context - a Study of Brazilian Electricity Sector by Using Global Reporting Initiative Indicators

Marcus Araújo e Rosinda Ramos

CONSELHO MUNICIPAL DE POLITICAS SOBRE DROGAS - COMAD REGULAMENTO

Fluxo de caixa, valor presente líquido e taxa interna de retorno 1

1.1. Caracterização do Problema. Capítulo 1. Introdução 20

ANEXO 6 Análise de Antropismo nas Unidades de Manejo Florestal

Engenharia de Software II

Implementação de um serviço de correio eletrônico na Intranet do Pólo de Touros utilizando o ambiente SQUIRELMAIL e POSTFIX em um Servidor Linux

Divulgação de Resultados 1T16

Modelagem simultânea do óptico e raios X de CP Tuc

Rodrigo Leandro de Moura Gabriel Leal de Barros

A pesquisa é uma atividade voltada para a solução de problemas teóricos ou práticos com o emprego de processos científicos.

Teoria dos Grafos. Valeriano A. de Oliveira Socorro Rangel Departamento de Matemática Aplicada.

NABARRETE, Tatiane Souza 1 <fabrimana@gmail.com> BARELLA, Lauriano Antonio² <barella28@hotmail.com> 1 INTRODUÇÃO

Relatório do Curso de Atuação Parlamentar e Diversidade Cultural

A GESTÃO DA INFORMAÇÃO NO VAREJO 1

PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR. Prof. Angelo Augusto Frozza, M.Sc.

PRÊMIO SER HUMANO ABRH/MA REGULAMENTO 2016 MODALIDADE: GESTÃO DE PESSOAS / ORGANIZAÇÃO

2 Workshop processamento de artigos em serviços de saúde Recolhimento de artigos esterilizados: é possível evitar?

DIMENSÕES DE PESQUISA EM ENGENHARIA DE SOFTWARE

Informação Prova de Equivalência à Frequência Agrupamento de Escolas de ANTÓNIO NOBRE. DISCIPLINA: Inglês CÓDIGO DA PROVA: 358

ESTRUTURA DO CURSO 08:00-10:00 RTQ-R

Inglês Prova º Ciclo do Ensino Básico (Decreto-Lei nº17/2016, de 4 de abril) 1. Introdução. 2. Objeto de avaliação

3º Ano do Ensino Médio. Aula nº06

Lucratividade: Crescer, Sobreviver ou Morrer

AGRUPAMENTO DE ESCOLAS DE PÓVOA DE LANHOSO

CPGP 2016 CONGRESSO PARANAENSE DE GERENCIAMENTO DE PROJETOS CHAMADA DE TRABALHOS

RELATÓRIO SIMPLIFICADO FINAL PSICOLOGIA GENÉTICA DE JEAN PIAGET 2ª UNIDADE. Instrução Geral ao Relatório:

XML - Extensible Markup Language

PORTARIA N Nº 178 Rio de Janeiro, 25 de outubro de 2012.

DIRETORIA DE PESQUISA - DPE COORDENAÇÃO DE CONTAS NACIONAIS CONAC. Sistema de Contas Nacionais - Brasil Referência 2000

ALTERNATIVAS PENAIS E REDE SOCIAL

Análise espacial do prêmio médio do seguro de automóvel em Minas Gerais

Métodos Formais. Agenda. Relações Binárias Relações e Banco de Dados Operações nas Relações Resumo Relações Funções. Relações e Funções

Avaliação de Interfaces Humano- Computador

Faculdade de Medicina Veterinária e Zootecnia. desenvolvimento da marca

ESTADO DA PARAÍBA SECRETARIA DE ESTADO DA SAÚDE EDITAL Nº. 02 /2015/SES/CEFOR-PB

Insight for a better planet SOLUÇÕES EM PLANEJAMENTO, AGENDAMENTO E OTIMIZAÇÃO FLORESTAL

3 METODOLOGIA 3.1 TIPO DE PESQUISA

A empresa quantifica aspectos socioambientais nas projeções financeiras de:

Estimativas de Arrecadação de Impostos Próprios Estaduais e Municipais, Transferências Constitucionais e os 25% Constitucionais da Educação

MANUAL DO AVALIADOR O que é uma Feira de Ciência? Por que avaliar os trabalhos? Como os avaliadores devem proceder?

Curso de Formação de Oficiais Conhecimentos Específicos ENGENHARIA DE COMPUTAÇÃO CADERNO DE QUESTÕES

Entropia, Entropia Relativa

Aula 8 21/09/ Microeconomia. Demanda Individual e Demanda de Mercado. Bibliografia: PINDYCK (2007) Capítulo 4

... 5) também não consigo compreender porque muita gente mete o pau no delphi sem conhece-lo de verdade

REGULAMENTO DA POLÍTICA DE MANUTENÇÃO E GUARDA DO ACERVO ACADÊMICO DA ESCOLA DE DIREITO DE BRASÍLIA EDB

Tratamento e Análise de Dados e Informações (TADI)

POLÍTICA DE INVESTIMENTOS DA BRASKEM

UNIVERSIDADE ESTADUAL DO CENTRO-OESTE - UNICENTRO CURSO DE PÓS GRADUAÇÃO EM MÍDIAS NA EDUCAÇÃO JULIANA LEME MOURÃO ORIENTADOR: PAULO GUILHERMETI

LFG MAPS. 2 - ( Prova: CESPE Polícia Federal - Agente da Polícia Federal / Contabilidade Geral / Contabilidade -

UTILIZAÇÃO DE RECURSOS AVANÇADOS DO EXCEL EM FINANÇAS (PARTE III): GERENCIAMENTO DE CENÁRIOS

Redação Publicitária reflexões sobre teoria e prática 1

Respostas dos alunos sobre o curso

2 Segmentação de imagens e Componentes conexas

[De]Codificando a Comunicação de uma Organização Criativa: Um Estudo de Caso no CESAR

2 Conceitos Básicos. onde essa matriz expressa a aproximação linear local do campo. Definição 2.2 O campo vetorial v gera um fluxo φ : U R 2 R

VALE RIO DOCE S/A. No resultado de 2013 a receita líquida da companhia tinha a seguinte divisão:

PRINCIPAIS FATORES DE ANÁLISES. INVESTIMENTOS e RISCOS

Sistema de Gestão Avícola SYSAVES. O sistema SYSAVES controla todo o processo, desde a saída dos

1 Introdução Objeto do estudo e o problema de pesquisa

Minuta de Instrução Normativa

Política de Responsabilidade Socioambiental (PRSA)

EDITAL 01/2013 COOPERCUC

ESTUDO DE VIABILIDADE TÉCNICA, ECONÔMICA E AMBIENTAL DE PROJETOS DE TRANSPORTE URBANO COLETIVO

Treinamento sobre Progress Report.

Transcrição:

2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico (e.g. organizações e seus produtos). Nos últimos anos, é crescente o interesse da comunidade por sentiment analysis onde documentos são classificados pelo sentimento, conotação, atitudes e opiniões ao invés de se restringir aos fatos descritos neste. O principal desafio em sentiment analysis é identificar como sentimentos são expressados em textos e se tais sentimentos indicam uma opinião positiva (favorável) ou negativa (desfavorável) com relação a um tópico. Uma aplicação do problema é inteligência competitiva, onde deseja-se monitorar o que vem sendo publicado na mídia a respeito de concorrentes, como o público reagiu ao lançamento de um produto, ou até mesmo como a imagem da empresa vem evoluindo ao longo das últimas semanas. Tradicionalmente, os setores de marketing realizam pesquisas de mercado com este propósito. Embora Pesquisa de Mercado seja uma área bastante madura e quando bem elaboradas gerem boas estimativas, tendem a ser muito custosas principalmente quando trata-se de grandes volumes de dados (06). Com a explosão de informação disponível na Web num ambiente onde todos tendem a ser geradores de conteúdo e expressarem opiniões sobre os mais variados assuntos, aplicações que consolidam opiniões e geram estatísticas relevantes passam a ter um valor significativo. Obviamente, não faz sentido falar em sentiment analysis na Web se não soubermos onde estão as opiniões. Subjectivity Mining é um problema intimamente relacionado à Sentiment Analysis e consiste justamente em separar trechos de texto que relatam fatos dos trechos de texto que emitem opiniões. Porém, apesar das técnicas de subjectivity mining nos auxiliarem em identificar as entradas para um classificador de sentimento, estas não en-

Capítulo 2. Sentiment Analysis 14 dereçam a tarefa específica de identificar a polaridade de uma opinião. Figura 2.1: Processo de Classificação de Sentimento 2.2 Trabalhos Relacionados Duas principais abordagens vem sendo aplicadas a Sentiment Analysis. A primeira consiste em modelar documentos como sacos-de-palavras e aplicar métodos estatísticos que utilizam as freqüências das palavras para treinar classificadores (19, 13). Esta abordagem baseia-se na teoria estatística de que é possível aprender estruturas complexas de linguagem mesmo que características básicas como a ordem com que as palavras ocorrem sejam ignoradas. A outra abordagem consiste em classificar textos baseado no sentiment orientation de certos termos extraídos através de heurísticas lingüísticas ou de um conjunto de palavras sementes pré-selecionadas (24, 09). Turney apresenta em (24) um algoritmo não supervisionado baseado na orientação semântica de bigramas adjetivais presentes nos textos. Neste trabalho, reporta-se uma precisão média de 74% ao utilizar como conjunto de

Capítulo 2. Sentiment Analysis 15 testes 410 avaliações extraídas do Epinion 1 e utilizar dados amostrais de 4 diferentes domínios (avaliações de automóveis, bancos, filmes e destinos de viagem). A precisão varia de 84% para o domínio de automóveis a 66% para avaliações de filmes sugerindo que este último domínio seja mais desafiador. Turney define a palavra excelent como sendo referência positiva e a palavra poor como referência negativa. A orientação semântica dos bigramas adjetivais é medida como uma relação entre a quantidade de vezes que o bigrama aparece próximo a estas palavras. Esta técnica é considerada não-supervisionada uma vez que não depende de dados rotulados. O benchmark mais usado para avaliar Sentiment Classifiers é o movie review data set disponibilizado por Pang et al. (19). Este corpus foi extraído do IMDb 2 e é composto por 2000 avaliações de filmes (1000 positivas e 1000 negativas). Este corpus é descrito detalhadamente no Capítulo 6. Pang compara o desempenho de 3 técnicas de Aprendizado de Máquina neste conjunto de dados: Naive Bayes, Máxima Entropia e Máquinas de Vetores Suporte (SVM). Nos experimentos, é observado que o classificador Naive Bayes tende a ter o pior desempenho e o classificador SVM o melhor. É constatado também que modelos binários (i.e. aqueles que representam as presenças de características) resultam num melhor desempenho do que os modelos que contabilizam as freqüências. Tal fato é um indicador de que classificação de sentimento requer um tratamento diferenciado de categorização de tópicos. A Tabela (2.1) descreve os resultados reportados em (19). O principal objetivo desta dissertação é examinar se é suficiente tratar classificação de sentimento como um caso especial de categorização de tópico (considerando que os dois tópicos são sentimento positivo e sentimento negativo) ou se métodos específicos para o problema precisam ser desenvolvidos. Adotamos como principais referências (19) e (17) e procuramos reproduzir os principais experimentos reportados nestes trabalhos. 1 www.epinion.com 2 www.imdb.com.br Features #features NB ME SVM unigrams(frequency) 16162 79.0 n/a 73.0 unigrams 16162 81.0 80.2 82.9 unigrams+bigrams 32324 80.7 80.7 82.8 bigrams 16162 77.3 77.5 76.5 unigrams+pos 16668 81.3 80.3 82.0 adjetivos 2631 76.6 77.6 75.3 top 2621 unigrams 2631 80.9 81.3 81.2 unigrmas+position 22407 80.8 79.8 81.8 Tabela 2.1: Resultados reportados em Pang et al. (19)

Capítulo 2. Sentiment Analysis 16 Na Tabela (2.1), NB representa o classicador Naive Bayes, ME o classificador de Máxima Entropia e SVM o classificador Máquinas de Vetores Suporte. unigrams+pos representa o conjunto de dados em que as palavras são rotuladas com suas classes gramaticais (POS = Part of Speech). unigrmas+position é uma representação do documento que leva em consideração o trecho do texto em que a palavra ocorre. O problema de Subjectivity Filtering é abordado em (17) através de um algoritmo de corte mínimo em grafos. Pang reporta uma melhoria de 82.8% para 86.4% no classificador Naive Bayes porém a técnica não surte efeito no classificador SVM. Os melhores resultados até agora obtidos usando o movie review data set são reportados por Matsumoto et al (12). Neste trabalho, os autores apresentam modelagens de features complexas como subseqüência de palavras e árvore de dependência. Neste modelo, todas as subseqüências de uma frase são modeladas como uma característica do texto. Por exemplo, a simples frase de 4 palavras I enjoyed the movie gera as 15 features listadas a seguir: I I enjoyed I the I movie I enjoyed the I enjoyed movie I the movie I enjoyed the movie enjoyed enjoyed the enjoyed movie enjoyed the movie the the movie movie As árvores de dependência semântica entre as palavras são geradas usando um pacote lingüístico. Este trabalho reporta uma precisão de 93.7% sendo este o melhor resultado publicado para movie review data set. Porém,

Capítulo 2. Sentiment Analysis 17 questionamos a escalabilidade deste modelo uma vez que o número de features é exponencial em função do número de palavras nas frases. Whitelaw et al. (26) buscam melhorar o desempenho do classificadores através de uma análise taxonômica das frases e definindo elementos que compõe uma opinião. Neste trabalho demonstram que estas técnicas em conjunto com sacos-de-palavras resulta numa precisão de 90%.