Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos



Documentos relacionados
textos documentos semi-estruturado

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Laboratório de Mídias Sociais

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS

Data, Text and Web Mining

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Uma Análise de Comentários Sobre Produtos e Empresas, Usando o Corpus do Reclame Aqui

Nathalie Portugal Vargas

Pré processamento de dados II. Mineração de Dados 2012

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

ADM041 / EPR806 Sistemas de Informação

GARANTIA DA QUALIDADE DE SOFTWARE

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

6 Modelo proposto: projeto de serviços dos sites de compras coletivas

Correlação Canônica. Outubro / Versão preliminar. Fabio Vessoni. fabio@mv2.com.br (011) MV2 Sistemas de Informação

Mineração de Opinião / Análise de Sentimentos

5 Extraindo listas de produtos em sites de comércio eletrônico

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Prof. Dr. Guanis de Barros Vilela Junior

Dadas a base e a altura de um triangulo, determinar sua área.

Imagem de Tipos de Carnes do Ponto de Vista do Consumidor

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Este trabalho tem como objetivo propor um modelo multicritério para a priorização dos modos de falha indicados a partir de uma aplicação do processo

Descoberta de Domínio Conceitual de Páginas Web

A Descrição do Produto ou Serviço e a Análise do Mercado e dos Competidores Fabiano Marques

Implementação de um ambiente de controle e gerenciamento de quotas (espaço em disco) em um Servidor de Arquivos em Linux no Pólo de Touros

11 de maio de Análise do uso dos Resultados _ Proposta Técnica

PIM I e II Projeto Integrado Multidisciplinar

Estudos de Imagem e Notoriedade

5 A Utilização da Técnica do Espaço Nulo e dos Atributos Baseados na Escolha de Coeficientes de Autocorrelações

Aula 02: Conceitos Fundamentais

Projetos. Universidade Federal do Espírito Santo - UFES. Mestrado em Informática 2004/1. O Projeto. 1. Introdução. 2.

BRINCANDO COM GRÁFICOS E MEDINDO A SORTE

Resumo das Interpretações Oficiais do TC 176 / ISO

Aprendizagem de Máquina

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Otimização de Recuperação de Informação usando Algoritmos Genéticos

Análise de Componente Principais (PCA) Wagner Oliveira de Araujo

3 Modelo Evolucionário para Sustentabilidade Inteligente

Desafio Profissional PÓS-GRADUAÇÃO Gestão de Projetos - Módulo C Prof. Me. Valter Castelhano de Oliveira

(Modelo de) Relatório: 1-Introdução. 2-Materiais e métodos. 3-Análise descritiva dos dados

Engenharia de Software. Parte I. Introdução. Metodologias para o Desenvolvimento de Sistemas DAS


4 Segmentação Algoritmo proposto

Ajuda ao SciEn-Produção O Artigo Científico da Pesquisa Experimental

Reconhecimento de marcas de carros utilizando Inteligência Artificial. André Bonna Claudio Marcelo Basckeira Felipe Villela Lourenço Richard Keller

COLETA DE INFORMAÇÕES E PREVISÃO DE DEMANDA

Regulamento do TCC APRESENTAÇÃO ORAL DE TRABALHOS CIENTÍFICOS. Resolução TCC. Apresentação oral de trabalhos 03/11/2011 FALAR EM PUBLICO É UM DESAFIO?

Metodologia Científica. Metodologia Científica

Feature-Driven Development

Correlação e Regressão Linear

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

Inteligência Computacional Aplicada a Engenharia de Software

CAPÍTULO 5 CONCLUSÕES, RECOMENDAÇÕES E LIMITAÇÕES. 1. Conclusões e Recomendações

Filosofia e Conceitos

Uma Heurística para o Problema de Redução de Padrões de Corte


NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária

Instrumentos Econômicos e Financeiros para GIRH. Métodos de valoração de água e instrumentos econômicos

Rede de Elementos Caóticos Acoplados Globalmente

no SRM do que no CRM está na obtenção da certificação de qualidade ISO Para que o Fabricante de Cilindros mantenha o referido certificado de

Comunicação Social. Planejamento de Marketing. Análise SWOT

Como fazer pesquisa de mercado? MARCO ANTONIO LIMA

FMEA - Análise do Tipo e Efeito de Falha. José Carlos de Toledo Daniel Capaldo Amaral GEPEQ Grupo de Estudos e Pesquisa em Qualidade DEP - UFSCar

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

6 Construção de Cenários

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO UNIVERSITÁRIO NORTE DO ESPÍRITO SANTO DISCIPLINA: ECONOMIA DA ENGENHARIA

Katia Luciana Sales Ribeiro Keila de Souza Almeida José Nailton Silveira de Pinho. Resenha: Marx (Um Toque de Clássicos)

Extração de Conhecimento & Mineração de Dados

Pesquisa com Professores de Escolas e com Alunos da Graduação em Matemática

Boletim de Guia para os Pais das Escolas Públicas Elementar de Central Falls

Cálculo de volume de objetos utilizando câmeras RGB-D

PROJETO DE PESQUISA SOBRE A UTILIZAÇÃO DE AMBIENTES VIRTUAIS DE APRENDIZAGEM COMO APOIO AO ENSINO SUPERIOR EM IES DO ESTADO DE SÃO PAULO

Otimização de Funções Não Lineares por Meio do Algoritmo Árvore da Montanha

Perfil de Produção Bibliográfica dos Programas Brasileiros de Pós-Graduação em Ciência da Computação

COMO AVALIAR UM ARTIGO CIENTÍFICO

3 Metodologia de Previsão de Padrões de Falha

Gerenciamento de Riscos do Projeto Eventos Adversos

25/05/2015. Relevance Feedback. Expansão de Consulta. Relevance Feedback

CURSO ADMINISTRAÇÃO PROJETO INTEGRADOR TURMAS: AG03TA-AG03NA-AG04NA-AG05NA AG06NA-AG07TA-AG07NA

Estrutura do Trabalho: Fazer um resumo descrevendo o que será visto em cada capítulo do trabalho.

CAPÍTULO 2. DEMONSTRAÇÕES FINANCEIRAS, IMPOSTOS, e FLUXO DE CAIXA. CONCEITOS PARA REVISÃO

Atividade: COBIT : Entendendo seus principais fundamentos

COMO CONTRATAR UM CONSTRUTOR. web. telefone

Big Data. Como utilizar melhor e mais rápido seus dados e informações utilizando metodologias e tecnologias GED/ECM

Banco de Dados - Senado

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS CURSO DE PSICOLOGIA UNIDADE SÃO GABRIEL

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

Revista Brasileira de Farmacognosia Sociedade Brasileira de Farmacognosia

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

GUIA DE REDAÇÃO PARA TRABALHO DE EM974

Transcrição:

Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos Wilson Pires Gavião Neto 1, Sidnei Renato Silveira 1 1 Sistemas de Informação: Ciência e Tecnologia Aplicadas Centro Universitário Ritter dos Reis wgaviao@gmail.com, sidnei@uniritter.edu.br Resumo. Este trabalho insere-se em um projeto cujo objetivo é tirar proveito de avaliações numéricas de ítens de produtos para melhorar a detecção de padrões em opiniões expressas textualmente. Especificamente apresenta-se uma variação de Análise da Semântica Latente que busca contemplar objetivos de detecção de padrões em um conjunto de opiniões de consumidores. Resultados preliminares revelam um grande potencial neste sentido. 1. Introdução Facilidades e segurança são alguns dos motivos que levam ao grande crescimento do comércio eletrônico nos últimos anos. Como forma de fidelizar clientes, as empresas buscam constantemente proporcionar melhorares experiências de compra aos consumidores bem como aumentar sua satisfação com os produtos adquiridos. Neste contexto, já é uma prática comum na internet a oferta de serviços que possibilitam aos consumidores expressarem suas opiniões sobre produtos comprados. Com mais e mais usuários tornando-se confortáveis com a Web, uma quantidade crescente de pessoas está postando seus comentários online. Como resultado, o número de comentários/críticas que um produto recebe cresce rapidamente. Produtos mais populares podem receber centenas de comentários, como pode-se verificar em sites como www.amazon.com. Além disso, muitos dos comentários postados constituem-se em textos longos com poucas frases contendo opiniões sobre o produto. Neste contexto, torna-se difícil para um potencial consumidor ler e formar uma decisão sobre qual produto comprar. Pelo lado da empresa, também torna-se difícil o monitoramento de opiniões postadas pelos consumidores de seus produtos. O cenário descrito acima constitui-se em uma das motivações para o surgimento de uma linha de estudos conhecida como mineração de opiniões (HU; LIU, 2004). Três campos de pesquisa predominam na área de mineração de opiniões (BODENDORF; KAISER, 2010): Orientação da opinião ou análise do sentimento: A partir de um conjunto de documentos, a análise de sentimento procura classificá-los de acordo com a orientação das opiniões, como por exemplo, opiniões negativas e positivas (TURNEY, 2002; PANG; LEE, 2008).

Mineração baseada em atributos de produtos: Esta linha de estudo considera opiniões sobre característica/itens de produtos/objetos em sentenças (POPESCU; ETZIONI, 2005). Mineração de opiniões comparativas: Neste contexto, busca-se desenvolver métodos para identificar sentenças comparativas em opiniões sobre produtos/objetos bem como a preferência expressa no texto (GANA- PATHIBHOTLA; LIU, 2008). Este trabalho insere-se em um projeto cujo objetivo é tirar proveito de avaliações numéricas de ítens de produtos para melhorar a detecção de padrões em opiniões expressas textualmente. A Figura 1 mostra um exemplo de um site em que proprietários de automóveis expressam opiniões textuais sobre seus carros, associando, ainda, notas para ítens predeterminados dos veículos. Neste contexto, este artigo discute potencialidades do método de Análise de Semântica Latente (ASL) (DEERWESTER et al., 1990) para propósitos de identificar padrões em um conjunto de depoimentos sobre um produto. Busca-se com isso minimizar o esforço na atividade de analisar todos os depoimentos para se ter uma idéia sobre prós e contras de um produto. Deve-se ainda observar a (razoável) suposição feita pela proposta de sumarização de opiniões deste trabalho: "Características freqüentemente comentadas por consumidores refletem algo relevante sobre o produto". Figura 1. Exemplo de comentários/depoimentos onde consumidores expressam sua opinião não só em termos textuais mas também atribuindo notas a determinados ítens do produto. Especificamente, trata-se do site Carros na Web (http://www.carrosnaweb.com.br/opiniao.asp), onde proprietários de veículos relatam suas experiências. O restante deste artigo está organizado como segue. A seção 2 apresenta conceitos que fundamentam a ASL. Na seção 3 discute-se a ASL para propósitos de mineração de opiniões. A seção 4 apresenta o setup dos experimentos realizados além de resultados preliminares. Por fim, a seção 5 apresenta conclusões parciais e trabalhos futuros

2. Análise de Semântica Latente - ASL Considere o problema onde um usuário deseja recuperar documentos/textos em bases conceituais, sendo que palavras individuais não provêem evidências confiáveis sobre os tópicos discutidos nos documento. Usualmente há várias maneiras de expressar em palavras um dado conceito. Deste modo, termos literais presentes em uma consulta de usuário pode não retornar documentos relevantes. Adicionalmente, a maioria das palavras possuem múltiplos significados, fazendo com que termos em uma consulta permitam, de fato, que documentos não relevantes sejam recuperados. O técnica de Análise de Semântica Latente explora a relação existente entre termos e os textos nos quais eles aparecem para construir um espaço vetorial onde similaridades de significado podem ser estabelecidas. Este novo espaço é conhecido como Espaço Conceito ou Espaço Semântico (DEERWESTER et al., 1990), sendo que a proximidade entre significados é proporcional ao ângulo entre vetores neste espaço (BERRY; DRMAC; JESSUP, 1999). Basicamente, a ASL consiste na construção de uma matriz A que informa a co-ocorrência de termos e documentos (termos documentos). Após, a matriz A é decomposta algebricamente segundo a decomposição em valores singulares (SVD) como forma de aproximar a matriz A por combinações lineares (BERRY; DRMAC; JESSUP, 1999). Formalmente, seja A uma matriz onde o elemento (i, j) descreve a ocorrência do termo i no documento j (por exemplo, a freqüência de i em j). Se A tem dimensões m n, onde m é o número de termos e n é a quantidade de documentos, a SVD de A é definida como: A = UDV T (1) Onde U = [u ij ] é uma matriz ortonormal m m cujas colunas são chamadas de vetores singulares a esquerda; D = diag(σ 1, σ 2,..., σ n ) é uma matriz diagonal m n cujos elementos são chamados de valores singulares não negativos, os quais aparecem ordenados de forma decrescente; e V = [v ij ] é uma matriz ortonormal n n cujas colunas são chamadas de vetores singulares a direita. Se posto(a) = k a SVD pode ser interpretada como o mapeamento do espaço de A em um espaço conceito (reduzido) de k dimensões, as quais são linearmente independentes. Ainda que posto(a) seja maior que k, quando seleciona-se apenas os k maiores valores singulares (σ 1, σ 2,..., σ k ) e seus correspondentes vetores singulares em U e V, pode-se obter uma aproximação de posto k para a matriz A (GONG; LIU, 2001). Deste modo, pode-se tratar vetores de termos e documentos como um espaço conceito. Neste novo espaço, os vetores de termos em U tem k entradas, cada um dando a ocorrência do termo i em um dos k conceitos. Da mesma forma, os vetores de documentos em V revelam a relação entre o documento j com cada conceito k. Usualmente formaliza-se o espaço conceito como

A k = U k D k V T k (2) Deste modo, pode-se então verificar em V k o quão relacionados estão dois dados documentos j e l (usualmente utilizando-se a distância de cosenos (BERRY; DRMAC; JESSUP, 1999)), possibilitando a aplicação de técnicas de clustering de documentos no espaço conceito. 3. Análise e Proposições Como apresentado na seção 2, a matriz de termos-documentos A carrega a informação sobre a ocorrência de termos em documentos. Geralmente empregase uma matriz de pesos sobre A de maneira a caracterizar a presença de um termo i em um documento j. Usualmente emprega-se uma matriz de pesos conhecida como TF-IDF ( term frequency - inverse document frequency). Como parte da TF-IDF e com objetivo de medir a importância de um termo i em um documento j, emprega-se a freqüência normalizada de um termo i em j, como segue: T F i,j = # i,j, (3) k # k,j onde, # i,j é a quantidade de ocorrências do termo i no documento j, sendo o denominador a soma das ocorrências de todos os termos no documento j. Neste sentido propõe-se não empregar TF-IDF como matriz de pesos no contexto deste trabalho. Uma vez que trata-se de opiniões expressas por consumidores de forma direta e orientada por ítens predefinidos, é razoável assumir que, uma vez citado, o item já torna-se relevante dentro da opinião, não necessitando aparecer inúmeras vezes dentro do mesmo depoimento para adquirir maior importância. Além disso, busca-se por padrões em opiniões, sendo assim, se dois consumidores citam os mesmos ítens (dentro de, por exemplo, uma seção de "defeitos apresentados"), é desejável que o sistema retorne seus depoimentos como sendo altamente similares. Conforme discussão acima, uma vez que o termo i aparece no documento j, propõe-se que o elemento correspondente de A, isto é a ij, assuma o valor da importância do termo i no contexto de todos os depoimentos. Assim, empregase nos experimentos apenas a freqüência do termo i considerando todos os n depoimentos: nj=0 # i,j T O i,j =. (4) n 4. Experimentos e resultados preliminares Os dados utilizados nestes experimentos são oriundos de 603 opiniões de proprietários de automóveis extraídas do site Carros na Web (www.carrosnaweb.com.br/opiniao.asp). As opiniões estão dispostas na web como mostrado na Figura 1, sendo que utilizou-se apenas o conteúdo das tags "Contras"e "Defeitos apresentados".

Figura 2. Termos extraídos das tags "Contras"e "Defeitos apresentados"para 603 opiniões do site Carros na Web (www.carrosnaweb.com.br/opiniao.asp). Termos maiores são mais freqüentes. Com o objetivo de preparação dos dados (por exemplo, remover sufixos de termos) empregou-se o algoritmo proposto em (ORENGO; HUYCK, 2001). A Figura 2 ilustra graficamente o conjunto de termos extraído das 603 opiniões, onde o tamanho dos termos é proporcional a quantidade de vezes que estes são mencionados. Figura 3. Para um espaço conceito gerado de k = 18 dimensões, verifica-se a clara presença de estruturas de clusters de documentos para as dimensões conceito 2,3 e 4. Considerando uma quantidade de dimensões k = 18 conceitos para a aproximação da matriz A via SVD, ilustra-se na Figura 3 o espaço conceito gerado de documentos V, considerando as dimensões conceito 2,3 e 4. Pode-se verificar a presença de clusters de documentos, evidenciando a existência de padrões nas opiniões.

Dentro de um mesmo cluster verificou-se a presença de opiniões como as que seguem: Opinião 1: "apesar de previsível, o consumo no início assusta um pouco. por ser automático leva um certo tempo para encontrar a pressão ideal no pedal. nos primeiros meses, cheguei a fazer 5,5 km/l, agora, já acostumado e conhecendo o carro, na cidade faço 7,8 a 8 km/loutro ponto fraco é o preço das peças." Opinião 2: "bebe que só um alcoólatra. podem ver. o megane 2.0 16v é mais econômico q ele. vc economiza na compra, mas gasta o mês inteiro com ele bebendo." Verifica-se acima um grande potencial da metodologia ASL, tendo vista que as opiniões acima possuem poucos termos em comum mas tratam sobre consumo de combustível, e foram agrupadas no mesmo cluster. 5. Conclusões e trabalhos futuros Apresentou-se neste trabalho uma variação da abordagem de Análise da Semântica Latente com vistas a detectar padrões em opiniões de consumidores sobre ítens de produtos. De acordo com os, ainda preliminares, experimentos realizados, verificou-se um grande potencial da abordagem discutida, uma vez que constatou-se claras estruturas de cluster (potenciais padrões) bem como uma surpreendente habilidade de agrupar opiniões com raros termos em comum, mas que discutem o mesmo tópico. Como trabalhos futuros, experimentos mais detalhados serão realizados no sentido de validar as limitações da abordagem proposta. Referências BERRY, M. W.; DRMAC, Z.; JESSUP, E. R. Matrices, Vector Spaces, and Information Retrieval. SIAM Rev., Philadelphia, PA, USA, v.41, n.2, p.335 362, 1999. BODENDORF, F.; KAISER, C. Mining Customer Opinions on the Internet - A Case Study in the Automotive Industry. International Workshop on Knowledge Discovery and Data Mining, Los Alamitos, CA, USA, v.0, p.24 27, 2010. DEERWESTER, S. et al. Indexing by latent semantic analysis. JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE, [S.l.], v.41, n.6, p.391 407, 1990. GANAPATHIBHOTLA, M.; LIU, B. Mining opinions in comparative sentences. In: COLING 08: PROCEEDINGS OF THE 22ND INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS, Morristown, NJ, USA. Anais... Association for Computational Linguistics, 2008. p.241 248. GONG, Y.; LIU, X. Creating Generic Text Summaries. Document Analysis and Recognition, International Conference on, Los Alamitos, CA, USA, v.0,

p.0903, 2001. HU, M.; LIU, B. Mining and summarizing customer reviews. In: ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, New York, NY, USA. Proceedings... ACM, 2004. p.168 177. ORENGO, V.; HUYCK, C. A Stemming Algorithmm for the Portuguese Language. String Processing and Information Retrieval, International Symposium on, Los Alamitos, CA, USA, v.0, p.0186, 2001. PANG, B.; LEE, L. Opinion Mining and Sentiment Analysis. Found. Trends Inf. Retr., Hanover, MA, USA, v.2, n.1-2, p.1 135, 2008. POPESCU, A.-M.; ETZIONI, O. Extracting product features and opinions from reviews. In: HUMAN LANGUAGE TECHNOLOGY AND EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, Morristown, NJ, USA. Proceedings... Association for Computational Linguistics, 2005. p.339 346. TURNEY, P. D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. In: ANNUAL MEETING ON ASSOCIA- TION FOR COMPUTATIONAL LINGUISTICS, 40., Morristown, NJ, USA. Proceedings... Association for Computational Linguistics, 2002. p.417 424.