KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS

Transcrição

1 KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS LONDRINA PR 2015

2

3 KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS Versão Preliminar de Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. Orientador: Prof. Dr. Sylvio Barbon Júnior LONDRINA PR 2015

4 Kelvin Ramires Capobianco Avaliação da etapa de pré-processamento na mineração de texto em redes sociais digitais/ Kelvin Ramires Capobianco. Londrina PR, p. : il. (algumas color.) ; 30 cm. Orientador: Prof. Dr. Sylvio Barbon Júnior Universidade Estadual de Londrina, Palavra-chave1. 2. Palavra-chave2. I. Orientador. II. Universidade xxx. III. Faculdade de xxx. IV. Título CDU 02:141:005.7

5 KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS Versão Preliminar de Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. BANCA EXAMINADORA Prof. Dr. Sylvio Barbon Júnior Universidade Estadual de Londrina Orientador Prof. Dr. Segundo Membro da Banca Universidade/Instituição do Segundo Membro da Banca Prof. Dr. Terceiro Membro da Banca Universidade/Instituição do Terceiro Membro da Banca Prof. Ms. Quarto Membro da Banca Universidade/Instituição do Quarto Membro da Banca Londrina PR, 19 de outubro de 2015

6

7 Dedicatoria.

8

9 AGRADECIMENTOS

10

11 Frase efeito

12

13 CAPOBIANCO, K.R.. Avaliação da etapa de pré-processamento na mineração de texto em redes sociais digitais. 40 p. Trabalho de Conclusão de Curso Versão Preliminar (Bacharelado em Ciência da Computação) Universidade Estadual de Londrina, Londrina PR, RESUMO Com o sucesso em popularidade e volume de dados de fácil acesso, as Redes Sociais Digitais, como o Twitter, são alvo de diversos mecanismos de avaliação de conteúdo para a extração de conhecimento, tais como a analise de sentimento. Assim, este trabalho tem como objetivo apresentar um modelo que comprove a importância da fase de préprocessamento e que para cada aplicação existe uma melhor forma de realizar esta fase. Os resultados procuram apresentar uma importante contribuição do modelo e estímulo para mais estudos na área. Palavras-chave: Mineração de Texto. Redes Sociais Digitais. Stemming. Ruído. Préprocessamento

14

15 CAPOBIANCO, K.R.. Evaluation of preprocessing techniques on digital social networks. 40 p. Final Project Draft Version (Bachelor of Science in Computer Science) State University of Londrina, Londrina PR, ABSTRACT With the success in popularity and volume of data easily accessible, the Digital Social Networks like Twitter, are subject to various evaluation mechanisms of content for knowledge extraction, as such as sentiment analysis. This assay aims to present a model to prove the importance of preprocessing techniques and also show that for each kind of application there is a better way to perform it. The results seek to present an important contribution model and stimulus for further studies in the area. Keywords: Text Mining. Digital Social Network. Stemming. Noise. Preprocessing

16

17 LISTA DE ILUSTRAÇÕES Figura 1 As etapas da mineração de texto Figura 2 Especificação do Modelo Figura 3 Síntese dos Experimentos

18

19 LISTA DE TABELAS

20

21 LISTA DE ABREVIATURAS E SIGLAS MT AS PLN RSD Mineração de Texto Análise de Sentimento Processamento de linguagem natural Redes sociais digitais

22

23 SUMÁRIO 1 INTRODUÇÃO Objetivos Organização do Trabalho FUNDAMENTAÇÃO TEÓRICA Conceitos Mineração de Texto Pré-processamento Stopwords Stemming Trabalhos Correlatos Mineração de Texto em redes sociais digitais Análise de sentimento e polarização Pré-processamento, Stemming e remoção de ruído MATERIAIS E MÉTODOS Descrição do Modelo A Base de Dados As Aplicações Pré-processamento Experimentos Testes e Resultados REFERÊNCIAS

24

25 23 1 INTRODUÇÃO Redes sociais digitais são aplicativos com a capacidade de conectar pessoas e organizações com afinidades por diferentes tipos de relações. Neste tipo de ambiente é possível compartilhar qualquer tipo de informação, assim como procurar sobre qualquer tipo de informação. O crescimento e sucesso desse tipo de aplicativo está diretamente ligado ao avanço da internet. Twitter, Facebook e Instagram são alguns exemplos de softwares sociais que atingiram grau elevado de sucesso. Entre eles o Twitter se destaca pela quantidade de usuários e a velocidade com que eles aumentam. Em 2013 o mesmo apresentava cerca de 200 milhões de usuários [1] e atualmente apresenta por volta de 500 milhões, sendo o Brasil o segundo país que mais os possui. 1. Outro ponto de destaque é seu método de funcionamento, que pode ser nomeado de microblogging, isto pois usuários compartilham breves textos (a quantidade máxima permitida é de 140 caracteres), que são acessíveis a qualquer outro que desejar receber informações sobre tal perfil ou procurar pelo assunto abordado. Mídias sociais geram uma grande quantidade de dados, e estes podem ser manipulados e analisados a fim de compreender um pouco mais sobre: sentimento, forma de escrita, opiniões e marketing. Considerando a relevância destas informações faz-se necessária a utilização de uma forma de obtê-la de forma automatizada e quantificada, como a mineração de texto em conjunto com análise de sentimento. A análise de sentimento busca determinar a partir de uma opinião um sentimento, seja ele em relação a uma pessoa, serviço, produto ou mesmo outra opinião. Este é determinado de acordo com a polaridade (positiva ou negativa) da informação analisada. Em AS é comum encontrar trabalhos que procuram utilizar as técnicas para classificar sentimentos do cotidiano e em RSD os usuários tendem a compartilhar cada vez mais sobre o seu dia a dia. Em [2] busca utilizar AS em conjunto com o Twitter para avaliar qual o potencial de informação que esta rede possui. O estudo mostra que mais de 85% dos tweets que são criados estão de alguma forma relacionados a reportagens da televisão ou notícias divulgadas pela mídia. Devido ao compartilhamento em tempo real que a ferramenta fornece é possível então classificar o sentimento de um usuário no momento em que ele recebe a notícia seja ela de qualquer tipo de mídia, portanto este tende a compartilhar suas emoções sem que outros fatores o influenciem. O que intensifica o sentimento expressado. [3] De acordo com [4] a forma que as pessoas pensam sempre foi objeto de grande interesse. Como as plataformas sociais fornecem grande quantidade de dados subjetivos, 1

26 24 quantificando opiniões e sentimentos, o estudo procura mostrar que cada vez mais a quantidade de trabalho que procuram identificar a polaridade e classificar a emoção que um texto possui irão aumentar. Por outro A mineração de texto é a área relacionada ao estudo de grandes volumes de texto. Sua importância se da pois pode ser utilizada em áreas de estudo, tais como saúde e economia. Note que [5] procura utilizar a MT para automaticamente classificar páginas web que falam sobre saúde, visto que com o crescimento da rede é comum aparecer sites falsos que visam enganar um usuário. Em conjunto com a grande quantidade de usuários do Twitter e a frequência que o site é utilizado é possível perceber que a MT pode ser parar reconhecer diversos fatos importantes como: desastres naturais, características de usuários e marketing em geral [6, 7, 8]. Desta forma a quantidade de texto gerada pelas RSD se mostra adequado à utilização destas técnicas, porém, a informalidade linguística apresentada nas redes sociais digitais pode gerar graves problemas. Dentre eles está o ruído, prejudicando a utilização de algoritmos de indexação de texto para classificar a relevância das palavras, e o sarcasmo e ironia, que dificultam a polarização das opiniões gerando resultados não esperados. Existem diversas formas de tentar eliminar o ruído, como a utilização do stemming ou a remoção das stopwords porém é necessário ressaltar que o ruído de uma aplicação para a outra deve mudar. Dentro os passos de MT, a fase de pré-processamento apresenta diversidade elevada de abordagens, isto se da pois existem diferentes técnicas e formas de alcançar o objetivo desta fase, que é transformar a base de dados obtida em uma representação numérica. É possível separar cada um dos termos, calcular a frequência, eliminar o que não é relevante, trabalhar palavras que apresentam o mesmo radical, eliminar sufixos e afixos e outras diversas técnicas, o que torna a etapa de pré-processamento uma das mais difíceis e mais importantes. 1.1 Objetivos O principal objetivo deste trabalho é mostrar que o ruído gerado por RSD é mutável, ou seja, o que não é relevante a uma aplicação pode ser para outra. Desta forma, o mesmo visa aplicar soluções para remover o ruído encontradas na literatura em duas aplicações de MT, pretendendo mostrar que a escolha das técnicas na fase de pré-processamento tem diferentes influências para cada uma delas, tencionando mostrar ainda que esta escolha pode melhorar os resultados obtidos assim como piora-los se for executada de forma não adequada.

27 Organização do Trabalho O capítulo 2 apresenta a fundamentação teórica, o que visa dar o entendimento de conceitos necessários para compreensão deste trabalho, assim como apresentar a gama de trabalhos relacionados ao que esta sendo proposto. O capítulo 3 mostra cada etapa do modelo como a obtenção dos dados, as aplicações que serão utilizadas como base e como serão realizados os testes.

28

29 27 2 FUNDAMENTAÇÃO TEÓRICA 2.1 Conceitos Mineração de Texto Uma abordagem na área de PLN que merece destaque é a mineração de texto. Esta pode ser definida como um conjunto de técnicas para obtenção de informações significativas a partir de um texto, sendo ele não estruturado ou semi-estruturado [9]. Apesar de ser comumente utilizada em textos literários, livros ou em ambientes com elevado nível de formalidade, atualmente estas também estão sendo empregadas em redes sociais digitais. O presente trabalho dará enfoque neste uso. A MT pode ser compreendida como um processo que visa descobrir informações em grande quantidade de texto, por meio da identificação de padrões e relações em dados que se mostram relevantes. Em suma, ela é caracterizada pela interação de um usuário com uma coleção de dados (neste caso, texto) ao longo do tempo, por meio de um conjunto de ferramentas de análise [10]. As aplicações que fazem uso destas técnicas seguem as seguintes etapas: aquisição, pré-processamento, indexação ou transformação, mineração de dados,avaliação. Dado os trabalho [11] e [12] as etapas da MT podem ser descritas da seguinte maneira: Aquisição: é a etapa onde será coletada a base de dados, assim como todas os dados necessários para a aplicação. Por fim ocorre a junção da base com o dados adicionais. Pré-processamento: A etapa de pré-processamento visa preparar o dado para que o mesmo esteja apto a passar pelas próximas etapas. É nesta etapa que ocorre a separação dos termos, a limpeza, a transformação do texto em seu referencial numérico e o calculo da frequência de termos. Esta etapa será vista com mais detalhes na sub-seção abaixo. Transformação: Na etapa de transformação é onde ocorre a seleção e extração de atributos visando gerar a melhor representação dos dados, esta também é a etapa de indexação onde os dados serão agrupados em índices o que ira facilitar a identificação de características, o acesso e recuperação de determinado atributo para um documento. Mineração dos Dados: Também conhecida como etapa de classificação, onde serão aplicados os algoritmos de mineração de dados. Que podem ser dos seguintes tipos:

30 28 de classificação, regressão, segmentação, associação e análise. A escolha do tipo do algoritmo se da de acordo com a necessidade da aplicação. Avaliação e Interpretação: A fase onde o modelo será avaliado a fim de constatar que o mesmo é eficaz. A primeira parte é dada pela avaliação do algoritmo de mineração de dados escolhido. Esta é feita por medidas estatísticas e precisão e confiabilidade[13]. A precisão verifica se o algoritmo é preciso o suficiente para continuar sendo executado, já a confiabilidade vai analisar qual o nível de sucesso que o algoritmo obteve em relação ao seu conjunto de treinamento. Se esses parâmetros não forem satisfeitos é necessário então voltar as etapas anteriores a fim de descobrir o problema. A Figura 1 mostra cada uma das etapas da mineração de texto [11] Figura 1 As etapas da mineração de texto [11]

31 Pré-processamento Em aplicações que utilizam MT a primeira etapa a ser realizada após a aquisição da base de dados é a de pré-processamento, que consiste em trabalhar a grande quantidade de texto obtida para que este se torne mais adequado e gere melhores resultados após a aplicação. Embora não necessariamente siga uma regra, a fase de pré-processamento geralmente é dada pela decomposição do texto em termos e suas frequências. Os termos que são menos significativos podem ser descartados, assim como os que apresentam frequência elevada podem ser desvalorizados. Após o pré-processamento o resultado obtido é chamado de Bag of Words, o que denota uma representação numérica do texto bruto obtido [10]. Toda aplicação que utilize MT necessita de uma base de dados, e ao obtê-la a quantidade bruta destas palavras é chamada de corpus, incluindo repetições. A quantidade total, retirando as repetições, é chamada de léxico. A etapa de pré-processamento interage com o corpus de um texto visando transformá-lo a fim de efetivar a obtenção do léxico. Estas transformações podem ser dadas de acordo com a aplicação, porém existem algumas operações padrões como a remoção de stopwords e o stemming. Em bases de dados é comum que na parte do corpus possa haver texto indesejado, que pode ser chamado de ruído. De uma forma geral, o ruído pode ser compreendido como tudo que interfere de forma negativa na interpretação da informação [14]. Uma etapa de pré-processamento bem realizada pode diminuir a ação do ruído na etapa de classificação e avaliação. Em RSD a quantidade de ruído gerada é aumentada de acordo com a informalidade linguística, que é característica nestas redes. Nota-se que é comum encontrar erros de escrita, palavras abreviadas e emoticons (junção de caracteres para expressar um sentimento), o que em diversas aplicações passa a ser considerado como ruído. Ainda na fase de pré-processamento os termos serão contados de acordo com sua ocorrência no texto, para que após seja feito o cálculo da frequência de cada um. Este cálculo é realizado por meio de algoritmos de indexação de texto, tais como: Term Frequency Inverse Document Frequency (TF-IDF) e Latent Semantic Indexing (LSI) Stopwords As stopwords podem ser definidas como palavras a serem evitadas, portanto deverão ser eliminadas na etapa de pré-processamento [10]. É comum encontrar em listas de stopwords grande quantidade de preposições e conjunções, visto que elas aparecem com grande frequência em textos porém não apresentam grande relevância. Em contrapartida, apesar de também apresentarem grande frequência, os artigos possuem um maior grau

32 30 de relevância, sendo de grande importância em aplicações que analisam sentimento, dessa forma podem ser poupados destas listas. Além disso, é comum a remoção de pontuação, caracteres especiais e links para páginas na internet em conjunto. Apesar da existência de listas de stopwords padrões, as mesmas podem ser definidas de acordo com a aplicação. Nota-se que para cada problema existe uma melhor forma de lidar com estas palavras, por exemplo uma palavra pode ser irrelevante ao problema 1, o que a definiria como stopword, porém extremamente necessária ao 2. Desta forma, uma das melhores formas de abordagem é definir e gerar uma lista de stopwords de acordo com a aplicação a ser implementada Stemming Uma das formas de tentar solucionar o problema do ruído é utilizar uma técnica chamada Stemming, que consiste em representar as diferentes formas de uma palavra em uma palavra raiz, por exemplo, as palavras conectando e conectado poderiam ser representadas na palavra raiz conectar [15]. Ao realizar essa transformação a quantidade de palavras tende a se tornar menor, visto que as mesmas estão sendo agrupadas no seu radical comum. Sendo assim, esta é uma das mais conhecidas técnicas de redução da quantidade léxica. Esta redução facilita, por exemplo, o trabalho dos algoritmos de indexação, pois como os termos estão agrupados não é necessário calcular a frequência de termos parecidos diversas vezes, e além disso, a frequência dos termos relevantes aumenta. É comum ser realizado antes a técnica de tokenização, que visa separar o documento em termos, geralmente buscando os espaços em branco, as quebras de linha ou pontuações para realizar a separação. O resultado da mesma facilita a utilização do algoritmo de stemming. Entre outras formas de reduzir termos existe o método n-gram, onde sequência de letras são agrupadas seguindo uma ordem, seja elas de uma em uma, duas em duas ou n em n [16]. 2.2 Trabalhos Correlatos Mineração de Texto em redes sociais digitais As RSD geram uma grande quantidade de dados e estes podem ser manipulados e analisados a fim de compreender um pouco mais sobre sentimentos, forma de escrita, opiniões e marketing. Considerando a relevância destas informações faz-se necessária a utilização de uma forma de obtê-la de forma automatizada e quantificada. Um exemplo de RSD é o Twitter, que gera uma base de dados muito grande, podendo ser agrupada de acordo com assuntos ou eventos como a Copa do Mundo. Nota-

33 31 se que é necessário trabalhar os dados obtidos a fim de evitar ruídos linguísticos, além de ser possível utilizar algoritmos de clusterização (como o k-means) para analisar os resultados obtidos [17]. Em outra abordagem procura-se mostrar como o Twitter está relacionado às grandes marcas. Os resultados mostram o mesmo como uma ferramenta confiável para análise de marcas, porém a não remoção do ruído pode atrapalhar os resultados [18]. Em [8] as técnicas de mineração de texto são utilizadas para demonstrar que atualmente as empresas (pizzarias) necessitam entender a análise feita nos softwares sociais e transformar estes dados em vantagens para realização de marketing na internet, uma ferramenta que cresce a cada dia e possibilita uma relação de proximidade entre a empresa e o consumidor. Além de ser usada para empresas e marketing em geral, estas técnicas podem ser utilizadas para resolver outros tipos de problemas. Em [7], com auxílio de tais técnicas uma forma para avaliar incidentes envolvendo incêndios naturais e relacionar atributos entre eles é desenvolvida Análise de sentimento e polarização Em seus primeiros trabalhos, a análise de sentimento buscava determinar os sentimentos em textos criados para avaliar um produto ou serviço (reviews). Em [19] isto é abordado com sucesso. Em contrapartida o avanço da internet possibilitou que novas formas de debates fossem criadas, como fóruns de discussão online. Ao manifestar uma opinião nestes fóruns é comum receber diversas respostas (sendo elas positivas ou negativas). Este tipo de interação é chamado de debate polarizado. Em [20] a dificuldade de realizar uma análise de sentimento em um debate polarizado é retratada. A postura dos participantes foi avaliada em 14 debates distintos (10 ideológicos e 4 não ideológicos) e de acordo com os resultados apenas 78,26% das postagens foram classificadas de forma correta, o que mostra que automatizar o processo de análise desse tipo de debates não é trivial. Para resolver este problema, um modelo para análise de sentimento em debates polarizados foi proposto em [21]. Os padrões linguísticos, o contexto e a ocorrência são utilizados para identificar as opiniões expressas nos textos, além disso, este modelo trata dois fenômenos linguísticos: Anáfora e concessões, que podem prejudicar a análise. Cada opinião é representada por uma tripla (produto, palavra opinativa e sentença) e sua polaridade inicial é dada utilizando as classes gramaticais de acordo com a palavra opinativa da tripla. Este modelo foi avaliado em três experimentos (com três configurações diferentes). O primeiro utilizando apenas padrões linguísticos obteve taxas entre 50% e 65% de acurácia em três debates, o segundo utilizando a resolução de anáforas e concessões apresentou melhora de 10% a 12% na taxa de acurácia anterior em dois dos três testes e o terceiro agregando a análise do grafo de respostas apresentou melhora de 10% na acurácia

34 32 para todos os experimentos. É possível perceber um aumento na porcentagem ao utilizar este modelo, porém o crescimento não é tão discrepante em relação ao obtido com o uso da análise de sentimento padrão Pré-processamento, Stemming e remoção de ruído Ao que se relaciona a stemming, Shrma et. al. [15] apresenta um estudo e comparativo entre as técnicas e principais algoritmos, procurando mostrar a eficiência de métodos como a remoção de afixos e a variedade de sucessores em relação a técnica de n-gram, além de destacar abordagens estatísticas, gráficas e de acordo com regras. O trabalho destaca o fato da quantidade de texto que é gerada a cada dia na web e que recuperar esta informação de maneira eficiente é um grande desafio. Este estudo mostra ainda que o custo computacional destas técnicas é baixo, assim como o tempo de processamento. Por fim, ao comparar as abordagens o mesmo chega à conclusão que a técnica gráfica apresenta resultados melhores em relação a estatística, tanto na língua inglesa quanto na francesa. Porém, ressalta que apesar do fato de que stemming aumenta o desempenho da recuperação da informação, ainda existem questões em aberto nessa área que precisam ser tradadas, como o tamanho da amostra a ser analisada em aplicações que utilizam gráficos e a dificuldade de implementação dos algoritmos em idiomas diferentes do inglês. Para [22] as atividades de pré-processamento desempenham um papel vital em várias aplicações. Este trabalho utiliza três etapas, sendo elas a remoção de stopwords, o stemming e a verificação da escrita. Vale ressaltar que o autor procura mostrar os benefícios da verificação de escrita, tais como evitar a diminuição da acurácia com erros e economizar tempo ao não utilizar o algoritmo nestas instâncias. O trabalho busca ainda comparar a implementação padrão do algoritmo de Poter com a versão aprimorada proposta no artigo, visto que as técnicas tradicionais podem se tornar inadequadas com o vasto aumento de texto gerado pela web. Comumente um algoritmo de stemming lidará com alguns problemas, como a dependência do contexto e a dificuldade de avaliar se um sufixo é de fato importante ou se o mesmo deve ser removido e o modelo proposto visa lidar de forma efetiva com estes problemas. Nota-se que para a aplicação escolhida a melhor técnica foi a proposta no modelo, pois pode ser utilizada de forma dinâmica em qualquer domínio. Já a abordagem de [23] mostra que a análise de sentimento em redes sociais digitais está atraindo uma atenção especial, visto a quantidade de texto gerado e que os usuários tendem a falar sobre assuntos cotidianos e expressar sua opinião nestas redes. Assim, treinar um classificador com dados de um tweet (nome dado a uma postagem no twitter), gera uma grande quantidade de ruído, sendo assim é necessário a utilização de boas técnicas de pré-processamento. Entre algumas das técnicas utilizadas estão o stemming, a remoção de letras repetidas feita de acordo com uma implementação baseada no modelo

35 33 de n-gram, remoção de URLs (Links) e negações. Com a utilização dessas técnicas o trabalho consegue atingir 85,5% de acurácia na classificação. De acordo com [24], foi analisada uma base de dados obtida no twitter durante a realização do jogo Brasil x Japão na Copa das Confederações em Tal estudo propõe um modelo automático para redução do ruído gerado nesta base. A proposta para redução do ruído utilizava uma modelagem em níveis: a primeira parte seria a remoção de caracteres e siglas especiais assim como as palavras que os procedem; a segunda parte seria a remoção de pontuação e stopwords, no terceiro nível a correção ortográfica e por fim as palavras são comparadas ao vocabulário de internet e substituídas por sua grafia formal. Os experimentos foram feitos utilizando o algoritmo de indexação LSI e os resultados mostram que emoticons e usuários da rede eram classificados como palavras com grande relevância, após a utilização do modelo foi verificado que ao remover estes casos as palavras com maior relevância eram de acordo com o tema. Em [25] após realizar a etapa de tokenização, procura-se então encontrar palavras escritas em inglês casual (informal) e transformá-las para uma escrita formal. O trabalho tenta ainda comparar o modelo proposto com outros que visam realizar apenas a correção ortográfica. Os resultados mostram que a diminuição dos erros eleva em até 15% a eficácia dos classificadores. Sendo assim, conclui-se que o melhor seria utilizar a proposta do artigo em conjunto com um corretor ortográfico padrão, pois a abordagem integrada vem a ser uma forma mais eficaz do que a proposta de apenas correção. Por fim, em [26] mostra o papel que o pré-processamento pode desempenhar em aplicações que visam a análise de sentimento. Este utiliza uma combinação de técnicas para reduzir o ruído gerado, entre elas estão a limpeza do texto online, a remoção de espaços em branco, a expansão das abreviações, o stemming, remoção de stopwords e negações. Como resultado, o mesmo mostra que a análise de sentimento é uma área muito importante a ser explorada, principalmente com o constante crescimento das RSD e o marketing que pode ser gerado em cima delas. Todavia estas geram uma grande quantidade de ruído, portanto a etapa de pré-processamento deve ser feita da melhor forma possível a fim de maximizar os resultados obtidos pelo classificador.

36

37 35 3 MATERIAIS E MÉTODOS 3.1 Descrição do Modelo O modelo proposto segue o que esta especificado na Figura 2: Figura 2 Especificação do Modelo A Base de Dados A base de dados a ser utilizada neste trabalho conta com tweets obtidos no dia 27/01/2014 de acordo com a realização da última partida da temporada de futebol americano nos Estados Unidos da América, conhecido como Super Bowl. Esta base está disponível na internet para utilização pública As Aplicações A primeira aplicação escolhida para ser reproduzida neste trabalho é a [27], neste trabalho o autor procura classificar os usuários do Twitter em três classes, sendo elas 1

38 36 os bots (usuários que realizam apenas postagens atemáticas), os cyborgs (usuários que realizam postagens atemáticas e postagens normais) e os humanos (usuários comuns da rede). A segunda aplicação escolhida foi [28], onde é feita a análise de sentimento de acordo com a polaridade dos termos. Vale ressaltar que será reproduzido tudo que foi proposto pelos autores, porém no caso da aplicação 2 será utilizada a base de dados proposta neste trabalho por uma questão de padronização dos testes Pré-processamento Para a fase de pré-processamento serão desenvolvidas as seguintes técnicas: remoção de stopwords, o stemming, correção ortográfica, remoção de Links, caracteres especiais e transformação de texto informal (vocabulário da internet, gírias, abreviações) para formal. Serão então separadas em quatro grupos: Grupo 1: Nenhuma atividade de pré-processamento; Grupo 2: Todas as atividades de pré-processamento; Grupo 3: Stemming + remoção de Stopwords; Grupo 4: Remoção de Stopwords + correção ortográfica + remoção de caracteres especiais + transformação de texto informal para formal; Os grupos foram separados a fim de facilitar a confecção dos experimentos. Os grupos 1 e 2 visam mostrar a importância do pré-processamento na MT, já para grupo 3 a escolha das técnicas foi dada empiricamente para a aplicação 2, visto que a literatura não dá enfoque na fase de pré-processamento para a detecção e remoção de bots. Por fim, para o grupo 4 as técnicas seguem o indicado para aplicações de MT e análise de sentimento encontradas na literatura Experimentos Serão realizados oito experimentos, que serão divididos a fim de utilizar todos os grupos de pré-processamento em conjunto com as duas aplicações escolhidas. Da seguinte forma: Experimento 1: Grupo 1 + Aplicação 1; Experimento 2: Grupo 2 + Aplicação 1;

39 37 Experimento 3: Grupo 3 + Aplicação 1; Experimento 4: Grupo 4 + Aplicação 1; Experimento 5: Grupo 1 + Aplicação 2; Experimento 6: Grupo 2 + Aplicação 2; Experimento 7: Grupo 3 + Aplicação 2; Experimento 8: Grupo 4 + Aplicação 2. Abaixo segue a Figura 3 para sintetizar os experimentos, onde N abrange a quantidade de grupos e M, a quantidade de aplicações: Figura 3 Síntese dos Experimentos Testes e Resultados Para os testes e resultados será utilizado um classificador com o auxílio do software Weka 2. O classificador utilizado respeitará o que melhor obteve resultados no artigo que 2

40 38 denota a aplicação 1 [27] e a aplicação 2 [28]. Em seguida os resultados serão comparados com o da literatura a fim de validar o que foi proposto no modelo. Além disso, a frequência das palavras será analisada de acordo com o algoritmo de indexação de texto Term Frequency Inverse Document Frequency (TF-IDF), para que em cada experimento seja destacada quais são as palavras com maior relevância.

41 39 REFERÊNCIAS [1] GOLBECK, J. Analyzing the social web. [S.l.]: Newnes, [2] KWAK, H. et al. What is twitter, a social network or a news media? In: ACM. Proceedings of the 19th international conference on World wide web. [S.l.], p [3] SAKAKI, T.; OKAZAKI, M.; MATSUO, Y. Earthquake shakes twitter users: real-time event detection by social sensors. In: ACM. Proceedings of the 19th international conference on World wide web. [S.l.], p [4] PANG, B.; LEE, L. Opinion mining and sentiment analysis. Foundations and trends in information retrieval, Now Publishers Inc., v. 2, n. 1-2, p , [5] FALCÃO, A. E. J. et al. Indecs: método automatizado de classificação de páginas web de saúde usando mineração de texto e descritores em ciências da saúde (decs). Journal of Health Informatics, v. 1, n. 1, [6] PAK, A.; PAROUBEK, P. Twitter as a corpus for sentiment analysis and opinion mining. In: LREC. [S.l.: s.n.], v. 10, p [7] ZHANG, D.; JIANG, K. Application of data mining techniques in the analysis of fire incidents. Procedia Engineering, Elsevier, v. 43, p , [8] HE, W.; ZHA, S.; LI, L. Social media competitive analysis and text mining: A case study in the pizza industry. International Journal of Information Management, Elsevier, v. 33, n. 3, p , [9] SUKANYA, M.; BIRUNTHA, S. Techniques on text mining. In: IEEE. Advanced Communication Control and Computing Technologies (ICACCCT), 2012 IEEE International Conference on. [S.l.], p [10] FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. [S.l.]: Cambridge University Press, [11] MAIMON, O.; ROKACH, L. Data mining and knowledge discovery handbook. [S.l.]: Springer, v. 2. [12] RIBEIRO, J. S.; KAUFMAN, K. A.; KERSCHBERG, L. Knowledge discovery from multiple databases. In: KDD. [S.l.: s.n.], p [13] INGERSOLL, G. S.; MORTON, T. S.; FARRIS, A. L. Taming text: how to find, organize, and manipulate it. [S.l.]: Manning Publications Co., [14] SUH, J. H.; PARK, C. H.; JEON, S. H. Applying text and data mining techniques to forecasting the trend of petitions filed to e-people. Expert Systems with Applications, Elsevier, v. 37, n. 10, p , [15] SHARMA, D. Stemming algorithms: A comparative study and their analysis. International Journal of Applied Information Systems, v. 4, n. 3, p. 7 12, 2012.

42 40 [16] ADAMSON, G. W.; BOREHAM, J. The use of an association measure based on character structure to identify semantically related pairs of words and document titles. Information storage and retrieval, Elsevier, v. 10, n. 7, p , [17] WALKER, M. A. et al. That is your evidence?: Classifying stance in online political debate. Decision Support Systems, Elsevier, v. 53, n. 4, p , [18] MOSTAFA, M. M. More than words: Social networks text mining for consumer brand sentiments. Expert Systems with Applications, Elsevier, v. 40, n. 10, p , [19] SILVA, N. R.; LIMA, D.; BARROS, F. Sapair: Um processo de análise de sentimento no nível de característica. In: 4nd International Workshop on Web and Text Intelligence (WTI 12), Curitiba. [S.l.: s.n.], [20] WALKER, M. A. et al. That is your evidence?: Classifying stance in online political debate. Decision Support Systems, Elsevier, v. 53, n. 4, p , [21] NETO, F. A. R.; BARROS, F. de A. Asdp: um processo para análise de sentimento em debates polarizados. [22] RAMASUBRAMANIAN, C.; RAMYA, R. Effective pre-processing activities in text mining using improved porter s stemming algorithm. International Journal of Advanced Research in Computer and Communication Engineering, v. 2, n. 12, p , [23] BAO, Y. et al. The role of pre-processing in twitter sentiment analysis. In: Intelligent Computing Methodologies. [S.l.]: Springer, p [24] CAPOBIANCO, K. R.; JÚNIOR, S. B. Modelo para redução automática de ruído em conteúdo de redes sociais digitais. [25] CLARK, E.; ARAKI, K. Text normalization in social media: progress, problems and applications for a pre-processing system of casual english. Procedia-Social and Behavioral Sciences, Elsevier, v. 27, p. 2 11, [26] HADDI, E.; LIU, X.; SHI, Y. The role of text pre-processing in sentiment analysis. Procedia Computer Science, Elsevier, v. 17, p , [27] IGAWA, R. A. e. a. Account classification in online social networks with lbca and wavelets. Proceedings of Information Sciences, Elsevier, [28] MONTEJO-RÁEZ, A. et al. Crowd explicit sentiment analysis. Knowledge-Based Systems, Elsevier, v. 69, p , 2014.