KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS

Documentos relacionados

Análise de Sentimentos e Mineração de Links em uma Rede de Co-ocorrência de Hashtags

3 Estratégia para o enriquecimento de informações

3 Qualidade de Software

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

c. Técnica de Estrutura de Controle Teste do Caminho Básico

Teste de Software: Um Breve Estudo do Importante Processo no Desenvolvimento de Softwares

ESTUDO DE CASO: LeCS: Ensino a Distância

ADMINISTRAÇÃO I. Família Pai, mãe, filhos. Criar condições para a perpetuação da espécie

SISTEMAS DE INFORMAÇÃO GERENCIAIS

Capítulo 2 Usabilidade Definição de usabilidade Resumo Leitura recomendada... 39

Engenharia de Software II

Transformação de um Modelo de Empresa em Requisitos de Software

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO

Estudo de Caso Bicicletada Curitiba

Social Media and the new Advertising: an analysis of Farm's Instagram.

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO DEPARTAMENTO DE ESTATÍSTICA E INFORMÁTICA BACHARELADO EM SISTEMAS DE INFORMAÇÃO RAPID APPLICATION DEVELOPMENT

FAZEMOS MONOGRAFIA PARA TODO BRASIL, QUALQUER TEMA! ENTRE EM CONTATO CONOSCO!

Administração de Sistemas de Informação I

3 Metodologia 3.1. Tipo de pesquisa

Capítulo 2. Processos de Software Pearson Prentice Hall. Todos os direitos reservados. slide 1

DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO

Documento Descritivo do Mecanismo de Busca. Preparação do Portal para indexação

textos documentos semi-estruturado

TÉCNICAS DE PROGRAMAÇÃO

Tutorial 7 Fóruns no Moodle

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

PlusPixel Marketing Digital SOMOS MAIS SOCIAIS DO QUE NUNCA

Influência do Encaminhamento de Mensagens na Topologia de Redes Sociais

PROCESSAMENTO TEXTUAL EM PÁGINAS DA WEB

FMU - FACULDADES METROPOLITANAS UNIDAS E-COMMERCE, SOCIAL COMMERCE, MOBILE MARKETING E MARKETING DE PERMISSÃO.

Markes Roberto Vaccaro

COMO FUNCIONA NOSSA CONSULTORIA DE MARKETING DIGITAL ESPECIALIZADA EM VENDAS ONLINE

4 Experimentos. 4.4 detalha os experimentos com os algoritmos V-Wrapper e NCE. 4.1

Modelo para mineração de texto e classificação de sentimento automática em conteúdo de redes sociais digitais

PESQUISA SOBRE O PERFIL DE ALUNOS NA UTILIZAÇÃO DE UM SITE DOCENTE DO ENSINO SUPERIOR

Convertendo resultados

ANÁLISE DAS CARACTERÍSTICAS DOS SITES QUE DISPONIBILIZAM OBJETOS DE APRENDIZAGEM DE ESTATÍSTICA PARA O ENSINO MÉDIO 1

ATENAS: Um Sistema Gerenciador de Regras de Negócio

Cinco restrições de desenvolvimento/teste que afetam a velocidade, o custo e a qualidade dos seus aplicativos

Extração de Requisitos

18º Congresso de Iniciação Científica IMPLEMENTAÇÃO DE UM MODELO DE TESTE DE APLICAÇÕES WEB

2 Fundamentação Conceitual

Conceitos Básicos de Rede. Um manual para empresas com até 75 computadores

Agenda Semântica. Grupo: Francisco Rodrigues Júnior Guilherme Daher Ferreira Luana Vieira Morellato Renan Rigo

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

Gerenciamento de Projetos Modulo VIII Riscos

O guia completo para uma presença. online IMBATÍVEL!

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll

Introdução Já acessou rede social Acessam semanalmente Acessam diariamente USA Brasil Argentina México

Gerenciamento de Projetos Modulo IX Qualidade

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS

Aula 2 Revisão 1. Ciclo de Vida. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW

agility made possible

perspectivas e abordagens típicas de campos de investigação (Senra & Camargo, 2010).

CENTRO ESTADUAL DE EDUCAÇÃO TECNOLOGICA PAULA SOUZA ETEC DR. EMLIO HERNANDEZ AGUILAR

Atualizações de Software Guia do Usuário

A CIÊNCIA DOS PEQUENOS JOGOS Fedato Esportes Consultoria em Ciências do Esporte

Sumário. Introdução ao Microsoft Project. 1 Microsoft Project, gerenciamento de projetos e você 3. 2 Visão geral do Project 11.

natureza do projeto e da aplicação métodos e ferramentas a serem usados controles e produtos que precisam ser entregues

Requisitos de Software

1. Introdução. 1.1 Contextualização do problema e questão-problema

Classificação: Determinístico

Análise comparativa sobre bases de dados para armazenamento e consulta de dados não estruturados no formato JSON.

AS MÍDIAS SOCIAIS E O SEU ALCANCE PARA A IMAGEM E O AUMENTO DAS VENDAS DAS PEQUENAS EMPRESAS VAREJISTAS DE SANTA FÉ DO SUL (SP) RESUMO

Introdução. Uso do disco Vantagens Desvantagens Baixo custo, facilidade de manutenção do software e do hardware, simetria e flexibilidade

Conectar diferentes pesquisas na internet por um menu

Resumo Descritivo dos Conteúdos das Disciplinas de Ementa Aberta para

PROCEDIMENTOS DE AUDITORIA INTERNA

CAPÍTULO 2. Grafos e Redes

Sistemas de Arquivos NTFS, FAT16, FAT32, EXT2 e EXT3

Computador E/S, Memória, Barramento do sistema e CPU Onde a CPU Registradores, ULA, Interconexão interna da CPU e Unidade de controle.

UNIVERSIDADE FEDERAL DE OURO PRETO PROJETO BÁSICO CURSO DE APERFEIÇOAMENTO EM PRODUÇÃO E ORGANIZAÇÃO DE CONTEÚDO NA EAD CURSO PARA DOCENTES DA UFOP

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

O Cisco IBSG prevê o surgimento de mercados globais conectados

DE ARTIGO CIENTÍFICO

VISÃO GERAL DE BANCO DE DADOS

Engenharia de Software Unidade I Visão Geral

Laboratório de Mídias Sociais

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini prof.andre.luis.belini@gmail.com /

Gerenciamento de Projetos Modulo III Grupo de Processos

Mineração de Opinião / Análise de Sentimentos

2 METODOLOGIA DA PESQUISA

AKNA SOFTWARE. Configurações. de DNS

Algoritmos e Programação Parte Teórica

Evolução da cooperação em populações modeladas por autômatos celulares com o uso de teoria de jogos

Extração de Conhecimento & Mineração de Dados

UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA

ITIL v3 - Operação de Serviço - Parte 1

Preparação do Trabalho de Pesquisa

INSTITUTO CAMPINENSE DE ENSINO SUPERIOR FACULDADE MAURÍCIO DE NASSAU CURSO DE ENFERMAGEM. NOME DOS ALUNOS (equipe de 4 pessoas) TÍTULO DO PROJETO

Ian Castro de Souza CSO da Salve! Digital

Especificação Operacional.

Processos de gerenciamento de projetos em um projeto

Processos de Software

Portal do Projeto Tempo de Ser

Transcrição:

KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS LONDRINA PR 2015

KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS Versão Preliminar de Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. Orientador: Prof. Dr. Sylvio Barbon Júnior LONDRINA PR 2015

Kelvin Ramires Capobianco Avaliação da etapa de pré-processamento na mineração de texto em redes sociais digitais/ Kelvin Ramires Capobianco. Londrina PR, 2015-40 p. : il. (algumas color.) ; 30 cm. Orientador: Prof. Dr. Sylvio Barbon Júnior Universidade Estadual de Londrina, 2015. 1. Palavra-chave1. 2. Palavra-chave2. I. Orientador. II. Universidade xxx. III. Faculdade de xxx. IV. Título CDU 02:141:005.7

KELVIN RAMIRES CAPOBIANCO AVALIAÇÃO DA ETAPA DE PRÉ-PROCESSAMENTO NA MINERAÇÃO DE TEXTO EM REDES SOCIAIS DIGITAIS Versão Preliminar de Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. BANCA EXAMINADORA Prof. Dr. Sylvio Barbon Júnior Universidade Estadual de Londrina Orientador Prof. Dr. Segundo Membro da Banca Universidade/Instituição do Segundo Membro da Banca Prof. Dr. Terceiro Membro da Banca Universidade/Instituição do Terceiro Membro da Banca Prof. Ms. Quarto Membro da Banca Universidade/Instituição do Quarto Membro da Banca Londrina PR, 19 de outubro de 2015

Dedicatoria.

AGRADECIMENTOS

Frase efeito

CAPOBIANCO, K.R.. Avaliação da etapa de pré-processamento na mineração de texto em redes sociais digitais. 40 p. Trabalho de Conclusão de Curso Versão Preliminar (Bacharelado em Ciência da Computação) Universidade Estadual de Londrina, Londrina PR, 2015. RESUMO Com o sucesso em popularidade e volume de dados de fácil acesso, as Redes Sociais Digitais, como o Twitter, são alvo de diversos mecanismos de avaliação de conteúdo para a extração de conhecimento, tais como a analise de sentimento. Assim, este trabalho tem como objetivo apresentar um modelo que comprove a importância da fase de préprocessamento e que para cada aplicação existe uma melhor forma de realizar esta fase. Os resultados procuram apresentar uma importante contribuição do modelo e estímulo para mais estudos na área. Palavras-chave: Mineração de Texto. Redes Sociais Digitais. Stemming. Ruído. Préprocessamento

CAPOBIANCO, K.R.. Evaluation of preprocessing techniques on digital social networks. 40 p. Final Project Draft Version (Bachelor of Science in Computer Science) State University of Londrina, Londrina PR, 2015. ABSTRACT With the success in popularity and volume of data easily accessible, the Digital Social Networks like Twitter, are subject to various evaluation mechanisms of content for knowledge extraction, as such as sentiment analysis. This assay aims to present a model to prove the importance of preprocessing techniques and also show that for each kind of application there is a better way to perform it. The results seek to present an important contribution model and stimulus for further studies in the area. Keywords: Text Mining. Digital Social Network. Stemming. Noise. Preprocessing

LISTA DE ILUSTRAÇÕES Figura 1 As etapas da mineração de texto..................... 28 Figura 2 Especificação do Modelo.......................... 35 Figura 3 Síntese dos Experimentos......................... 37

LISTA DE TABELAS

LISTA DE ABREVIATURAS E SIGLAS MT AS PLN RSD Mineração de Texto Análise de Sentimento Processamento de linguagem natural Redes sociais digitais

SUMÁRIO 1 INTRODUÇÃO............................ 23 1.1 Objetivos................................. 24 1.2 Organização do Trabalho....................... 25 2 FUNDAMENTAÇÃO TEÓRICA................. 27 2.1 Conceitos................................. 27 2.1.1 Mineração de Texto.......................... 27 2.1.2 Pré-processamento........................... 29 2.1.3 Stopwords................................ 29 2.1.4 Stemming................................ 30 2.2 Trabalhos Correlatos.......................... 30 2.2.1 Mineração de Texto em redes sociais digitais.......... 30 2.2.2 Análise de sentimento e polarização................ 31 2.2.3 Pré-processamento, Stemming e remoção de ruído....... 32 3 MATERIAIS E MÉTODOS.................... 35 3.1 Descrição do Modelo.......................... 35 3.1.1 A Base de Dados............................ 35 3.1.2 As Aplicações.............................. 35 3.1.3 Pré-processamento........................... 36 3.1.4 Experimentos.............................. 36 3.1.5 Testes e Resultados........................... 37 REFERÊNCIAS........................... 39

23 1 INTRODUÇÃO Redes sociais digitais são aplicativos com a capacidade de conectar pessoas e organizações com afinidades por diferentes tipos de relações. Neste tipo de ambiente é possível compartilhar qualquer tipo de informação, assim como procurar sobre qualquer tipo de informação. O crescimento e sucesso desse tipo de aplicativo está diretamente ligado ao avanço da internet. Twitter, Facebook e Instagram são alguns exemplos de softwares sociais que atingiram grau elevado de sucesso. Entre eles o Twitter se destaca pela quantidade de usuários e a velocidade com que eles aumentam. Em 2013 o mesmo apresentava cerca de 200 milhões de usuários [1] e atualmente apresenta por volta de 500 milhões, sendo o Brasil o segundo país que mais os possui. 1. Outro ponto de destaque é seu método de funcionamento, que pode ser nomeado de microblogging, isto pois usuários compartilham breves textos (a quantidade máxima permitida é de 140 caracteres), que são acessíveis a qualquer outro que desejar receber informações sobre tal perfil ou procurar pelo assunto abordado. Mídias sociais geram uma grande quantidade de dados, e estes podem ser manipulados e analisados a fim de compreender um pouco mais sobre: sentimento, forma de escrita, opiniões e marketing. Considerando a relevância destas informações faz-se necessária a utilização de uma forma de obtê-la de forma automatizada e quantificada, como a mineração de texto em conjunto com análise de sentimento. A análise de sentimento busca determinar a partir de uma opinião um sentimento, seja ele em relação a uma pessoa, serviço, produto ou mesmo outra opinião. Este é determinado de acordo com a polaridade (positiva ou negativa) da informação analisada. Em AS é comum encontrar trabalhos que procuram utilizar as técnicas para classificar sentimentos do cotidiano e em RSD os usuários tendem a compartilhar cada vez mais sobre o seu dia a dia. Em [2] busca utilizar AS em conjunto com o Twitter para avaliar qual o potencial de informação que esta rede possui. O estudo mostra que mais de 85% dos tweets que são criados estão de alguma forma relacionados a reportagens da televisão ou notícias divulgadas pela mídia. Devido ao compartilhamento em tempo real que a ferramenta fornece é possível então classificar o sentimento de um usuário no momento em que ele recebe a notícia seja ela de qualquer tipo de mídia, portanto este tende a compartilhar suas emoções sem que outros fatores o influenciem. O que intensifica o sentimento expressado. [3] De acordo com [4] a forma que as pessoas pensam sempre foi objeto de grande interesse. Como as plataformas sociais fornecem grande quantidade de dados subjetivos, 1 http://br.ccm.net/faq/12500-twitter-atinge-o-meio-milhao-de-usuarios-o-brasil-chega-na-segundaposicao

24 quantificando opiniões e sentimentos, o estudo procura mostrar que cada vez mais a quantidade de trabalho que procuram identificar a polaridade e classificar a emoção que um texto possui irão aumentar. Por outro A mineração de texto é a área relacionada ao estudo de grandes volumes de texto. Sua importância se da pois pode ser utilizada em áreas de estudo, tais como saúde e economia. Note que [5] procura utilizar a MT para automaticamente classificar páginas web que falam sobre saúde, visto que com o crescimento da rede é comum aparecer sites falsos que visam enganar um usuário. Em conjunto com a grande quantidade de usuários do Twitter e a frequência que o site é utilizado é possível perceber que a MT pode ser parar reconhecer diversos fatos importantes como: desastres naturais, características de usuários e marketing em geral [6, 7, 8]. Desta forma a quantidade de texto gerada pelas RSD se mostra adequado à utilização destas técnicas, porém, a informalidade linguística apresentada nas redes sociais digitais pode gerar graves problemas. Dentre eles está o ruído, prejudicando a utilização de algoritmos de indexação de texto para classificar a relevância das palavras, e o sarcasmo e ironia, que dificultam a polarização das opiniões gerando resultados não esperados. Existem diversas formas de tentar eliminar o ruído, como a utilização do stemming ou a remoção das stopwords porém é necessário ressaltar que o ruído de uma aplicação para a outra deve mudar. Dentro os passos de MT, a fase de pré-processamento apresenta diversidade elevada de abordagens, isto se da pois existem diferentes técnicas e formas de alcançar o objetivo desta fase, que é transformar a base de dados obtida em uma representação numérica. É possível separar cada um dos termos, calcular a frequência, eliminar o que não é relevante, trabalhar palavras que apresentam o mesmo radical, eliminar sufixos e afixos e outras diversas técnicas, o que torna a etapa de pré-processamento uma das mais difíceis e mais importantes. 1.1 Objetivos O principal objetivo deste trabalho é mostrar que o ruído gerado por RSD é mutável, ou seja, o que não é relevante a uma aplicação pode ser para outra. Desta forma, o mesmo visa aplicar soluções para remover o ruído encontradas na literatura em duas aplicações de MT, pretendendo mostrar que a escolha das técnicas na fase de pré-processamento tem diferentes influências para cada uma delas, tencionando mostrar ainda que esta escolha pode melhorar os resultados obtidos assim como piora-los se for executada de forma não adequada.

25 1.2 Organização do Trabalho O capítulo 2 apresenta a fundamentação teórica, o que visa dar o entendimento de conceitos necessários para compreensão deste trabalho, assim como apresentar a gama de trabalhos relacionados ao que esta sendo proposto. O capítulo 3 mostra cada etapa do modelo como a obtenção dos dados, as aplicações que serão utilizadas como base e como serão realizados os testes.

27 2 FUNDAMENTAÇÃO TEÓRICA 2.1 Conceitos 2.1.1 Mineração de Texto Uma abordagem na área de PLN que merece destaque é a mineração de texto. Esta pode ser definida como um conjunto de técnicas para obtenção de informações significativas a partir de um texto, sendo ele não estruturado ou semi-estruturado [9]. Apesar de ser comumente utilizada em textos literários, livros ou em ambientes com elevado nível de formalidade, atualmente estas também estão sendo empregadas em redes sociais digitais. O presente trabalho dará enfoque neste uso. A MT pode ser compreendida como um processo que visa descobrir informações em grande quantidade de texto, por meio da identificação de padrões e relações em dados que se mostram relevantes. Em suma, ela é caracterizada pela interação de um usuário com uma coleção de dados (neste caso, texto) ao longo do tempo, por meio de um conjunto de ferramentas de análise [10]. As aplicações que fazem uso destas técnicas seguem as seguintes etapas: aquisição, pré-processamento, indexação ou transformação, mineração de dados,avaliação. Dado os trabalho [11] e [12] as etapas da MT podem ser descritas da seguinte maneira: Aquisição: é a etapa onde será coletada a base de dados, assim como todas os dados necessários para a aplicação. Por fim ocorre a junção da base com o dados adicionais. Pré-processamento: A etapa de pré-processamento visa preparar o dado para que o mesmo esteja apto a passar pelas próximas etapas. É nesta etapa que ocorre a separação dos termos, a limpeza, a transformação do texto em seu referencial numérico e o calculo da frequência de termos. Esta etapa será vista com mais detalhes na sub-seção abaixo. Transformação: Na etapa de transformação é onde ocorre a seleção e extração de atributos visando gerar a melhor representação dos dados, esta também é a etapa de indexação onde os dados serão agrupados em índices o que ira facilitar a identificação de características, o acesso e recuperação de determinado atributo para um documento. Mineração dos Dados: Também conhecida como etapa de classificação, onde serão aplicados os algoritmos de mineração de dados. Que podem ser dos seguintes tipos:

28 de classificação, regressão, segmentação, associação e análise. A escolha do tipo do algoritmo se da de acordo com a necessidade da aplicação. Avaliação e Interpretação: A fase onde o modelo será avaliado a fim de constatar que o mesmo é eficaz. A primeira parte é dada pela avaliação do algoritmo de mineração de dados escolhido. Esta é feita por medidas estatísticas e precisão e confiabilidade[13]. A precisão verifica se o algoritmo é preciso o suficiente para continuar sendo executado, já a confiabilidade vai analisar qual o nível de sucesso que o algoritmo obteve em relação ao seu conjunto de treinamento. Se esses parâmetros não forem satisfeitos é necessário então voltar as etapas anteriores a fim de descobrir o problema. A Figura 1 mostra cada uma das etapas da mineração de texto [11] Figura 1 As etapas da mineração de texto [11]

29 2.1.2 Pré-processamento Em aplicações que utilizam MT a primeira etapa a ser realizada após a aquisição da base de dados é a de pré-processamento, que consiste em trabalhar a grande quantidade de texto obtida para que este se torne mais adequado e gere melhores resultados após a aplicação. Embora não necessariamente siga uma regra, a fase de pré-processamento geralmente é dada pela decomposição do texto em termos e suas frequências. Os termos que são menos significativos podem ser descartados, assim como os que apresentam frequência elevada podem ser desvalorizados. Após o pré-processamento o resultado obtido é chamado de Bag of Words, o que denota uma representação numérica do texto bruto obtido [10]. Toda aplicação que utilize MT necessita de uma base de dados, e ao obtê-la a quantidade bruta destas palavras é chamada de corpus, incluindo repetições. A quantidade total, retirando as repetições, é chamada de léxico. A etapa de pré-processamento interage com o corpus de um texto visando transformá-lo a fim de efetivar a obtenção do léxico. Estas transformações podem ser dadas de acordo com a aplicação, porém existem algumas operações padrões como a remoção de stopwords e o stemming. Em bases de dados é comum que na parte do corpus possa haver texto indesejado, que pode ser chamado de ruído. De uma forma geral, o ruído pode ser compreendido como tudo que interfere de forma negativa na interpretação da informação [14]. Uma etapa de pré-processamento bem realizada pode diminuir a ação do ruído na etapa de classificação e avaliação. Em RSD a quantidade de ruído gerada é aumentada de acordo com a informalidade linguística, que é característica nestas redes. Nota-se que é comum encontrar erros de escrita, palavras abreviadas e emoticons (junção de caracteres para expressar um sentimento), o que em diversas aplicações passa a ser considerado como ruído. Ainda na fase de pré-processamento os termos serão contados de acordo com sua ocorrência no texto, para que após seja feito o cálculo da frequência de cada um. Este cálculo é realizado por meio de algoritmos de indexação de texto, tais como: Term Frequency Inverse Document Frequency (TF-IDF) e Latent Semantic Indexing (LSI). 2.1.3 Stopwords As stopwords podem ser definidas como palavras a serem evitadas, portanto deverão ser eliminadas na etapa de pré-processamento [10]. É comum encontrar em listas de stopwords grande quantidade de preposições e conjunções, visto que elas aparecem com grande frequência em textos porém não apresentam grande relevância. Em contrapartida, apesar de também apresentarem grande frequência, os artigos possuem um maior grau

30 de relevância, sendo de grande importância em aplicações que analisam sentimento, dessa forma podem ser poupados destas listas. Além disso, é comum a remoção de pontuação, caracteres especiais e links para páginas na internet em conjunto. Apesar da existência de listas de stopwords padrões, as mesmas podem ser definidas de acordo com a aplicação. Nota-se que para cada problema existe uma melhor forma de lidar com estas palavras, por exemplo uma palavra pode ser irrelevante ao problema 1, o que a definiria como stopword, porém extremamente necessária ao 2. Desta forma, uma das melhores formas de abordagem é definir e gerar uma lista de stopwords de acordo com a aplicação a ser implementada. 2.1.4 Stemming Uma das formas de tentar solucionar o problema do ruído é utilizar uma técnica chamada Stemming, que consiste em representar as diferentes formas de uma palavra em uma palavra raiz, por exemplo, as palavras conectando e conectado poderiam ser representadas na palavra raiz conectar [15]. Ao realizar essa transformação a quantidade de palavras tende a se tornar menor, visto que as mesmas estão sendo agrupadas no seu radical comum. Sendo assim, esta é uma das mais conhecidas técnicas de redução da quantidade léxica. Esta redução facilita, por exemplo, o trabalho dos algoritmos de indexação, pois como os termos estão agrupados não é necessário calcular a frequência de termos parecidos diversas vezes, e além disso, a frequência dos termos relevantes aumenta. É comum ser realizado antes a técnica de tokenização, que visa separar o documento em termos, geralmente buscando os espaços em branco, as quebras de linha ou pontuações para realizar a separação. O resultado da mesma facilita a utilização do algoritmo de stemming. Entre outras formas de reduzir termos existe o método n-gram, onde sequência de letras são agrupadas seguindo uma ordem, seja elas de uma em uma, duas em duas ou n em n [16]. 2.2 Trabalhos Correlatos 2.2.1 Mineração de Texto em redes sociais digitais As RSD geram uma grande quantidade de dados e estes podem ser manipulados e analisados a fim de compreender um pouco mais sobre sentimentos, forma de escrita, opiniões e marketing. Considerando a relevância destas informações faz-se necessária a utilização de uma forma de obtê-la de forma automatizada e quantificada. Um exemplo de RSD é o Twitter, que gera uma base de dados muito grande, podendo ser agrupada de acordo com assuntos ou eventos como a Copa do Mundo. Nota-

31 se que é necessário trabalhar os dados obtidos a fim de evitar ruídos linguísticos, além de ser possível utilizar algoritmos de clusterização (como o k-means) para analisar os resultados obtidos [17]. Em outra abordagem procura-se mostrar como o Twitter está relacionado às grandes marcas. Os resultados mostram o mesmo como uma ferramenta confiável para análise de marcas, porém a não remoção do ruído pode atrapalhar os resultados [18]. Em [8] as técnicas de mineração de texto são utilizadas para demonstrar que atualmente as empresas (pizzarias) necessitam entender a análise feita nos softwares sociais e transformar estes dados em vantagens para realização de marketing na internet, uma ferramenta que cresce a cada dia e possibilita uma relação de proximidade entre a empresa e o consumidor. Além de ser usada para empresas e marketing em geral, estas técnicas podem ser utilizadas para resolver outros tipos de problemas. Em [7], com auxílio de tais técnicas uma forma para avaliar incidentes envolvendo incêndios naturais e relacionar atributos entre eles é desenvolvida. 2.2.2 Análise de sentimento e polarização Em seus primeiros trabalhos, a análise de sentimento buscava determinar os sentimentos em textos criados para avaliar um produto ou serviço (reviews). Em [19] isto é abordado com sucesso. Em contrapartida o avanço da internet possibilitou que novas formas de debates fossem criadas, como fóruns de discussão online. Ao manifestar uma opinião nestes fóruns é comum receber diversas respostas (sendo elas positivas ou negativas). Este tipo de interação é chamado de debate polarizado. Em [20] a dificuldade de realizar uma análise de sentimento em um debate polarizado é retratada. A postura dos participantes foi avaliada em 14 debates distintos (10 ideológicos e 4 não ideológicos) e de acordo com os resultados apenas 78,26% das postagens foram classificadas de forma correta, o que mostra que automatizar o processo de análise desse tipo de debates não é trivial. Para resolver este problema, um modelo para análise de sentimento em debates polarizados foi proposto em [21]. Os padrões linguísticos, o contexto e a ocorrência são utilizados para identificar as opiniões expressas nos textos, além disso, este modelo trata dois fenômenos linguísticos: Anáfora e concessões, que podem prejudicar a análise. Cada opinião é representada por uma tripla (produto, palavra opinativa e sentença) e sua polaridade inicial é dada utilizando as classes gramaticais de acordo com a palavra opinativa da tripla. Este modelo foi avaliado em três experimentos (com três configurações diferentes). O primeiro utilizando apenas padrões linguísticos obteve taxas entre 50% e 65% de acurácia em três debates, o segundo utilizando a resolução de anáforas e concessões apresentou melhora de 10% a 12% na taxa de acurácia anterior em dois dos três testes e o terceiro agregando a análise do grafo de respostas apresentou melhora de 10% na acurácia

32 para todos os experimentos. É possível perceber um aumento na porcentagem ao utilizar este modelo, porém o crescimento não é tão discrepante em relação ao obtido com o uso da análise de sentimento padrão 2.2.3 Pré-processamento, Stemming e remoção de ruído Ao que se relaciona a stemming, Shrma et. al. [15] apresenta um estudo e comparativo entre as técnicas e principais algoritmos, procurando mostrar a eficiência de métodos como a remoção de afixos e a variedade de sucessores em relação a técnica de n-gram, além de destacar abordagens estatísticas, gráficas e de acordo com regras. O trabalho destaca o fato da quantidade de texto que é gerada a cada dia na web e que recuperar esta informação de maneira eficiente é um grande desafio. Este estudo mostra ainda que o custo computacional destas técnicas é baixo, assim como o tempo de processamento. Por fim, ao comparar as abordagens o mesmo chega à conclusão que a técnica gráfica apresenta resultados melhores em relação a estatística, tanto na língua inglesa quanto na francesa. Porém, ressalta que apesar do fato de que stemming aumenta o desempenho da recuperação da informação, ainda existem questões em aberto nessa área que precisam ser tradadas, como o tamanho da amostra a ser analisada em aplicações que utilizam gráficos e a dificuldade de implementação dos algoritmos em idiomas diferentes do inglês. Para [22] as atividades de pré-processamento desempenham um papel vital em várias aplicações. Este trabalho utiliza três etapas, sendo elas a remoção de stopwords, o stemming e a verificação da escrita. Vale ressaltar que o autor procura mostrar os benefícios da verificação de escrita, tais como evitar a diminuição da acurácia com erros e economizar tempo ao não utilizar o algoritmo nestas instâncias. O trabalho busca ainda comparar a implementação padrão do algoritmo de Poter com a versão aprimorada proposta no artigo, visto que as técnicas tradicionais podem se tornar inadequadas com o vasto aumento de texto gerado pela web. Comumente um algoritmo de stemming lidará com alguns problemas, como a dependência do contexto e a dificuldade de avaliar se um sufixo é de fato importante ou se o mesmo deve ser removido e o modelo proposto visa lidar de forma efetiva com estes problemas. Nota-se que para a aplicação escolhida a melhor técnica foi a proposta no modelo, pois pode ser utilizada de forma dinâmica em qualquer domínio. Já a abordagem de [23] mostra que a análise de sentimento em redes sociais digitais está atraindo uma atenção especial, visto a quantidade de texto gerado e que os usuários tendem a falar sobre assuntos cotidianos e expressar sua opinião nestas redes. Assim, treinar um classificador com dados de um tweet (nome dado a uma postagem no twitter), gera uma grande quantidade de ruído, sendo assim é necessário a utilização de boas técnicas de pré-processamento. Entre algumas das técnicas utilizadas estão o stemming, a remoção de letras repetidas feita de acordo com uma implementação baseada no modelo

33 de n-gram, remoção de URLs (Links) e negações. Com a utilização dessas técnicas o trabalho consegue atingir 85,5% de acurácia na classificação. De acordo com [24], foi analisada uma base de dados obtida no twitter durante a realização do jogo Brasil x Japão na Copa das Confederações em 2013. Tal estudo propõe um modelo automático para redução do ruído gerado nesta base. A proposta para redução do ruído utilizava uma modelagem em níveis: a primeira parte seria a remoção de caracteres e siglas especiais assim como as palavras que os procedem; a segunda parte seria a remoção de pontuação e stopwords, no terceiro nível a correção ortográfica e por fim as palavras são comparadas ao vocabulário de internet e substituídas por sua grafia formal. Os experimentos foram feitos utilizando o algoritmo de indexação LSI e os resultados mostram que emoticons e usuários da rede eram classificados como palavras com grande relevância, após a utilização do modelo foi verificado que ao remover estes casos as palavras com maior relevância eram de acordo com o tema. Em [25] após realizar a etapa de tokenização, procura-se então encontrar palavras escritas em inglês casual (informal) e transformá-las para uma escrita formal. O trabalho tenta ainda comparar o modelo proposto com outros que visam realizar apenas a correção ortográfica. Os resultados mostram que a diminuição dos erros eleva em até 15% a eficácia dos classificadores. Sendo assim, conclui-se que o melhor seria utilizar a proposta do artigo em conjunto com um corretor ortográfico padrão, pois a abordagem integrada vem a ser uma forma mais eficaz do que a proposta de apenas correção. Por fim, em [26] mostra o papel que o pré-processamento pode desempenhar em aplicações que visam a análise de sentimento. Este utiliza uma combinação de técnicas para reduzir o ruído gerado, entre elas estão a limpeza do texto online, a remoção de espaços em branco, a expansão das abreviações, o stemming, remoção de stopwords e negações. Como resultado, o mesmo mostra que a análise de sentimento é uma área muito importante a ser explorada, principalmente com o constante crescimento das RSD e o marketing que pode ser gerado em cima delas. Todavia estas geram uma grande quantidade de ruído, portanto a etapa de pré-processamento deve ser feita da melhor forma possível a fim de maximizar os resultados obtidos pelo classificador.

35 3 MATERIAIS E MÉTODOS 3.1 Descrição do Modelo O modelo proposto segue o que esta especificado na Figura 2: Figura 2 Especificação do Modelo 3.1.1 A Base de Dados A base de dados a ser utilizada neste trabalho conta com 8.034.401 tweets obtidos no dia 27/01/2014 de acordo com a realização da última partida da temporada de futebol americano nos Estados Unidos da América, conhecido como Super Bowl. Esta base está disponível na internet para utilização pública 1. 3.1.2 As Aplicações A primeira aplicação escolhida para ser reproduzida neste trabalho é a [27], neste trabalho o autor procura classificar os usuários do Twitter em três classes, sendo elas 1 http://www.techtunk.com/index.php?dove=downloads

36 os bots (usuários que realizam apenas postagens atemáticas), os cyborgs (usuários que realizam postagens atemáticas e postagens normais) e os humanos (usuários comuns da rede). A segunda aplicação escolhida foi [28], onde é feita a análise de sentimento de acordo com a polaridade dos termos. Vale ressaltar que será reproduzido tudo que foi proposto pelos autores, porém no caso da aplicação 2 será utilizada a base de dados proposta neste trabalho por uma questão de padronização dos testes. 3.1.3 Pré-processamento Para a fase de pré-processamento serão desenvolvidas as seguintes técnicas: remoção de stopwords, o stemming, correção ortográfica, remoção de Links, caracteres especiais e transformação de texto informal (vocabulário da internet, gírias, abreviações) para formal. Serão então separadas em quatro grupos: Grupo 1: Nenhuma atividade de pré-processamento; Grupo 2: Todas as atividades de pré-processamento; Grupo 3: Stemming + remoção de Stopwords; Grupo 4: Remoção de Stopwords + correção ortográfica + remoção de caracteres especiais + transformação de texto informal para formal; Os grupos foram separados a fim de facilitar a confecção dos experimentos. Os grupos 1 e 2 visam mostrar a importância do pré-processamento na MT, já para grupo 3 a escolha das técnicas foi dada empiricamente para a aplicação 2, visto que a literatura não dá enfoque na fase de pré-processamento para a detecção e remoção de bots. Por fim, para o grupo 4 as técnicas seguem o indicado para aplicações de MT e análise de sentimento encontradas na literatura. 3.1.4 Experimentos Serão realizados oito experimentos, que serão divididos a fim de utilizar todos os grupos de pré-processamento em conjunto com as duas aplicações escolhidas. Da seguinte forma: Experimento 1: Grupo 1 + Aplicação 1; Experimento 2: Grupo 2 + Aplicação 1;

37 Experimento 3: Grupo 3 + Aplicação 1; Experimento 4: Grupo 4 + Aplicação 1; Experimento 5: Grupo 1 + Aplicação 2; Experimento 6: Grupo 2 + Aplicação 2; Experimento 7: Grupo 3 + Aplicação 2; Experimento 8: Grupo 4 + Aplicação 2. Abaixo segue a Figura 3 para sintetizar os experimentos, onde N abrange a quantidade de grupos e M, a quantidade de aplicações: Figura 3 Síntese dos Experimentos 3.1.5 Testes e Resultados Para os testes e resultados será utilizado um classificador com o auxílio do software Weka 2. O classificador utilizado respeitará o que melhor obteve resultados no artigo que 2 http://www.cs.waikato.ac.nz/ml/weka/

38 denota a aplicação 1 [27] e a aplicação 2 [28]. Em seguida os resultados serão comparados com o da literatura a fim de validar o que foi proposto no modelo. Além disso, a frequência das palavras será analisada de acordo com o algoritmo de indexação de texto Term Frequency Inverse Document Frequency (TF-IDF), para que em cada experimento seja destacada quais são as palavras com maior relevância.

39 REFERÊNCIAS [1] GOLBECK, J. Analyzing the social web. [S.l.]: Newnes, 2013. [2] KWAK, H. et al. What is twitter, a social network or a news media? In: ACM. Proceedings of the 19th international conference on World wide web. [S.l.], 2010. p. 591 600. [3] SAKAKI, T.; OKAZAKI, M.; MATSUO, Y. Earthquake shakes twitter users: real-time event detection by social sensors. In: ACM. Proceedings of the 19th international conference on World wide web. [S.l.], 2010. p. 851 860. [4] PANG, B.; LEE, L. Opinion mining and sentiment analysis. Foundations and trends in information retrieval, Now Publishers Inc., v. 2, n. 1-2, p. 1 135, 2008. [5] FALCÃO, A. E. J. et al. Indecs: método automatizado de classificação de páginas web de saúde usando mineração de texto e descritores em ciências da saúde (decs). Journal of Health Informatics, v. 1, n. 1, 2009. [6] PAK, A.; PAROUBEK, P. Twitter as a corpus for sentiment analysis and opinion mining. In: LREC. [S.l.: s.n.], 2010. v. 10, p. 1320 1326. [7] ZHANG, D.; JIANG, K. Application of data mining techniques in the analysis of fire incidents. Procedia Engineering, Elsevier, v. 43, p. 250 256, 2012. [8] HE, W.; ZHA, S.; LI, L. Social media competitive analysis and text mining: A case study in the pizza industry. International Journal of Information Management, Elsevier, v. 33, n. 3, p. 464 472, 2013. [9] SUKANYA, M.; BIRUNTHA, S. Techniques on text mining. In: IEEE. Advanced Communication Control and Computing Technologies (ICACCCT), 2012 IEEE International Conference on. [S.l.], 2012. p. 269 271. [10] FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. [S.l.]: Cambridge University Press, 2007. [11] MAIMON, O.; ROKACH, L. Data mining and knowledge discovery handbook. [S.l.]: Springer, 2005. v. 2. [12] RIBEIRO, J. S.; KAUFMAN, K. A.; KERSCHBERG, L. Knowledge discovery from multiple databases. In: KDD. [S.l.: s.n.], 1995. p. 240 245. [13] INGERSOLL, G. S.; MORTON, T. S.; FARRIS, A. L. Taming text: how to find, organize, and manipulate it. [S.l.]: Manning Publications Co., 2013. [14] SUH, J. H.; PARK, C. H.; JEON, S. H. Applying text and data mining techniques to forecasting the trend of petitions filed to e-people. Expert Systems with Applications, Elsevier, v. 37, n. 10, p. 7255 7268, 2010. [15] SHARMA, D. Stemming algorithms: A comparative study and their analysis. International Journal of Applied Information Systems, v. 4, n. 3, p. 7 12, 2012.

40 [16] ADAMSON, G. W.; BOREHAM, J. The use of an association measure based on character structure to identify semantically related pairs of words and document titles. Information storage and retrieval, Elsevier, v. 10, n. 7, p. 253 260, 1974. [17] WALKER, M. A. et al. That is your evidence?: Classifying stance in online political debate. Decision Support Systems, Elsevier, v. 53, n. 4, p. 719 729, 2012. [18] MOSTAFA, M. M. More than words: Social networks text mining for consumer brand sentiments. Expert Systems with Applications, Elsevier, v. 40, n. 10, p. 4241 4251, 2013. [19] SILVA, N. R.; LIMA, D.; BARROS, F. Sapair: Um processo de análise de sentimento no nível de característica. In: 4nd International Workshop on Web and Text Intelligence (WTI 12), Curitiba. [S.l.: s.n.], 2012. [20] WALKER, M. A. et al. That is your evidence?: Classifying stance in online political debate. Decision Support Systems, Elsevier, v. 53, n. 4, p. 719 729, 2012. [21] NETO, F. A. R.; BARROS, F. de A. Asdp: um processo para análise de sentimento em debates polarizados. [22] RAMASUBRAMANIAN, C.; RAMYA, R. Effective pre-processing activities in text mining using improved porter s stemming algorithm. International Journal of Advanced Research in Computer and Communication Engineering, v. 2, n. 12, p. 2278 1021, 2013. [23] BAO, Y. et al. The role of pre-processing in twitter sentiment analysis. In: Intelligent Computing Methodologies. [S.l.]: Springer, 2014. p. 615 624. [24] CAPOBIANCO, K. R.; JÚNIOR, S. B. Modelo para redução automática de ruído em conteúdo de redes sociais digitais. [25] CLARK, E.; ARAKI, K. Text normalization in social media: progress, problems and applications for a pre-processing system of casual english. Procedia-Social and Behavioral Sciences, Elsevier, v. 27, p. 2 11, 2011. [26] HADDI, E.; LIU, X.; SHI, Y. The role of text pre-processing in sentiment analysis. Procedia Computer Science, Elsevier, v. 17, p. 26 32, 2013. [27] IGAWA, R. A. e. a. Account classification in online social networks with lbca and wavelets. Proceedings of Information Sciences, Elsevier, 2014. [28] MONTEJO-RÁEZ, A. et al. Crowd explicit sentiment analysis. Knowledge-Based Systems, Elsevier, v. 69, p. 134 139, 2014.