RECUPERAÇÃO DE INFORMAÇÃO E CLASSIFICAÇÃO DE ENTIDADES ORGANIZACIONAIS EM TEXTOS NÃO ESTRUTURADOS. Por DANIELLE GUEDES FRUTUOSO

Transcrição

1 RECUPERAÇÃO DE INFORMAÇÃO E CLASSIFICAÇÃO DE ENTIDADES ORGANIZACIONAIS EM TEXTOS NÃO ESTRUTURADOS Por DANIELLE GUEDES FRUTUOSO Dissertação de Mestrado Profissional Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br RECIFE, 2014

2 UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DANIELLE GUEDES FRUTUOSO RECUPERAÇÃO DE INFORMAÇÃO E CLASSIFICAÇÃO DE ENTIDADES ORGANIZACIONAIS EM TEXTOS NÃO ESTRUTURADOS Este trabalho foi apresentado à Pós- Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Orientador: Ricardo Bastos Cavalcante Prudêncio RECIFE, 2014

3 Catalogação na fonte Bibliotecária Jane Souto Maior, CRB4-571 F945r Frutuoso, Danielle Guedes Recuperação de informação e classificação de entidades organizacionais em textos não estruturados / Danielle Guedes Frutuoso. Recife: O Autor, f.: il., fig., tab., gráf. Orientador: Ricardo Bastos Cavalcante Prudêncio. Dissertação (mestrado) Universidade Federal de Pernambuco. CIn, Ciência da computação, Inclui referências. 1. Ciência da computação. 2. Inteligência artificial. 3. Recuperação da informação. I. Prudêncio, Ricardo Bastos Cavalcante (orientador). II. Título. 004 CDD (23. ed.) UFPE- MEI

4 Dissertação de Mestrado Profissional apresentada por Danielle Guedes Frutuoso à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título, Recuperação de Informação e Classificação de Entidades Organizacionais em Textos Não Estruturados, orientada pelo Professor Ricardo Bastos Cavalcante Prudêncio e aprovada pela Banca Examinadora formada pelos professores: Prof. Leandro Maciel Almeida Centro de Informática / UFPE Prof. Renato Fernandes Corrêa Universidade de Pernambuco Prof. Ricardo Bastos Cavalcante Prudêncio Centro de Informática / UFPE Visto e permitida a impressão. Recife, 28 de abril de Profª. EDNA NATIVIDADE DA SILVA BARROS Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

5 Dedico este trabalho aos meus pais pelo amor incondicional e apoio de sempre. E aos meus avôs e avós que mesmo não estando fisicamente presente, estão orgulhosos por essa conquista.

6 Agradecimentos Deixo meus sinceros agradecimentos àqueles que contribuíram de alguma forma para a realização deste trabalho: A Deus, aquele a quem devo tudo que tenho e sou, pela minha saúde, fé e esperança em todos os momentos da minha vida. Aos meus pais, José Câmara e Ademilde, pelo amor, compreensão e apoio sempre prestado, especialmente no período de dedicação a este trabalho onde não pude proporcionar-lhes a atenção merecida. Agradeço também a minha irmã Léa Karine, pelo amor, incentivo e paciência. A coragem e determinação de vocês me dão forças para chegar mais longe. Ao meu noivo, Felipe Burégio, por sempre me incentivar e acreditar em mim, até quando eu mesma duvidei, pois além de incentivar o meu crescimento, sempre tinha palavras otimistas e me estimulava a seguir em frente. Pelo seu amor, carinho, auxílio e sugestões na realização deste trabalho. Obrigada pela compreensão e paciência em meus momentos de estresse, e pelo tempo pausado na organização do nosso casamento. A Kurier, em especial a Leandro Rodriguez, como representante da Diretoria, pela oportunidade oferecida em realizar este mestrado, pelo apoio e compreensão. A meu orientador, Prof. Ricardo Prudêncio, pela confiança, dedicação e paciência durante todo esse tempo de pesquisa, transmitindo seus ensinamentos e sugestões de melhorias para o aperfeiçoamento desse trabalho. Aos professores Leandro Maciel Almeida e Renato Fernandes Corrêa por terem aceitado participar de minha banca e compartilhar seus conhecimentos. Aos meus colegas de turma, especialmente Clayton Aguiar, Késia Marques e Sarah Mesel, pelos momentos vividos, troca de conhecimentos e esforço compartilhado. Ao meu amigo Hilário Tomaz pelos conhecimentos concedidos, suporte e apoio nesta pesquisa. A toda minha família pelo apoio e presença, aos que me incentivaram nesta conquista, meu agradecimento pela compreensão nesses meses de ausência. Enfim, agradeço a todos os meus amigos que me ajudaram com opiniões, ideias e incentivos, contribuindo para realização deste trabalho.

7 Resumo A explosão de dados na internet deixou de ter foco apenas em grandes empresas para ser amplamente utilizada por usuários comuns. Esse crescimento elevado traz consigo grandes desafios em relação à disponibilização da informação. A natureza descentralizada e desestruturada na qual esses dados estão disponíveis, tornam a tarefa de encontrar, analisar e sintetizar comentários sobre uma dada empresa, produto ou serviço extremamente complicada, ocasionando resultados de baixa qualidade. Esta pesquisa tem como foco a extração de informação de textos livres gerados pela rede social Twitter, onde na maioria das vezes apresentam uma estrutura linguística irregular. Dentre os diversos trabalhos relacionados à extração de informação podemos destacar o Reconhecimento de Entidades Mencionadas (REM), cujo objetivo consiste em localizar e classificar elementos do texto em categorias pré-definidas como Organizações, Pessoas, Local, etc. Neste trabalho será considerada apenas a categoria Organização, com ênfase em palavras homônimas. O experimento deste trabalho foi dividido em dois cenários diferentes. Ambos utilizam as mesmas características, a diferença entre os cenários é que no primeiro exige o conhecimento do especialista para determinar todos os atributos considerados relevantes para o aprendizado supervisionado. No segundo cenário, um processo automatizado define parte desses atributos. Os experimentos foram realizados usando a ferramenta Weka onde foram avaliados os classificadores: Naive Bayes, Máquinas de Vetores de Suporte (SVM), K-Vizinhos mais Próximos e Árvores de Decisão. Como medidas de desempenho foram analisadas taxas de acerto, precisão, cobertura e medida-f. Apesar dos resultados apresentados pelos classificadores se mostrarem bastante aproximados, o algoritmo K-Vizinhos mais Próximos obteve em boa parte dos testes melhores resultados. Nos dois cenários os resultados chegaram próximos um do outro, porém o primeiro cenário obteve como resultado médio de acerto, um percentual de 91,7% se destacando em relação à média alcançada de 88,9% para a segunda etapa. Palavras-chave: Classificação de textos. Reconhecimento de Entidades Mencionadas. Entidades Organizacionais.

8 Abstract The the explosion of data on the internet left to have the focus only on large companies but it is an issue of interest common users. This high growth brings challenges regarding the availability of data. The decentralized and unstructured nature of the available data makes the task of finding, analyzing and synthesizing comments regarding a specific company, product or service extremely hard and may cause low quality results. This research is focused on extracting information from free texts generated by the social networking Twitter, which most of the time, shows an irregular linguistic structure. Among the variety of works related to data extraction we can highlight the Named Entity Recognition (NER), The main objective is to locate and classify text elements in pre-defined categories like Organizations, People, Places, etc. In this work only the Organization category will be considered emphasizing homonymous words. This experiment was divided in two different scenarios. Both scenarios use similar characteristics. The difference between them is that the first one requires the knowledge of a specialist to determine all the relevant attributes that will be considered for the supervised learning. In the second scenario, an automated process defines part of the attributes. The experiments were performed using the tool WEKA to evaluate classifiers such as: Naive Bayes, Support Vector Machines, Nearest Neighbors and Decision Trees. As performance measures success rate, precision, coverage and F-measure were analyzed. Although the algorithms obtained similar results, the K-Nearest Neighbor algorithm achieved better results in most part of the experiments. In both scenarios, the results were also similar, but the first scenario obtained as average result hit, a percentage of 91.7% standing out from the average reached 88.9% for the second scenarios. Keywords: Text Classification. Named Entity Recognition. Organizational Entities.

9 Lista de Gráficos Gráfico 1: Melhores Resultados HAREM (Precisão e Cobertura) Gráfico 2: Percentual da classificação da Entidade Gráfico 3: Percentual de documentos e sua relação com os atributos Gráfico 4: Percentual de documentos para cada atributo, considerando as duas classes: Organizacional e Não Organizacional Gráfico 5: Percentual de documentos e sua relação com os atributos, utilizando Top 10 Termos de Inclusão e Exclusão Gráfico 6: Percentual de documentos para cada atributo, utilizando Top 10 Termos de Inclusão e Exclusão, considerando as duas classes: Organizacional e Não Organizacional Gráfico 7: Frequência por atributo na coleção de documentos - Primeira etapa Gráfico 8: Frequência por atributos wordinc e wordexc na coleção de documentos Primeira Etapa Gráfico 9: Frequência por atributo na coleção de documentos - Segunda etapa Gráfico 10: Frequência dos atributos wordinc e wordexc na coleção de documentos Segunda Etapa... 62

10 Lista de Figuras Figura 1: Arquitetura Simplificada do Aprendizado Supervisionado Figura 2: Atividades realizadas na execução dos experimentos Figura 3: Exemplo de arquivo de entrada do Weka Figura 4: Exemplo de validação cruzada utilizando 3-folds Figura 5: Medidas de avaliação Figura 6: Matriz de confusão de cada classificador para a Entidade Claro nas duas etapas do experimento Figura 7: Matriz de confusão de cada classificador para a Entidade Extra nas duas etapas do experimento Figura 8: Matriz de confusão de cada classificador para a Entidade Ferreira Costa nas duas etapas do experimento Figura 9: Matriz de confusão de cada classificador para a Entidade Ford nas duas etapas do experimento Figura 10: Matriz de confusão de cada classificador para a Entidade Garoto nas duas etapas do experimento Figura 11: Matriz de confusão de cada classificador para a Entidade Oi nas duas etapas do experimento Figura 12: Matriz de confusão de cada classificador para a Entidade Renner nas duas etapas do experimento Figura 13: Matriz de confusão de cada classificador para a Entidade Sadia nas duas etapas do experimento Figura 14: Árvore de decisão de forma textual gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na primeira etapa do experimento Figura 15: Árvore de decisão gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na primeira etapa do experimento Figura 16: Árvore de decisão de forma textual gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na segunda etapa do experimento Figura 17: Árvore de decisão gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na segunda etapa do experimento

11 Lista de Tabelas Tabela 1: Resultado da classificação semântica do HAREM I Tabela 2: Resultado da classificação semântica do HAREM II Tabela 3: Lista dos atributos utilizados no experimento Tabela 4: Lista de Palavras antecedentes Tabela 5: Lista de Termos de Inclusão e Exclusão para a Entidade Garoto Tabela 6: Taxa de acerto obtida pelo Weka para as oito entidades avaliadas na primeira etapa Tabela 7: Taxa de acerto obtida pelo Weka para oito entidades avaliadas na segunda etapa Tabela 8: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Claro Tabela 9: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Extra Tabela 10: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Ferreira Costa Tabela 11: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Ford Tabela 12: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Garoto Tabela 13: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Oi Tabela 14: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Renner Tabela 15: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Sadia... 69

12 Principais Siglas ACE AM API ARFF CD CH CoNLL EM EN HAREM HTML IBK K-NN ML MET MUC NB NER ORG REM ReRelEM RI SAHARA SVM SMO XML WEKA Automatic Content Extraction Aprendizado de Máquina Application Programming Interface Attribute-Relation File Format Coleção Dourada Coleção HAREM Conference on Computational Natural Language Learning Entidade Mencionada Entidade Nomeada Avaliação de Sistemas de Reconhecimento de Entidades Mencionadas HyperText Markup Language Instance-Bases learning with parameter k K-Nearest Neighbor Machine Learning Multilingual Entity Task Message Understanding Conferences Naive Bayes Named Entity Recognition Organizacional Reconhecimento de Entidades Mencionadas Reconhecimento de Relações entre Entidades Mencionadas Recuperação da Informação Serviço de Avaliação HAREM Automático Support Vector Machine Sequential Minimal Optimization extensible Markup Language Waikato Environment for Knowledge Analysis

13 Sumário 1. Introdução Contexto Geral Contexto Específico Trabalho Realizado Estrutura da dissertação Revisão da Literatura Reconhecimento de Entidades Mencionadas (REM) Conferências de Avaliação em REM Recursos auxiliares na tarefa de REM Classificação de Textos Aprendizado de Máquina Conjunto de Treinamento e Testes Considerações Finais Método de Pesquisa Objetivos Experimentos Base de Experimentos Características Algoritmos utilizados Estratégia de Treinamento e Teste Medidas de Avaliação Considerações Finais Resultados Análise Exploratória Desempenho de Classificação... 63

14 Avaliação das Medidas de Precisão, Cobertura e Medida-F Matriz de Confusão Árvore de Decisão Considerações Finais Conclusões Resumo das Contribuições Limitações da Pesquisa Considerações para Trabalhos Futuros Referências... 83

15 14 Capítulo 1 1. Introdução Este capítulo descreve o contexto desta pesquisa, os objetivos almejados, além de relatar as principais motivações para realização deste trabalho, e por fim, descreve a estrutura da presente dissertação.

16 Contexto Geral O volume de informação publicada na internet cresce a cada dia, e à medida que novos documentos digitais vão surgindo, grandes desafios são enfrentados pelas organizações na tentativa de conseguir classificar e organizar esses documentos de forma eficiente. A extração, recuperação de dados, classificação de texto e reconhecimento de entidades mencionadas têm sido objeto de estudo de muitas pesquisas recentes, visto que, as publicações de usuários têm ganhado grande espaço na internet. A rede social Twitter, assim como algumas outras redes sociais, tem se mostrado uma importante ferramenta para comunicação e troca de informação, uma fonte quase inesgotável de dados, onde milhares de usuários expressam livremente suas opiniões, comentários e sentimentos. Essas informações são bastante úteis para obtermos as visões dos usuários referentes a alguma entidade (um produto específico, uma empresa, um lugar, uma pessoa). Entretanto, esses dados nem sempre estão facilmente acessíveis, não possuem padrão e o usuário pode escrever da sua forma, com gírias, abreviações, erros gramaticais. As informações publicadas são disponibilizadas de forma não estruturada, fator que torna a tarefa de localizar, avaliar e classificar uma determinada entidade de pesquisa bastante complicada. Diante desta realidade, realizar esse processo de forma manual termina sendo muito extensa, custosa e vagarosa, e na maioria dos casos é inviável fazer a análise, fazendo-se necessária uma busca automática. A partir da motivação em identificar Entidades Mencionadas nas postagens do Twitter, será utilizado nesta dissertação o Reconhecimento de Entidades Mencionadas (REM), que segundo Carvalho (2012), é uma subtarefa da extração de informações que tem como finalidade localizar e classificar elementos do texto em categorias pré-definidas, como nomes de pessoas, organizações, lugares, tempo entre outras classes. 1.2 Contexto Específico Partindo desta crescente disponibilização de dados textuais na internet, onde organizações/portais de notícias e muitos usuários passaram a compartilhar seus conhecimentos, críticas e opiniões nas redes sociais, esses dados podem ser

17 16 importantes e de grande valia para empresas que pretendem melhorar e divulgar seus produtos: as opiniões de seus clientes em relação a seus produtos e aos produtos da concorrência. As opiniões e experiências de outros usuários sobre algum produto, marca ou serviço tornam-se de extrema importância na hora de tomar uma decisão de compra. A rede social Twitter foi escolhida nessa pesquisa por se tratar de uma fonte com ricas informações populares e bastante variadas. Segundo dados estatísticos levantados pelo Socialnomics (2013), podemos destacar: 53% das pessoas no Twitter recomendam produtos em seus tweets. 90% dos consumidores acreditam em recomendações de amigos. Apenas 14% acreditam em anúncios. Diante da importância de uma Organização em obter as informações que os usuários falam à seu respeito, será dado foco nesta pesquisa à REM cuja categoria se enquadra em Organização. Entretanto essa extração e reconhecimento tornamse um pouco mais complexos quando o nome da Organização é um caso de homonímia, que são palavras com a mesma grafia e possuem mais de um significado. Um exemplo disso é possível verificar na postagem: mês passado decidi abrir uma franquia da sadia no congelador de casa. Congelada é minha especialidade. O termo Sadia, de forma isolada pode significar um adjetivo ou uma entidade organizacional. Em contrapartida, ao analisar o termo Sadia no contexto da postagem refere-se a uma Organização. O REM para entidades Organizacionais será utilizado nesta pesquisa, considerando a necessidade de uma Organização receber as informações sobre sua marca/produto/empresa, de forma que sejam enviadas apenas as postagens relevantes, eliminando as informações onde a entidade não diz respeito à Organização. Um estudo de palavras com mais de um significado para entidades Organizacionais será realizado nesta pesquisa utilizando o contexto para ajudar no processo de desambiguação.

18 Trabalho Realizado O objetivo desta pesquisa de mestrado é criar uma metodologia que possibilite, a partir de posts recuperados da rede social Twitter, identificar as entidades pesquisadas nessas postagens e classificar em uma das duas classes: Organizacional ou Não Organizacional. A dificuldade desta classificação deve-se ao fato de que foi considerada para as entidades pesquisadas, casos de homonímia. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM, e é utilizado o aprendizado supervisionado, desta forma é necessário ter um conjunto de exemplos para treinar o sistema. Cada exemplo está associado a uma postagem contendo o termo de interesse e armazena: (1) características extraídas do post após uma etapa de pré-processamento; e (2) um rótulo indicando a classe da postagem em Organizacional ou Não Organizacional. Como base para a pesquisa, postagens foram capturadas do Twitter, sendo 500 para cada uma das oito entidades pesquisadas: Claro, Extra, Ferreira Costa, Ford, Garoto, Oi, Renner e Sadia, onde são consideradas casos homônimos, onde um dos significados é nome de Organização. 1.4 Estrutura da dissertação Esta dissertação está dividida em cinco capítulos. Este capítulo apresentou o contexto desta pesquisa, os objetivos almejados, as principais motivações, e a estrutura da dissertação, conforme a seguir: Capítulo 2 Revisão da Literatura: É apresentado o referencial teórico utilizado como base para esta dissertação, são especificados conceitos, terminologias, algumas conferencias e abordagens para a resolução do problema de Reconhecimento de Entidades Mencionadas, é introduzida a importância da classificação de textos baseada em técnicas de aprendizagem de máquina. Capítulo 3 Método de Pesquisa: Descreve as técnicas empregadas neste trabalho e a base utilizada para realização dos experimentos. Assim como os atributos relevantes, os algoritmos e as medidas de avaliação da classificação.

19 18 Capítulo 4 Resultados: Este capítulo apresenta os resultados alcançados, onde os experimentos são comparados nas duas etapas realizadas nesta pesquisa. Os resultados obtidos para cada entidade e classificadores também são confrontados de forma a exibir uma análise dos melhores desempenhos. Capítulo 5 Conclusões: Descreve as considerações finais da dissertação, discutindo as contribuições desta pesquisa, limitações encontradas e propostas para trabalhos futuros.

20 19 Capítulo 2 2. Revisão da Literatura Este capítulo apresenta o referencial teórico para a dissertação, a importância, conceitos, terminologias, algumas conferencias e abordagens para a resolução do problema de REM. Também é apresentada a importância da classificação de textos diante da crescente disponibilização de textos na internet, baseando-se em técnicas de aprendizagem de máquina.

21 Reconhecimento de Entidades Mencionadas (REM) Entidades mencionadas (EM) foi a tradução (ou melhor, adaptação) do conceito usado em inglês, named entities, e que literalmente poderá ser traduzido para entidades com nome próprio (SANTOS; CARDOSO, 2007) Segundo Amancio (2009), EM têm a mesma definição de Entidades Nomeadas (EN), porém Entidades Mencionadas dependem do contexto em que se encontram para que sejam resolvidas. Por exemplo, o termo Brasil, quando sozinho, representa o país mais populoso da América Latina. Porém, se o considerarmos na frase: Brasil e Portugal jogam amanhã, Brasil representa a seleção brasileira de futebol. Brasil, sem contexto, é considerado uma EN, já, com contexto, uma EM. Diferentes técnicas são aplicadas para a resolução do problema de REM, tais como sistemas baseados em regras e técnicas de aprendizado de máquina. Alguns desses sistemas fazem uso de regras específicas da linguagem adicionados ao uso de técnicas de aprendizado de máquina, fazendo assim o seu sistema mais especializado para uma língua ou outra. Entidades Mencionadas são palavras da classe de substantivos próprios. Definem nomes para lugares, pessoas, organizações, etc. REM é a tarefa de localizar e explicitar as Entidades Mencionadas em um texto. Essa explicitação significa o enquadramento dessa entidade em uma ontologia específica, previamente estabelecida. (AMANCIO, 2008). O foco deste trabalho é o Reconhecimento de entidades que caracterizam uma organização. Segundo Sardinha (2004), Corpus é um conjunto de textos que são compilados para um fim específico. É um recurso linguístico na atividade de REM. Metapalavras, nomenclatura herdada de Aranha (2007b), representam as palavras das vizinhanças das entidades. Estas palavras muitas vezes dão indicações das classes destas entidades. Por isso, Metapalavras são geralmente usadas na etapa de desambiguação. Por exemplo, na sentença A avenida de Santa Teresinha não está presente no mapa. A presença da metapalavra a avenida ajuda a identificar a EM Teresinha como sendo o nome de uma avenida, que poderia ser confundido por

22 21 um nome de pessoa (dica falsa: Teresinha ) ou o nome de uma santa do catolicismo (dica falsa: Santa ). Adivinhação, nomenclatura herdada de Aranha (2007b), são similares às Metapalavras. Adivinhações são palavras que fazem parte das entidades e também dão dicas de sua classificação. São usados na etapa de classificação. Exemplo: Dr., Sr., Sra., Exmo. Gazetteers/Almanaques são dicionários de Entidades Mencionadas. Podem ser compilados de forma semiautomática, automática ou manual (NADEAU, 2007). Alguns procedimentos naturais para humanos, como é o caso de ambiguidades, tornam-se difíceis quando realizados por um sistema especialista. Baseados em Aranha (2007a) podemos exemplificar: 1. Danielle G. Frutuoso 2. Lutador Júnior dos Santos Almeida 3. Diretor da Kurier Leandro Rodriguez 4. Renner O exemplo 1 refere-se a um nome próprio não comum porque há uma abreviação no meio onde poderia ser considerado como final de uma frase, podendo o sistema interpretar como final de sentença, considerando neste caso, duas frases. No exemplo 2, a presença do termo dos pode fazer com que um sistema de REM separe em dois nomes distintos: Lutador Júnior e Santos Almeida. No exemplo 3 realmente existem duas entidades, porém não há alguma indicação de onde fracionar. Finalmente, no exemplo 4, ocorre um problema de ambiguidade, onde a entidade Renner pode significar uma Organização (loja) ou o nome de uma pessoa. Esta dissertação terá como foco, situação como o exemplo 4, onde uma palavra possui mais de um significado, e será utilizado o contexto para ajudar no processo de desambiguação. Conferências de Avaliação em REM Existem várias conferências de avaliação internacionais dedicados ao domínio de EM, entre os quais se destacam o MUC (Message Understanding Conferences), MET (Multilingual Entity Task), CoNLL (Conference on Computational

23 22 Natural Language Learning), ACE (Automatic Content Extraction) e o HAREM (Avaliação de Reconhecimento de Entidades Mencionadas), para a língua portuguesa. As conferências apresentadas abaixo descrevem categorias avaliadas para a classificação de REM, e destacamos que o foco deste trabalho está na subcategoria de organização. MUC Conforme descrito por Carvalho (2012), o MUC, foi uma série de eventos ocorridos entre 1987 e 1998, e tinha como propósito avaliar e promover o progresso nas pesquisas em relação à extração de informações e padronizar a avaliação das tarefas dessa área. O MUC-6 foi o sexto evento desta série, ocorrido em novembro de O REM para a língua inglesa foi uma das tarefas que estavam envolvidas nessa conferência. No MUC-7, realizado em 1998, também foi dado ênfase na avaliação de sistemas de REM. O MUC apresenta uma divisão em três categorias: i) entidades de nomes próprios (ENAMEX), subcategorizados como organização (ORGANIZATION), pessoa (PERSON) e lugar (LOCATION); ii) expressões temporais (TIMEX), com as subcategorias, data (DATE) ou medidas de tempo (TIME); iii) expressões numéricas (NUMEX), subcategorizados em valores monetários (MONEY) ou percentuais (PERCENT). MET Em paralelo com o MUC, entre os anos 1996 e 1998 aconteceu o MET, primeira conferencia multilíngue de avaliação em REM (MERCHANT; OKUROWSKI; CHINCHOR, 1996). Nos dois eventos realizados, o MET adotou a mesma metodologia de avaliação do MUC. As línguas inglesa e espanhola foram utilizadas nas coleções de texto do primeiro evento do MET, enquanto que o segundo evento se baseou no inglês, japonês e chinês (SANTOS; CARDOSO, 2006). CoNLL A CoNLL é uma série de conferências que tem como objetivo promover a pesquisa e avaliação em diversas áreas de PLN. Sua primeira edição data de A conferência de 2002, CoNLL-2002, tinha como tarefa compartilhada promover a

24 23 investigação em sistemas de REM independentes da língua. Nesta conferência quatro categorias foram consideradas para classificação: Local, Organização, Pessoa e Diversos, nesta última categoria são consideradas entidades diversas que não se encaixam em nenhuma das categorias anteriores. Neste evento de 2002 usou-se o espanhol e o flamengo nas coleções de texto. Na conferência de 2003, CoNLL-2003, novamente o REM independente de linguagem foi o foco da tarefa compartilhada, porém as línguas alvos desse evento foram as línguas inglesa e alemã (CARVALHO, 2012). ACE O ACE promove eventos de avaliação desde o ano 2000 e estes eventos incluem uma tarefa de REM chamada EDT - Entity Detection and Tracking, com o propósito de detectar, classificar as EM e também suas respectivas referências anafóricas (nomes, descrições ou pronomes). A coleção de texto do ACE incluiu Inglês, Chinês e Árabe, e foi disponibilizada em texto, som e imagem. As categorias desta conferência foram mais abrangentes estendendo-se ao domínio militar, contendo categorias semânticas como entidades geopolíticas, veículos, armas ou instalações (facilities) (CARDOSO, 2006). HAREM O HAREM representa a primeira avaliação conjunta de sistemas de REM em português, iniciado em 2005 e organizado pelo Linguateca 1. Avaliação conjunta é um meio de comparar vários sistemas que concordam na execução de alguma tarefa. A avaliação do HAREM obedece um conjunto de diretivas estabelecidas junto com os participantes do próprio HAREM, denominada Diretivas de Avaliação do HAREM. Estas diretivas representam as medidas, regras e conjunto de pontuações usadas para conferir as saídas dos sistemas em relação à Coleção Dourada (CD), que é o texto de comparação utilizado pelo evento, criado em conjunto com a comunidade (CARVALHO, 2012). O HAREM já organizou três eventos de avaliação conjunta: Primeiro HAREM com 2 eventos: o Primeiro evento: Fevereiro de acessado em: 12 de janeiro de 2014.

25 24 o Segundo evento, MINI-HAREM : Abril de 2006 Segundo HAREM: Abril de O HAREM apresenta as seguintes características, segundo Santos e Cardoso (2009): 10 categorias (PESSOA, ORGANIZACAO, LOCAL, TEMPO, ABSTRAÇÃO, COISA, OBRA, ACONTECIMENTO, VALOR E VARIADO), contendo 41 tipos; Utilização de uma coleção, chamada Coleção HAREM (CH) contendo uma média de 1200 documentos, de origens distintas, gêneros diferentes de português (textos jornalísticos); Coleção Dourada, em média 1/8 da CH, extenuantemente anotada e revisada por diversos anotadores; Nenhuma decisão arbitrária. Entre os principais sistemas participantes do HAREM I, destacam-se o sistema PALAVRAS de Bick (2000) e o SIEMES, primeiros e segundo colocados, respectivamente. O sistema PALAVRAS NER é baseado em Restrições de Gramática, tratando o Reconhecimento de Entidades Nomeadas como uma tarefa integrada da marcação gramatical. Considerando sua versão inicial, o seu conjunto de entidades mencionadas está dividido em seis categorias e uma média de vinte subcategorias. Sua participação no Primeiro HAREM conseguiu 80,61% na medida-f na tarefa de identificação, o que o colocou como vencedor na avaliação desta medida (BICK, 2007). O sistema SIEMES explicado por Sarmento (2006) é um sistema realizado em três estágios: Identificação, Classificação e Desambiguação. Utiliza cinco regras de associação dos termos das EM no seu extenso almanaque considerado o maior almanaque reproduzido na língua portuguesa por um sistema de REM. Possui 102 tipos em 11 categorias. Na segunda edição do HAREM, foram incluídas algumas tarefas relevantes, como a introdução da tarefa ReRelEM (Reconhecimento de Relações entre Entidades Mencionadas), que objetiva encontrar relações entre entidades

26 25 mencionadas. Os sistemas vencedores foram o PRIBERAM e o REMBRANDT, primeiro e segundo colocados, respectivamente (MOTA; SANTOS, 2008). Com ontologia multilíngue própria, o PRIBERAM baseia-se em relações semânticas e conceituais entre palavras e expressões. É um sistema de regras gramáticas manuais que utiliza anotações morfossintáticas. REMBRANDT aborda duas técnicas principais. A primeira, mais atual, é a utilização da enciclopédia Wikipédia, recurso abrangente em temas, criado manualmente. A segunda estratégia refere-se à utilização de regras gramaticais durante a fase de identificação e classificação das EMs. Ferramenta de Avaliação do Segundo HAREM Segundo Cardoso (2008), O SAHARA (Serviço de Avaliação HAREM Automático) é um serviço na rede que possibilita a avaliação imediata de saídas de sistemas de REM conforme o ambiente de avaliação usado no Segundo HAREM. O SAHARA auxilia consideravelmente a avaliação de sistemas de REM, uma vez que acaba com a necessidade de executar uma série de comandos específicos de cada programa de avaliação para obter um conjunto de valores de desempenho. O SAHARA permite ainda a conferência imediata com os resultados oficiais do Segundo HAREM, assim como o acesso aos resultados de cada programa de avaliação, para depuração mais detalhada. Uma avaliação no SAHARA decorre em três passos: 1. Confirmação da corrida remetida pelo utilizador, conforme formato do Segundo HAREM; 2. Configuração da avaliação desejada, o que significa a definição dos cenários, coleções a serem utilizadas e modos de avaliação; 3. Exposição dos resultados, contendo um conjunto de gráficos e tabelas que sintetizam o desempenho do sistema. Recursos auxiliares na tarefa de REM Nesta seção, apresentam-se dois recursos utilizados na tarefa de REM: a Coleção Dourada e o gazetteer REPENTINO. A COLEÇÃO DOURADA como descrito anteriormente, é um corpus criado para o uso da avaliação dos sistemas no HAREM. No segundo HAREM, foi criado

27 26 um corpus com 129 textos de diversos gêneros e, neste corpus, vários anotadores humanos se encarregaram de anotar manualmente os textos conforme as diretivas disponibilizadas de Reconhecimento de Entidades Mencionadas do HAREM clássico. (AMANCIO, 2009) O REPENTINO é um dicionário de EN compilado no polo de pesquisas Linguateca (SARMENTO; PINTO; CABRAL, 2006). Este grupo de pesquisadores, na construção do sistema SIEMES, identificou a escassez deste recurso linguístico (gazetteer) para a língua Portuguesa e iniciou a tarefa de construir o seu próprio gazetteer. Atualmente, o REPENTINO 2 está disponível publicamente. Este gazetteer é composto por mais de 450 mil entradas divididas em 11 categorias e 102 subcategorias 3. Foi dada preferência à generalidade de tópicos em relação a aprofundar-se em poucos deles. Assim, diz-se que o REPENTINO é um gazetteer de escopo amplo. Apesar de ser compilado de forma semiautomática, teve uma validação totalmente manual. O fato da precisão humana neste processo torna este recurso valioso. O conteúdo da base REPENTINO é constituído de etiquetas XML (extensible Markup Language) 4. O REPENTINO representa a tarefa de REM através do uso de codificação de regras. Estas regras buscam relação interna entre as palavras no texto e no gazetteer. Por exemplo, se encontramos no gazetteer a entidade Digital Ltda como sendo o nome de uma empresa, logo se pode deduzir que a entidade Dicom Ltda também se encontra mesma categoria, devido à terminação Ltda. Na Tabela 1, é exibido o resultado da classificação semântica dos sistemas vencedores do HAREM I, na Tabela 2 o resultado dos sistemas vencedores do HAREM II. As estatísticas apresentadas nas Tabelas 1 e 2 não estão separadas por categorias, o que dificulta uma comparação mais precisa em relação à pesquisa deste trabalho. As diferenças de resultado dessas avaliações conjuntas refletem as dificuldades impostas naquele cenário. 2 acessado em 02 de dezembro de acessado em 02 de dezembro de acessado em 22 de março de 2014.

28 27 Tabela 1: Resultado da classificação semântica do HAREM I Precisão (%) Abrangência (%) Medida-F Palavras 56,30% 60,42% 63,00% Siemês 57,28% 49,85% 56,30% Fonte: Amancio, 2009 Tabela 2: Resultado da classificação semântica do HAREM II Precisão (%) Abrangência (%) Medida-F Priberam 64,17% 51,46% 57,11% Rembrandt 64,97% 50,30% 56,74% Siemês 57,28% 49,85% 56,30% Fonte: Amancio, 2009 Através dos dados apresentados na tabela 1, é possível verificar que o sistema Palavras obteve melhor resultado com a medida Medida-F chegando a 63% contra 56,30% do sistema Siemês. Na tabela 2, a medida da precisão obteve melhores resultados, se destacando o sistema Rembrandt, com 64,97%. O Gráfico 1, a seguir, apresenta as categorias utilizadas na anotação da Coleção Dourada e os melhores resultados de precisão e cobertura obtidos para cada uma das categorias.

29 28 Gráfico 1: Melhores Resultados HAREM (Precisão e Cobertura) Fonte: Adaptado de SANTOS e CARDOSO (2006) apud SILVA (2012). Conforme o gráfico 1, as categorias Valor e Tempo conseguiram melhores resultados de precisão e cobertura. A categoria Organização, a qual é o foco desta pesquisa, conseguiu resultados próximos de 50% para precisão e um pouco mais de 60% para cobertura. As medidas de avaliação utilizadas no experimento desta pesquisa foram baseadas na precisão, abrangência, medida-f, também foi considerada a taxa de acerto. Estas medidas serão discutidas no capítulo 3, seção Medidas de Avaliação. 2.2 Classificação de Textos A constante disponibilização de documentos textuais na internet vem fazendo com que a tarefa de classificação de texto ou categorização de texto ganhe cada vez mais utilidade. Com essa sobrecarga de documentos disponíveis para consulta, o acesso aos dados desejados vem se tornando cada vez mais difícil, ocasionando resultados de baixa qualidade devido às dificuldades de compreensão do texto, os quais são

30 29 formados muitas vezes, por palavras que geram problemas de entendimento como ambiguidades, polissemias, sinonímias, conforme semântica 5 do texto. A classificação de textos deu início com a necessidade de guardar um grande volume de documentos para leitura e realizar pesquisa posteriormente. Em uma coleção pequena de documentos, até é possível realizar a busca sequencialmente, porém, à medida que a quantidade de documentos aumenta, cresce a dificuldade de encontrar a informação desejada. Esse problema vem desde 1960, porém só no início dos anos 90, a classificação de textos começou a ser largamente utilizada, tornando-se um importante subcampo da disciplina de Sistema de Informação, graças à disponibilidade de máquinas mais potentes e da facilidade de publicação de textos em forma eletrônica (SEBASTIANI 1999). De forma breve, a classificação de textos consiste no processo de classificar automaticamente um conjunto de documentos em uma ou mais categorias préexistentes facilitando a busca seletiva de informações. Duas principais abordagens são utilizadas para realizar a classificação de textos. A primeira abordagem é a engenharia de conhecimento (knowledge engineering) na qual o conhecimento específico sobre as categorias é codificado diretamente no sistema de forma declarativa ou sob a forma de regras de classificação processuais. Um especialista do domínio define um conjunto adequado de condições para que um documento seja classificado em uma determinada categoria. O desenvolvimento das regras de classificação pode ser bastante custoso e lento. A outra abordagem é o aprendizado de máquina (ML Machine Learning) na qual um processo indutivo genérico constrói um classificador por aprendizagem através de um conjunto de exemplos pré-classificados (FELDMAN; SANGER, 2007). Os sistemas de engenharia de conhecimento geralmente superam os sistemas de aprendizado de máquina, no entanto o desempenho é afetado pois é minimizado de forma constante, pelo fato da enorme quantidade de conhecimento do trabalho e pelo fato da necessidade do especialista altamente qualificado para criar e manter as regras de codificação de conhecimento. Portanto, a maior parte dos trabalhos recentes sobre categorização está concentrada na abordagem de aprendizado de máquina, que requer apenas um 5 acessado em 25 de fevereiro de 2014.

31 30 conjunto de instâncias de treinamento classificados manualmente, considerando assim, uma prática menos custosa do que a engenharia do conhecimento Feldman e Sanger (2007). Neste trabalho foi utilizada a abordagem do aprendizado de máquina baseadas em conjuntos de dados de treinamento. Maiores explicações do Aprendizado de máquina estão descritas na sessão seguinte. Aprendizado de Máquina Existem diversos problemas que não podem ser resolvidos através de procedimentos de programação convencional. Como por exemplo, desenvolver um programa convencional de computador que realize a classificação de um texto na categoria a qual ele pertence, ou o reconhecimento de um caractere que foi escrito à mão. A construção do aprendizado humano nos casos exemplificados é realizada através da apresentação prévia de elementos individuais para posteriormente obter o reconhecimento. Aprendizado de Máquina é uma área de pesquisa que está concentrada no desenvolvimento de algoritmos que melhoram automaticamente algum aspecto de seu desempenho por meio da experiência (ALPAYDIN, 2010). Uma das tarefas de Aprendizado de máquina é a classificação de Textos. A classificação pode ser definida pela tarefa de atribuir um valor booleano {T, F} para cada par de {dj, ci} D x C, onde D é o domínio de documentos, e C é o conjunto de categorias pré-definidas. Dessa forma, um valor T atribuído a {dj, ci} indica a decisão de classificar dj em ci, enquanto F indica a decisão de não classificar dj em ci. O classificador é definido por uma função ɸ: D x C {T, F}, que aproxima uma função desconhecida ɸ : D x C {T, F}, que descreve como os documentos realmente devem ser classificados (SEBASTIANI, 2002). Segundo Baeza-Yates e Ribeiro-Neto (2011), há três tipos de aprendizado que empregam os algoritmos de aprendizagem de máquina: 1) o Aprendizado Supervisionado, que necessita de treinamento a partir de dados de entrada fornecidos por um especialista; 2) Aprendizado Não supervisionado, no qual não há treinamento, essa categoria aprende relacionamentos em dados não rotulados; e 3) Aprendizado Semi Supervisionado, que une um pequeno conjunto já classificado e um grande conjunto não classificado, para melhorar as predições.

32 31 Neste trabalho será dado foco no Aprendizado Supervisionado, a fim de obter melhores resultados. Através da comparação entre as saídas desejadas e as fornecidas pelo algoritmo de treinamento é possível avaliar o desempenho do modelo de classificação. Para realizar o aprendizado supervisionado é necessário que o algoritmo treinado, além do conjunto de entrada, tenha também o resultado esperado para cada entrada. Assim, o algoritmo irá analisar as características dos dados de entrada avaliando quais são mais relevantes para obter o resultado esperado. A Figura 1 apresenta uma arquitetura simplificada do aprendizado supervisionado. Figura 1: Arquitetura Simplificada do Aprendizado Supervisionado. Fonte: SILVA (2012). Feldman e Sanger (2007) citam quatro pontos fundamentais que devem ser levados em consideração quando se utiliza técnicas de aprendizado de máquina para desenvolver uma aplicação baseada na categorização de texto. Primeiro, é preciso decidir quais as categorias que serão utilizadas para classificar as instâncias. Segundo, é necessário fornecer um conjunto de treinamento para cada uma das categorias. Em terceiro lugar, deve-se decidir sobre as características que representam cada uma das instâncias. Finalmente, é preciso decidir sobre o algoritmo a ser utilizado para a classificação. Podemos citar como exemplo algumas abordagens utilizadas por determinados algoritmos para classificação de texto com aprendizado supervisionado: decision tree (MARTINS; COSTA; MARQUES, 2009), nearest neighbors (YANG; XIU, 1999), naive Bayes (OGURI; MILIDIÚ; RENTERÍA, 2006) e support vector machines (FELDMAN; SANGER, 2007).

33 32 Dentre todas as possibilidades disponíveis serão apresentados quatro importantes algoritmos de classificação, bastante utilizados por serem mais simples e eficazes, os quais serão descritos em maiores detalhes no capítulo 3 deste trabalho. Apesar do método de aprendizado supervisionado proporcionar grandes vantagens, algumas dificuldades são deparadas em sua criação. É importante que a base de exemplos esteja correta e que possa compreender grande parte dos contextos existentes, a fim de exibir o menor número de erros possíveis. Quando um contexto não é inserido nos exemplos o sistema não será capaz de aprender toda uma classe de sentenças, e caso ocorra algum erro nos exemplos, esse erro poderá ser generalizado pelo sistema. Por este motivo, a criação de uma base de exemplos é cansativa e custosa, visto que requer mão de obra especializada e um grande esforço de tempo. Conjunto de Treinamento e Testes Conforme descrito em Feldman e Sanger (2007), qualquer experimento de Classificação de Textos exige uma coleção de documentos rotulados com um conjunto de categorias. Esta coleção é dividida em duas partes: os conjuntos de treinamento e de documentos de teste. O conjunto de treinamento, como o nome sugere, é usado para treinar o classificador, e o conjunto de teste é aquele no qual são calculadas as medidas de desempenho. Normalmente, o conjunto de teste é menor que o conjunto de treinamento. Um ponto importante na escolha do conjunto de treinamento é diversificá-lo, para que a função de classificação não se ajuste muito às amostras de treinamento. O ideal é que o algoritmo construído tenha a capacidade de generalizar o conhecimento adquirido para novas situações que não foram apresentadas durante o treinamento. No entanto, um dos principais problemas nos algoritmos de aprendizagem de máquina é a especialização ou sobreajuste (do inglês overfitting) de suas regras, onde as regras do algoritmo não generalizam bem e passam a decorar situações dadas como entradas (MITCHEL, 1997). A redução da dimensionalidade pode consequentemente reduzir o problema do overfitting, o qual ocorre quando um classificador se adapta aos documentos de treino, podendo reduzir a sua taxa de acerto na classificação de novos documentos.

34 33 Quando ocorre esse problema, o classificador tende a ser muito bom na classificação de documentos de treino, mas muito ruim na classificação de novos documentos (MITCHEL, 1997). De acordo com Duda et. al. (2000), uma técnica bastante aplicada pelos algoritmos de aprendizagem na tentativa de se evitar overfitting e de averiguar a robustez dos resultados gerados, é a validação cruzada. Esta validação consiste na divisão do conjunto total de padrões em N grupos com tamanhos aproximadamente iguais, assim realizando o treinamento N vezes, sendo a cada treinamento um dos grupos deixado para teste e os outros N-1 para treinamento. Esta técnica será melhor apresentada na seção Estratégia de Treinamento e Teste. Além da redução das dimensões do documento, também é necessário realizar algum tipo de limpeza nos documentos adquiridos. Algumas tarefas de Pré- Processamento devem ser realizadas para se obter o conjunto de termos que representa a estrutura do documento processado nos níveis desejados, como parágrafos, períodos, sentenças ou palavras (FELDMAN; SANGER, 2007). Uma das tarefas é a Tokenização, a qual é utilizada para decompor o documento em cada termo que o compõe. Alguns delimitadores geralmente utilizados são: o espaço em branco entre os termos, quebras de linhas, tabulações, e alguns caracteres especiais. Outra tarefa de Pré-Processamento é a remoção de Stopwords que são palavras funcionais que na maioria das vezes não agregam conhecimento útil para a análise do texto. Stopwords é uma lista geralmente composta por: preposições, artigos, advérbios, números, pronomes e pontuação. A tarefa de Stemming é o método para redução de um termo ao seu radical, removendo as desinências, afixos, e vogais temáticas. Esta tarefa geralmente utilizada em pré-processamentos não será utilizada neste projeto de pesquisa, pelo fato de que, ao reduzir uma palavra ao seu radical, poderá alterar o sentido da mesma e influenciar na classificação da postagem. 2.3 Considerações Finais Neste capítulo foi fornecido um referencial teórico sobre o estudo desta dissertação, onde foram apresentados conceitos de EM e EN, salientando que EM depende do contexto em que se encontra para que seja resolvida.

35 34 Foi possível destacar algumas situações em que são consideradas naturais para humanos, como é o caso de ambiguidades, no entanto, tornam-se difíceis quando realizados por um sistema especialista. Foram apresentadas algumas conferências internacionais de avaliação, dedicados ao domínio de EM, entre os quais se destacam o MUC, MET, CoNLL, ACE e o HAREM, este último voltado para a língua portuguesa. Diante da necessidade da classificação de textos foi destacada a aprendizagem de máquina baseada no Aprendizado Supervisionado, e algumas abordagens que são utilizadas por determinados algoritmos para classificação de texto com aprendizado supervisionado. Podemos destacar aquelas que serão utilizadas nesta pesquisa: decision trees, nearest neighbors, naive Bayes e support vector machines. Na classificação de textos é necessário ter uma coleção de documentos rotulados com um conjunto de categorias. Esta coleção é repartida em duas: conjunto de treinamento, para treinar o classificador, e o conjunto de teste para calcular as medidas de desempenho. Uma observação importante na seleção do conjunto de treinamento é diversificá-lo, para que a função de classificação não se ajuste muito às amostras de treinamento. A criação de uma base de exemplos é tediosa e custosa, pelo fato de demandar serviço especializado e grande esforço de tempo.

36 35 Capítulo 3 3. Método de Pesquisa Este capítulo descreve a metodologia empregada neste trabalho e a realização dos experimentos. Apresenta a base de informações utilizada, as características destacadas, os algoritmos e medidas que constituíram a avaliação da classificação.

37 Objetivos A ideia por trás desta proposta é que as organizações possam ficar cientes do que as pessoas que utilizam os meios sociais para se expressar, falam a respeito do seu produto/marca. Um exemplo da necessidade a ser atendida nessa proposta de trabalho, pode ser melhor entendida com o exemplo do post extraído: vou pra oi mesmo! Como identificar automaticamente que a palavra Oi nesta postagem se refere à Organização de telecomunicações ou é uma interjeição? Partindo desta dificuldade em obter a classificação da postagem, foram realizados experimentos a fim de conseguir facilitar a classificação da entidade. O REM é uma área muito explorada, especialmente na língua inglesa. Os desempenhos alcançados pelos sistemas de reconhecimento de entidades para a língua inglesa apresentam bons resultados, conforme definida pelo MUC e descrita em Santos e Cardoso (2007), mais de metade dos participantes alcançaram medidas F superiores a 90%. Nesta pesquisa foram estudados alguns sistemas de REM já existentes para a língua portuguesa, porém apresentam resultados significativamente inferiores aos obtidos em sistemas desenvolvidos para a língua inglesa. Como exemplo, é possível destacar os melhores resultados alcançados pelos sistemas de REM que participaram do HAREM, segundo Santos e Cardoso (2006), obtiveram os F-Scores 65,99% para a categoria Pessoa, 70,85% para a categoria Local e 56,26% para a categoria Organização. Os sistemas estudados foram avaliados em categorias distintas, o que diferencia da limitação proposta neste trabalho, cujo foco é para categoria Organização, com casos de homonímia. Na metodologia proposta, inicialmente as postagens são recuperadas do Twitter, contendo a entidade pesquisada. Posteriormente é realizada uma tarefa automática de pré-processamento para remover itens desnecessários e posts repetidos para que a base de experimento seja a mais diversificada possível, resultando em um conjunto mais adequado para a fase de treinamento e testes. Em seguida, o especialista classifica os posts manualmente e especifica os dados dos atributos, de forma linguística, onde estes valores servirão para o treinamento da classificação automática das postagens. Nesta pesquisa o papel do especialista foi representado pela própria autora da dissertação.

38 37 Na sequência, os atributos e valores já definidos na atividade anterior, são recebidos pelo Weka (Waikato Environment for Knowledge Analysis) 6, sistema utilizado para executar os experimentos, e como estratégia de Treinamento e Teste empregada neste trabalho, foi utilizada a técnica de K-Fold Cross Validation (validação cruzada), considerando K igual a dez, onde os documentos são divididos em dez partições. O Weka recebe o conjunto de treinamento e realiza a construção (aprendizado) de um classificador. O conjunto de treinamento é usado para avaliar os resultados do processo de aprendizado. As duas etapas do experimento utilizam os mesmos atributos, no entanto, na primeira é exigido um maior esforço por parte do especialista. Na segunda etapa é utilizado um processo automatizado, baseado no cálculo de palavras mais frequentes da coleção de documentos, responsável por definir os valores para dois destes atributos. Diante das teorias descritas no capítulo anterior, é possível classificar esta pesquisa como uma abordagem de aprendizado de máquina, empregando o algoritmo de aprendizado supervisionado, o qual necessita de treinamento a partir de dados de entrada fornecidos por um especialista. Neste trabalho, o classificador recebe como entrada uma postagem contendo o termo de interesse e classifica se essa postagem se refere ou não a uma entidade Organizacional. No processo de avaliação supervisionada, quatro algoritmos de classificação foram utilizados para comparação de desempenho: NB, K-NN, SVM e J48. Conforme ambiente Weka, o algoritmo K-NN é representado pelo IBk (instancebases learning with parameter k) e o SVM é representado pelo SMO (Sequential Minimal Optimization). Ao final dos resultados, os experimentos são comparados nas duas etapas realizadas nesta pesquisa, são confrontados também os resultados obtidos para cada entidade e classificadores, onde é feita uma análise dos melhores desempenhos. 3.2 Experimentos Os dados utilizados nos experimentos deste trabalho foram obtidos da base de dados da rede social Twitter. Foram capturadas postagens, sendo acessado em 05 de janeiro de 2014.

39 38 postagens para cada entidade pesquisada, utilizando casos homônimos, sendo um dos significados, nome de Organização. Para os estudos foram pesquisados e avaliados oito termos, são eles: Claro, Extra, Ferreira Costa, Ford, Garoto, Oi, Renner e Sadia. A realização da classificação onde a fonte de dados é uma rede social se torna um desafio maior pelo fato de não possuir um padrão, por ser um lugar público que o usuário pode escrever de qualquer forma, com abreviações, com erros de grafia, entre outras situações. Nesta pesquisa tentamos diversificar os tipos de Entidades pesquisadas, onde analisamos entidades Organizacionais de ramos diferentes, como telecomunicação, rede de supermercado, rede de construção, alimentícia, automobilística, vestuário. Outro fator interessante é que algumas entidades possuem descrições que podem ser categorizadas tanto como Organização, como Pessoa, é o caso dos termos Ferreira Costa, Ford e Renner. Neste trabalho o experimento foi dividido em dois cenários diferentes. Ambos utilizam as mesmas características, a diferença entre os cenários é que um exige mais conhecimento do especialista para determinadas características, no outro um processo automatizado define os valores para estas mesmas características. Base de Experimentos O método utilizado neste trabalho para o REM emprega o aprendizado supervisionado, assim sendo é necessário ter um conjunto de exemplos para que o sistema possa ser treinado. Cada exemplo está relacionado a uma postagem contendo o termo de interesse e armazena: (1) características extraídas do post após uma etapa de pré-processamento; e (2) um rótulo indicando a classe do post em Organizacional ou Não Organizacional. A Figura 2 apresenta as etapas utilizadas para a realização dos experimentos, desde o início da coleta dos dados ao resultado final.

40 39 Figura 2: Atividades realizadas na execução dos experimentos Fonte: Autoria Própria A metodologia adotada nos experimentos possui oito atividades e pode ser dividida em duas etapas distintas dos experimentos. As caixas com a borda pontilhada são mutuamente exclusivas, e as setas pontilhadas indicam um fluxo alternativo. As demais atividades são obrigatórias. Será considerada para a primeira etapa a subatividade classificação dos termos de inclusão e exclusão contida na atividade Classificação da base de treinamento por especialista. E para a segunda etapa, a atividade do Lucene 7. Considerando a primeira etapa, temos a atividade inicial da Coleta dos dados, que consiste na pesquisa de quais dados são relevantes para a pesquisa. Para esta etapa utilizamos como fonte, a rede social Twitter, pelo fato de ser uma fonte com alto índice de usuários, onde muitos exprimem opiniões dos mais variados assuntos. Neste experimento utilizamos a ferramenta de banco de dados SQL Server, para armazenar as postagens dos usuários recuperadas através da API 8 (Application Programming Interface) disponibilizada pela própria rede social. 7 acessado em 18 de dezembro de 2013.

41 40 Na segunda atividade, temos uma fase inicial de pré-processamento, na qual é realizada de forma automática uma tarefa de limpeza nos posts, removendo endereços de urls e códigos HTML (HyperText Markup Language) contidos nas postagens recuperadas. Também é tratada a questão de posts repetidos, que acontece quando um usuário do Twitter compartilha a informação de outro usuário, repetindo assim a postagem publicada na rede social. Esses posts repetidos são removidos para que a base de experimento seja a mais diversificada possível, resultando em um conjunto mais adequado para a fase de treinamento e testes. Na terceira atividade, a base de treinamento é classificada por um especialista, no entanto, uma parte dessa classificação pode ser realizada automaticamente, através da tarefa do Lucene, a qual será discutida na segunda etapa. Considerando a primeira etapa com a classificação de toda a base por um especialista, são especificados termos de inclusão, onde esses termos são palavras que geralmente aparecem nas postagens quando esta se refere a uma entidade Organizacional, como exemplo no post recuperado do Twitter: case-se comigo e viveremos de muito amor, pizza, miojo, brigadeiro, lasanha da sadia e coca cola, as palavras pizza e lasanha nos faz uma associação quando se fala na entidade Sadia, ou seja, são palavras que quando aparecem dão indícios de que a postagem deverá ser classificada como Organizacional. Também são especificados pelo especialista os termos de exclusão, os quais caracterizam termos que provavelmente aparecem quando a postagem não faz referência a uma Entidade Organizacional, como no seguinte post recuperado: se quiser manter uma mente sadia, tire dela a ansiedade, a expressão mente sadia retrata uma informação que indica que essa postagem deve ser classificada como Não Organizacional. A lista de características/atributos será discutida melhor na seção Características. Para a quarta atividade, temos a preparação dos documentos com seus atributos e valores, essa atividade consiste em preparar os dados classificados na etapa anterior para as etapas seguintes. Para realizar o processo de mineração de dados e executar os experimentos, foi utilizado o sistema Weka (Waikato Environment for Knowledge Analysis). Os documentos foram preparados de forma que ficassem no padrão requerido pelo Weka, com as extensões dos arquivos nos 8 acessado em 07 de novembro de 2013.

42 41 formatos ARFF (Attribute-Relation File Format). Explicaremos melhor sobre o Weka na seção Algoritmos Utilizados, onde citaremos os algoritmos utilizados no experimento. A quinta atividade recebe os documentos oriundos da atividade anterior e, de acordo com o método de validação cruzada com 10 partições, os documentos são divididos em 10 conjuntos de teste distintos escolhidos aleatoriamente com aproximadamente D/10 documentos em cada conjunto, onde D é uma coleção de documentos. Na sexta atividade, o Weka recebe o conjunto de treinamento e realiza a construção (aprendizado) de um classificador. O conjunto de treinamento definido via cross validation é usado para avaliar os resultados do processo de aprendizado. Será avaliado o algoritmo Naive Bayes (NB), o algoritmo Sequential Minimal Optimization (SMO), através da técnica de Support Vector Machine (SVM), o algoritmo K-Nearest Neighbor (K-NN), e o algoritmo J48. A última atividade, referente aos resultados obtidos com o experimento será apresentada no Capítulo 4. A segunda etapa difere da primeira apenas na tarefa da classificação de toda base de treinamento por especialista, pois a segunda etapa utiliza o software Lucene como método auxiliar para classificar os atributos de inclusão e exclusão de forma automática. Essa automatização será explicada a seguir, onde serão detalhados os passos realizados pelo Lucene. Antes de realizar a atividade do Lucene, as postagens previamente classificadas em sua categoria (Organizacional e Não Organizacional) pelo especialista são inseridas no banco de dados, mantendo o relacionamento da postagem com a entidade pesquisada. Na atividade do Lucene, é realizado outro pré-processamento do fluxo, onde é executada a tarefa de tokenização, a qual consiste em percorrer todo o texto identificando cada palavra entre as sequências de caracteres. Os delimitadores utilizados para tokenização geralmente são: o espaço em branco entre os termos, quebras de linhas, tabulações, e alguns caracteres especiais. Uma segunda tarefa do pré-processamento realizado pelo Lucene é a remoção de stopwords, que são palavras consideradas não relevantes para a análise de textos ou para a busca. Em geral, podemos considerar como stopwords

43 42 os artigos, preposições, conjunções, pronomes, verbos auxiliares, abreviaturas mais comuns, entre outras. A lista de stopwords é conhecida como stoplist. A remoção das stopwords da representação dos documentos melhora o desempenho e a precisão dos algoritmos de classificação, também reduz o número de palavras a serem analisadas no documento, mantendo apenas palavras consideradas mais relevantes para o aprendizado. Porém, pelo fato de nossa fonte de busca ser em um ambiente onde a linguagem não segue um padrão, alguns itens da stoplist podem não ser removidos dependendo da grafia da palavra existente na postagem. Após a tokenização e remoção de stopwords, o Lucene faz a indexação para então, através do método DocFreq do próprio Lucene, para calcular a frequência dos termos em todos os documentos, com exceção da(s) palavra(s) do termo pesquisado, considerando separadamente cada uma das duas classes: Organizacional e Não Organizacional. Sendo assim, esta atividade não utiliza o conhecimento do especialista na especificação dos termos de inclusão e exclusão, pois é realizada de forma automática a atribuição desses atributos. Este cálculo da frequência é realizado de forma separada para cada entidade de busca, onde as dez palavras mais frequentes citadas nas postagens classificadas como Organizacionais, são consideradas como Top 10 termos de inclusão, e as dez palavras mais frequentes citadas nas postagens classificadas como Não Organizacionais, são consideradas como Top 10 termos de exclusão. Com a base de experimentos, considerando as entidades pesquisadas Claro, Extra, Ferreira Costa, Ford, Garoto, Oi, Renner e Sadia, após a classificação manual das 500 postagens recuperadas para cada entidade, obtivemos os seguintes dados:

44 43 90,00% 80,00% 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% CLARO EXTRA FERREIRA COSTA FORD GAROTO OI RENNER SADIA ENTIDADE CLASSIFICADA - ORGANIZACIONAL ENTIDADE CLASSIFICADA - NÃO ORGANIZACIONAL Gráfico 2: Percentual da classificação da Entidade No gráfico 2, percebe-se que a quantidade de entidades Organizacionais e Não Organizacionais variam muito conforme a entidade pesquisada. As entidades Garoto e Renner possuem um maior destaque no gráfico, onde na entidade observada Garoto, é possível perceber que a maior parte dos usuários quando citam este termo não é referente à Organização Garoto. Entretanto, para a entidade analisada Renner, na maioria das postagens, os usuários citam a Renner se tratando da Organização. A coleta dos dados foi de forma aleatória, sem parâmetros específicos na busca, a fim de que fosse possível representar a real situação do contexto da entidade procurada. Dessa forma, podemos visualizar o percentual de vezes que os usuários falam a respeito da entidade como Organização, e não como interjeição, advérbio, substantivo, adjetivo, dependendo do contexto da postagem em relação à entidade pesquisada. Características Um dos grandes problemas da classificação de texto é a seleção de um subconjunto de características (atributos), com o objetivo de tentar diminuir o número de atributos que serão fornecidas ao algoritmo de indução. Várias são as

45 44 razões para a realização de seleção de atributos. A primeira é que a maioria dos algoritmos de AM, computacionalmente viáveis, não trabalha bem na presença de muitos atributos. Além de que, com um número menor de atributos, a compreensibilidade do conceito induzido pode ser melhorada. Uma terceira razão é o alto custo para coletar e processar grande quantidade de dados (LEE, 2000). Por isso, é indispensável reduzir a quantidade de atributos, porém, sem sacrificar a precisão na classificação. Essa etapa de seleção de atributos é essencial para remover os termos não informativos dos documentos. Os atributos podem ser considerados inadequados para uma tarefa de aprendizado quando são fracamente relevantes ou medidos de modo inadequado (LEE, 2000). Se os atributos utilizados para a descrição do conjunto de dados são inadequados, os algoritmos de classificação utilizados provavelmente criarão classificadores imprecisos ou complexos. Neste trabalho foi utilizado um dicionário de nomes próprios, do NomesLex- PT01 9, o qual ajudará na identificação da palavra anterior à entidade pesquisada, onde foi observado que na maioria das vezes quando uma palavra da categoria Pessoa antecede a entidade pesquisada, a classificação é apresentada como Não Organizacional. Alguns atributos, considerados mais relevantes, foram criados de modo que ao realizar algumas combinações de presença dos atributos nas postagens, possam apresentar indícios da categoria da entidade pesquisada, classificada como Organizacional ou Não Organizacional. A tabela 3 apresenta a lista de atributos criados para utilização no experimento desta pesquisa. 9 acessado em: 19 de dezembro de 2013.

46 45 Tabela 3: Lista dos atributos utilizados no experimento Atributos word prevwordlist prevworddic wordinc numwordinc wordexc numwordexc Descrição dos atributos A própria entidade pesquisada Identifica se a palavra anterior à entidade pesquisada está na Lista de Palavras Antecedentes Identifica se a palavra anterior à entidade pesquisada está no Dicionário de Nomes Identifica se existe na postagem algum termo da Lista de Termos de Inclusão Identifica a quantidade de Termos de Inclusão existente na postagem Identifica se existe na postagem algum termo da Lista de Termos de Exclusão Identifica a quantidade de Termos de Exclusão existente na postagem O atributo prevwordlist utiliza a lista de palavras antecedentes de acordo com o gênero da entidade pesquisada, conforme apresentado na Tabela 4 abaixo: Tabela 4: Lista de Palavras antecedentes Gênero da Entidade Pesquisada Masculino Feminino Masculino ou Feminino Termos do, no, pro da, na pra at, empresa, grupo, loja, lojas, organização, organizações É possível verificar em uma postagem recuperada da base de experimentos, a utilização desse atributo com o seguinte exemplo: Celulares da oi ficam sem sinal em diversos pontos do rio. O termo da antecede a entidade de busca Oi, qualificando o atributo prevwordlist como positivo. Para o atributo prevworddic é verificado se o termo antecedente a entidade pesquisada existe no dicionário de nomes do NomesLex-PT01. Exemplo: Confirmado: sai Rosane Guerra, entra José Ferreira Costa na Secretaria de Ciência e Tecnologia. Neste caso, a entidade Ferreira Costa é precedida pelo termo José que existe no dicionário de nomes, considerando o atributo nesse caso como positivo. Os atributos wordinc, numwordinc, wordexc e numwordexc, indicam respectivamente se existe na postagem algum termo da Lista de Termos de Inclusão, a quantidade de termos de inclusão existentes, se existe algum termo da Lista de Termos de Exclusão e a quantidade de termos de exclusão existentes. Para

47 46 melhor entendimento da inclusão desses atributos, consideremos a tabela 5 apresentada abaixo, contendo alguns termos de inclusão e de exclusão, definida seguindo o processo de definição por conhecimento de especialistas. Tabela 5: Lista de Termos de Inclusão e Exclusão para a Entidade Garoto Termos de Inclusão Termos de Exclusão Entidade: GAROTO batom, chocolate, chocolates, bombom, bombons, Nestlé, Lacta, Cacau Show, Hershey, páscoa o garoto, um garoto, garoto propaganda, lindo garoto, garoto lindo, jovem garoto Na seguinte postagem recuperada: Torço por um mundo em que a caixa de bombom da garoto venha somente com serenata do amor, batom e crocante, é possível identificar que existem dois termos contidos na Lista de Termos de Inclusão. Quanto maior a presença de termos de inclusão em uma postagem, maior a chance de a entidade pesquisada ser classificada como Organizacional. Como termo de exclusão pode-se identificar na citação recuperada: Daqui a pouco eu viro garoto propaganda da Nokia. Nesta postagem percebe-se a presença do termo propaganda, contido na Lista de Termos de Exclusão. Quanto maior a incidência de termos de exclusão, maior a probabilidade de a entidade pesquisada ser classificada como Não Organizacional. Para cada uma das oito Entidades avaliadas nesta pesquisa, foi realizada a classificação da Entidade e atribuídas as informações dos atributos. Para apresentar de uma forma mais geral, foi calculada a média do resultado dessas entidades. No gráfico 3 observa-se o percentual de documentos que possuem um ou mais combinações de atributos, baseados na primeira etapa do experimento, com a atribuição dos termos de inclusão e exclusão por especialista.

48 47 WORDINC PREVWORDLIST 1 WORDINC WORDEXC 1 WORDEXC PREVWORDLIST E WORDINC > 2 WORDINC 2 WORDINC PREVWORDDIC PREVWORDDIC E WORDEXC 2 WORDEXC WORDINC E WORDEXC PREVWORDDIC E WORDINC PREVWORDLIST E WORDEXC > 2 WORDEXC PREVWORDDIC, WORDINC E WORDEXC PREVWORDLIST,WORDINC E WORDEXC 22,20% 21,58% 16,85% 15,85% 10,28% 7,53% 7,23% 3,78% 1,38% 0,98% 0,83% 0,13% 0,13% 0,03% 0,00% 0,00% 36,33% 0% 5% 10% 15% 20% 25% 30% 35% 40% Gráfico 3: Percentual de documentos e sua relação com os atributos Observa-se que o atributo wordinc é o que mais está presente nos documentos analisados, onde 36,33% dos documentos possuem pelo menos um termo de inclusão na postagem. Em segunda posição, temos o atributo prevwordlist, com 22,20%, o que significa que a palavra anterior à entidade pesquisada contém na Lista de Palavras Antecedentes. E nenhum documento possui os três atributos prevworddic, wordinc e wordexc ou prevwordlist, wordinc e wordexc juntos em uma mesma postagem. Esta situação já era esperada pois quanto mais atributos mais difícil encontrar todos em uma mesma postagem. O gráfico 4 mostra o percentual de documentos separados por classe (Organizacional e Não Organizacional), para cada atributo e suas combinações, baseados na quantidade de postagens existentes com cada atributo, apresentadas no gráfico 3.

49 48 Gráfico 4: Percentual de documentos para cada atributo, considerando as duas classes: Organizacional e Não Organizacional Conforme os dados apresentados no gráfico acima, é possível perceber que nas postagens classificadas como Organizacionais existe um percentual grande dos atributos prevwordlist e wordinc. Quando existe a combinação desses dois atributos ou quanto maior a quantidade de wordinc na mesma postagem, maior é a probabilidade se ser Organizacional. Para as postagens classificadas como Não Organizacionais, as evidências maiores foram dos atributos prevworddic e wordexc. Quando existe a combinação desses dois atributos ou quanto mais wordexc em uma mesma postagem, maior é a possibilidade se ser Não Organizacional. De acordo com a segunda etapa do experimento, a Lista de Termos de Inclusão e a Lista de Termos de Exclusão podem ser definidas automaticamente, baseadas na recuperação dos dez termos citados com maior frequência nas postagens previamente classificadas como Organizacional e Não organizacional, conforme explicado na seção Base de Experimentos. Os dados do gráfico 5 abaixo mostram o percentual de documentos em relação aos valores dos seus atributos, obtidos para a segunda etapa.

50 49 WORDINC WORDEXC 1 WORDEXC PREVWORDLIST 1 WORDINC WORDINC E WORDEXC PREVWORDLIST E WORDINC 2 WORDINC > 2 WORDINC 2 WORDEXC PREVWORDDIC PREVWORDLIST E WORDEXC PREVWORDDIC E WORDEXC PREVWORDLIST,WORDINC E WORDEXC > 2 WORDEXC PREVWORDDIC E WORDINC PREVWORDDIC, WORDINC E WORDEXC 12,43% 10,48% 9,35% 8,75% 4,95% 3,78% 2,65% 2,20% 1,73% 1,65% 0,18% 0,10% 22,20% 21,35% 25,28% 32,30% 39,40% 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% Gráfico 5: Percentual de documentos e sua relação com os atributos, utilizando Top 10 Termos de Inclusão e Exclusão Como pode ser visto, da mesma forma que a primeira etapa, o atributo WordInc é o que possui maior presença nos documentos analisados, onde 39,40% dos documentos possuem pelo menos um termo de inclusão na postagem. Em segunda posição, temos o atributo wordexc, onde em 32,30% a palavra anterior à entidade pesquisada contém na Lista de Palavras Antecedentes. O menor percentual existente, de 0,10% é para a combinação dos três atributos prevworddic, wordinc e wordexc juntos em uma mesma postagem. O gráfico 6 apresenta o percentual de documentos separados por classe (Organizacional e Não Organizacional), para cada atributo e suas combinações, baseados na quantidade de postagens existentes com cada atributo, apresentadas no gráfico 5.

51 50 Gráfico 6: Percentual de documentos para cada atributo, utilizando Top 10 Termos de Inclusão e Exclusão, considerando as duas classes: Organizacional e Não Organizacional. Nota-se que, da mesma forma que apresentado na primeira etapa, para as postagens classificadas como Organizacionais existe um percentual grande dos atributos prevwordlist e wordinc. Nos casos em que existe a combinação desses dois atributos na mesma postagem, ou quanto maior a quantidade de wordinc na mesma postagem, maior é a probabilidade de ser Organizacional. Para as postagens classificadas como Não Organizacionais, os atributos prevworddic e wordexc tiveram maior destaque. Se na mesma postagem existir a combinação desses dois atributos ou quanto mais wordexc houver em uma mesma postagem, maior é a evidência se ser Não Organizacional. Algoritmos utilizados Para a execução do experimento através da avaliação dos algoritmos classificadores, escolheu-se o Weka pelo fato de ser um ambiente bastante conhecido e utilizado pela comunidade de aprendizado de máquina e de mineração

52 51 de dados. Além do mais, o Weka é um software livre que permite, através de métodos simples, de reconhecimento de padrão ou algoritmo de aprendizado de máquina, extrair as informações de textos. A Wikipédia (2014) descreve o pacote Weka da seguinte forma: O pacote de software Weka (Waikato Environment for Knowledge Analysis) começou a ser escrito em 1993, usando Java, na Universidade de Waikato, Nova Zelândia sendo adquirido posteriormente por uma empresa no final de O Weka encontra-se licenciado ao abrigo da General Public License sendo portanto possível estudar e alterar o respectivo código fonte. Durante a realização dos experimentos, utilizou-se as classes da ferramenta Weka, por já possuir implementados todos os algoritmos avaliados na presente pesquisa. Os parâmetros dos algoritmos não sofreram nenhuma alteração, sendo utilizada a configuração padrão do Weka. Foi criado um aplicativo escrito no framework.net para facilitar a criação dos arquivos de entrada do Weka para o treinamento das técnicas. Os arquivos de entrada do Weka possuem extensão arff e possui um layout que deve ser seguido para utilizar nos algoritmos. Este layout é dividido em duas seções: cabeçalho e dados. O cabeçalho contém o nome da relação uma lista de atributos e seus tipos ou seus possíveis valores. Na seção dos dados colocamos o e nas próximas linhas colocamos os registros onde cada linha representa um registro Um exemplo parcial de um dos arquivos de entrada utilizados neste experimento está ilustrado na Figura 3. Não está ilustrado todo o arquivo de entrada devido à grande quantidade de linhas dos registros.

53 52 Figura 3: Exemplo de arquivo de entrada do Weka No presente trabalho para avaliar os resultados da classificação, são empregados quatro classificadores muito utilizados em tarefas de classificação textual: Classificadores Bayesianos, através do algoritmo Naive Bayes, Máquinas de Vetores de Suporte (SVM), com o algoritmo SMO, K-Vizinhos mais Próximos, através do algoritmo K-NN e Árvores de Decisão, com o algoritmo J48. A escolha desses classificadores deve-se ao fato de serem amplamente utilizados na classificação de textos. Uma breve descrição dos algoritmos será apresentada. Naive Bayes (NB) Segundo Oguri, Milidiú e Rentería (2006), o Naive Bayes é provavelmente o classificador mais utilizado em Machine Learning. É denominado ingênuo (naive) por assumir que os atributos são condicionalmente independentes. Isto é, a informação de um evento não tem nenhuma relação com a informação de outro.

54 53 Embora tenha essa denominação de ingênuo, o classificador reporta resultados com bastante desempenho, não comprometendo a qualidade. Basicamente, existem dois tipos de modelos estatísticos para os classificadores Naive Bayes: modelo binário e modelo multinomial, que serão apresentados a seguir. O modelo binário representa documento como um vetor binário de palavras, considerando apenas a ocorrência das palavras no texto. O valor 0 (zero) em uma posição k (considerando k uma palavra da frase) representa a não ocorrência do termo, enquanto que o valor 1 (um) representa ao menos uma ocorrência do termo. No modelo multinomial assume que o documento é representado por um vetor de frequência, com valores inteiros, caracterizando o número de vezes que cada termo ocorre no documento. Support Vector Machine (SVM) A técnica de reconhecimento SVM utiliza a metodologia de aprendizagem supervisionada para o treinamento do processo de reconhecimento de padrões. O SVM pode ser visto como um hiperplano em um espaço de características que tenta separar os exemplos de treinamento da classe positiva dos exemplos de treinamento da classe negativa. Além disso, o hiperplano deve estar o mais afastado possível dos exemplos de treinamento na margem entre as classes, criando o que se chama de margem máxima. A técnica recebeu esse nome por causa dos exemplos mais próximos do hiperplano, chamados de vetor de suporte. Hiperplanos SVM são determinados por um pequeno subconjunto de instâncias de treinamento, que são chamados de vetores de suporte (support vectors). Os demais dados do conjunto de treinamento não têm influência no classificador (FELDMAN; SANGER, 2007). Para obtenção da solução do SVM utilizou-se o algoritmo SMO disponibilizado pelo Weka. K-Nearest Neighbors (K-NN) O K-NN é um algoritmo de aprendizagem supervisionado, baseado no vizinho mais próximo, pertencente a um grupo de técnicas denominado de Instance-based Learning que tem sido usado em muitas aplicações no campo da mineração de dados e reconhecimento de padrões estatísticos.

55 54 O classificador K-NN gera um modelo a partir de uma entrada, e não previamente. Com esta entrada, são encontrados k vizinhos próximos a ela, e a partir das classes desses vizinhos é que é definida a classe do documento de entrada. A vantagem do K-NN é que ele não considera todos os atributos da base, são considerados apenas os atributos do documento de entrada para a geração do modelo, descartando assim, atributos que não contribuem para a classificação do documento de entrada (YANG; XIU, 1999). O K-NN classifica um elemento de acordo com as respectivas classes dos k (k 1) vizinhos mais próximos, relativos a uma base de treinamento dada. O algoritmo calcula a distância do elemento dado para cada elemento da base de treinamento e então ordena os elementos da base de treinamento do mais próximo ao de maior distância. Selecionam-se apenas os k primeiros dos elementos ordenados, que servem de parâmetro para a regra de classificação. Para a execução dos experimentos através do Weka, foi utilizado o algoritmo IBk, que é uma versão do algoritmo K-NN. J48 O classificador J48 é uma implementação escrita em Java do algoritmo C4.5, e permite a criação de modelos de decisão em árvore, suportando dados numéricos ou nominais. Esse modelo é construído pela análise dos dados de treino e o modelo utilizado para classificar dados ainda não classificados. O J48 gera árvores, em que cada nó da árvore avalia a existência ou significância de cada atributo individual. As árvores de decisão são construídas do topo para a base, através da escolha do atributo mais apropriado para cada situação. Uma vez escolhido o atributo, os dados de treino são divididos em subgrupos, correspondendo aos diferentes valores dos atributos e o processo é repetido para cada subgrupo até que uma grande parte dos atributos em cada subgrupo pertença a uma única classe. A inferência por árvore de decisão é um algoritmo que frequentemente aprende um conjunto de regras com elevada intensidade (MARTINS; COSTA; MARQUES, 2009). Estratégia de Treinamento e Teste Como estratégia de Treinamento e Teste, foi utilizada neste trabalho a técnica de K-Fold Cross Validation (validação cruzada).

56 55 Validação Cruzada é a metodologia que trabalha com o conceito de folds. Desta forma, o conjunto de dados disponível é dividido aleatoriamente em K amostras de tamanhos iguais. Para gerar cada par de conjunto treino-teste, uma das K amostras é mantida como conjunto de teste e as outras K - 1 são utilizadas para treinamento. O processo é então repetido K vezes, de modo que cada uma das K amostras seja utilizada ao menos uma vez como teste. O resultado final é a média do desempenho do classificador nas K iterações. Esta estratégia tem como objetivo aumentar a confiabilidade da avaliação, pois mesmo que as instâncias individualmente sejam pequenas demais para fornecer uma avaliação precisa, a combinação dos valores obtidos com cada uma é baseada em uma grande quantidade de dados. Outra vantagem desta abordagem é que ela permite examinar o desempenho em diferentes conjuntos de treinamento. A Figura 4 ilustra a utilização da Validação Cruzada com 3 folds. Para maior aproximação dos resultados obtidos dos valores reais, foi adotado neste experimento o valor de k igual a 10, valor padrão de iterações utilizado pelo Weka.

57 56 Figura 4: Exemplo de validação cruzada utilizando 3-folds Fonte: CARRILHO JUNIOR (2007) Medidas de Avaliação Para avaliar o desempenho do classificador basta verificar sua capacidade de discriminar um novo exemplo, quando a ele apresentado. Essa avaliação deve ser feita logo após o treinamento, utilizando o resultado da classificação do conjunto de teste. As medidas de avaliação de sistemas de REM levam em conta as noções de precisão, cobertura e medida-f, que são métricas empregadas nas avaliações de sistemas de Recuperação da Informação (RI), conforme a seguir:

58 57 Precisão - é a proporção dos documentos recuperados que são relevantes em relação ao total de documentos recuperados. Precisão = número de itens relevantes recuperados pelo sistema (acertos) número de itens recuperados Cobertura - é a proporção dos documentos recuperados que são relevantes em relação ao total de documentos recuperados. Cobertura = número de itens relevantes recuperados pelo sistema (acertos) número de itens relevantes Medida-F - é a média harmônica entre precisão e cobertura. Medida F = 2 precisão cobertura precisão + cobertura Uma outra medida também foi considerada: Taxa de acerto Número de itens relevantes recuperados pelo sistema (instâncias classificadas corretamente). A Figura 5 ilustra o conceito dessas medidas. Figura 5: Medidas de avaliação 3.3 Considerações Finais Esta pesquisa teve como base para os experimentos a rede social do Twitter, onde foram coletados posts publicados por usuários da rede social. Sendo

59 postagens para cada entidade homônima pesquisada, onde um dos significados é referente a nomes de Organização. Foram pesquisadas e avaliadas oito entidades: Claro, Extra, Ferreira Costa, Ford, Garoto, Oi, Renner e Sadia. O fluxo do processo realizado foi detalhado, e o principal destaque se deve a divisão do experimento em duas etapas, onde na primeira etapa os atributos identificados como relevantes para o treinamento e teste tiveram todos os seus valores apontados por um especialista. Na segunda etapa, diante do conjunto de treinamento já especificado em suas classes Organizacionais e Não Organizacionais, foram obtidas as palavras mais frequentes para cada conjunto das classes e consideradas como valores para os atributos de termo de inclusão e termo de exclusão. Foram analisados os atributos com maior presença nos documentos e mais relevantes para cada uma das classes, nas duas etapas. A ferramenta Weka será utilizada para a execução dos experimentos, o qual permite, através de métodos simples, de reconhecimento de padrão ou algoritmo de aprendizado de máquina, extrair as informações de textos. Para avaliar os resultados da classificação, foram utilizados quatro classificadores: Classificadores Bayesianos, através do algoritmo Naive Bayes, Máquinas de Vetores de Suporte (SVM), com o algoritmo SMO, K-Vizinhos mais Próximos, através do algoritmo K-NN e Árvores de Decisão, com o algoritmo J48. Como estratégia de Treinamento e Teste, foi utilizada a técnica de K-Fold Cross Validation (validação cruzada), com k igual a 10. Para avaliar o desempenho do classificador serão utilizadas as medidas de precisão, cobertura, medida-f e taxa de acerto.

60 59 Capítulo 4 4. Resultados Neste capítulo serão exibidos os resultados obtidos através dos métodos apresentados no Capítulo 3. Os resultados serão detalhados e comparados com o objetivo de verificar o desempenho dos classificadores utilizados.

61 Análise Exploratória Nesta seção, os dados serão apresentados tanto para a primeira etapa da pesquisa, onde todos os valores dos atributos são especificados pelo especialista, quanto para a segunda etapa, onde os valores dos atributos de termo de inclusão e termos de exclusão são definidos de forma automática de acordo com a frequência das palavras da coleção de documentos. Os experimentos foram executados pela ferramenta Weka, e serão comparados, analisados e apresentados de forma exploratória. É importante lembrar que todos os experimentos foram realizados utilizando os mesmos atributos, os quais foram estudados e considerados mais relevantes para a atribuição da classificação da entidade, apenas variando seus valores. Também foram submetidos aos mesmos classificadores, utilizando a validação cruzada, de modo que será possível comparar o desempenho entre eles. Analisando os atributos da primeira etapa, foram obtidas as frequências de documentos para cada um dos atributos apresentados no gráfico 7. Como parâmetros de entrada no Weka, são inseridos os atributos: prevwordlist, prevworddic, wordinc, numwordinc, wordexc e numwordexc, no entanto, os atributos wordinc e wordexc além de receberem o valor indicando sua existência ou não, é necessário identificar sua quantidade. Na intenção de não complicar o gráfico abaixo, o detalhamento da quantidade de numwordinc e numwordexc foram detalhados no gráfico 8 para facilitar a visualização. 40,0% 35,0% 30,0% 25,0% 20,0% 15,0% 10,0% 5,0% 0,0% prevwordlist prevworddic WordInc wordexc TOTAL ORG NO_ORG Gráfico 7: Frequência por atributo na coleção de documentos - Primeira etapa

62 61 Percebe que o atributo wordinc é o mais relevante, estando presente em muitos documentos da base analisada. Entretanto, o atributo prevworddic possui menor índice de presença nos documentos, porém de grande importância. Os atributos prevwordlist e WordInc mostram que quando estão presentes nos documentos, em sua maioria possuem a classificação de Organização. Já os atributos prevworddic e wordexc, quando presentes, se classificam em sua maior parte como Não Organizacional. 25,0% 20,0% 15,0% 10,0% 5,0% 0,0% WordInc-1 WordInc-2 WordInc-3 WordInc-4 WordInc-5 wordexc-1 wordexc-2 wordexc-3 TOTAL ORG NO_ORG Gráfico 8: Frequência por atributos wordinc e wordexc na coleção de documentos Primeira Etapa É possível perceber que a maior quantidade está concentrada em documentos que possuem apenas uma palavra do termo de inclusão, seguida de documentos com apenas uma palavra do termo de exclusão. Quanto mais termos de inclusão, maior a probabilidade de o documento ser classificado como Organizacional. Da mesma forma, quanto mais termos de exclusão em um documento, maior a evidência de ser classificado como Não Organizacional. Serão apresentados abaixo os gráficos 9 e 10 com os resultados obtidos dos atributos para a segunda etapa.

63 62 45,0% 40,0% 35,0% 30,0% 25,0% 20,0% 15,0% 10,0% 5,0% 0,0% prevwordlist prevworddic WordInc wordexc TOTAL ORG NO_ORG Gráfico 9: Frequência por atributo na coleção de documentos - Segunda etapa Na segunda etapa, os valores dos atributos wordinc e wordexc foram definidos automaticamente através do cálculo da frequência de palavras pelo Lucene, por isso temos uma diferença considerável em relação à primeira etapa. Os atributos prevwordlist e prevworddic não sofreram alterações, os dados utilizados nas duas etapas foram os mesmos. 30,0% 25,0% 20,0% 15,0% 10,0% 5,0% 0,0% TOTAL ORG NO_ORG Gráfico 10: Frequência dos atributos wordinc e wordexc na coleção de documentos Segunda Etapa

64 63 De acordo com o gráfico exibido acima, pode-se perceber que existem mais atributos wordinc e wordexc nesta segunda etapa. Isto deve se ao fato de que alguns documentos possuem respectivamente, mais termos de inclusão e exclusão que outros, chegando até sete termos de inclusão em um único documento, e outros documentos possuem até cinco termos de exclusão. Consideremos o exemplo da entidade Claro, classificada como Organizacional, onde foram obtidas automaticamente as 10 palavras mais frequentes do conjunto de documentos e definidos como termos de inclusão: Vivo, Oi, Tv, Gvt, Net, Sky, Tem, Tim, Hbo e Chip. Observando o seguinte post recuperado para a entidade Claro: #Fox às 22h30 tem "Rio": GVT TV 93 Oi TV 46 SKY 45 Vivo TV 546 Claro TV 56 NET temos cinco palavras contidas na Lista de Termos de Inclusão que são: Tem, Gvt, Tv, Oi, Sky, Vivo e Net. Analisando os termos de exclusão automaticamente identificados para a entidade Claro: Dia, Vou, Vai, Tem, Redes, Sociais, Rio, Xbox, Ser e Tenho, ao observar a seguinte postagem como exemplo: Sabem que todo dia quando abro as redes sociais eu fico imaginando o dia que vou postar: garota, eu vou pra Califórnia. E ser vdd, claro, temos 5 termos de exclusão contidos na postagem recuperada, que são: dia, redes, sociais, vou e ser. 4.2 Desempenho de Classificação Baseado nos quatro classificadores utilizados para este experimento, e através da técnica da validação cruzada, a taxa de acerto obtida pelos algoritmos avaliados na primeira etapa do experimento, considerando todas as entidades avaliadas, variou entre 84% e 98%. Para a segunda etapa, a taxa de acerto variou entre 77% e 95%. Na primeira etapa foram executados os testes onde todos os valores dos atributos foram especificados por um especialista, baseados no seu conhecimento. Conforme resultados da primeira etapa, a tabela 6 apresenta a taxa de acerto, representada pelo percentual de instâncias classificadas corretamente pelos quatro classificadores utilizados, fazendo uma comparação com as oito entidades pesquisadas.

65 64 Tabela 6: Taxa de acerto obtida pelo Weka para as oito entidades avaliadas na primeira etapa PRIMEIRA ETAPA NB SVM K-NN J48 CLARO 95,20% 95,80% 95,80% 94,80% EXTRA 84,60% 84,80% 85,00% 84,60% FERREIRA COSTA 92,20% 92,80% 92,80% 92,20% FORD 93,60% 93,60% 93,60% 93,60% GAROTO 97,40% 97,20% 97,40% 97,60% OI 92,20% 92,40% 92,20% 91,60% RENNER 94,20% 94,20% 94,20% 94,20% SADIA 83,80% 83,80% 83,80% 83,80% Ao comparar as entidades, verifica-se que os resultados obtidos variaram um pouco, porém sem muita disparidade. As menores taxas de acerto foram obtidas para Extra e Sadia. Observando os resultados para uma mesma entidade, os valores foram bastante aproximados, e em alguns casos, como Ford, Renner e Sadia, os percentuais alcançados foram iguais para todos os classificadores. Para as entidades Claro e Ferreira Costa, os algoritmos SVM e K-NN se mostraram mais eficazes. Observando a entidade Extra, o melhor resultado foi do K- NN. Ao analisar a entidade Garoto, o algoritmo J48 alcançou melhor taxa de acerto. Para a entidade Oi, o algoritmo SVM obteve resultado mais satisfatório que os demais classificadores avaliados. Na segunda etapa, na qual os testes foram realizados com os atributos de termo de inclusão e termos de exclusão baseados na técnica do Top 10, onde a partir dos documentos classificados manualmente como Organizacionais, foram extraídas as dez primeiras palavras com maior frequência na coleção de documentos. Da mesma forma, para os documentos classificados como Não Organizacionais, foram capturadas as dez palavras mais frequentes do conjunto de documentos. Obtendo assim de forma automática os termos de inclusão e exclusão a serem utilizados no experimento. De acordo com os dados estatísticos resultantes da segunda etapa podemos visualizar na tabela 7 as taxas de acertos das instâncias classificadas pelos quatro classificadores utilizados, fazendo uma comparação com as oito entidades pesquisadas.

66 65 Tabela 7: Taxa de acerto obtida pelo Weka para oito entidades avaliadas na segunda etapa SEGUNDA ETAPA NB SVM K-NN J48 CLARO 92,40% 92,80% 93,20% 92,40% EXTRA 84,00% 84,20% 84,60% 84,00% FERREIRA COSTA 93,80% 94,60% 94,40% 93,60% FORD 92,40% 91,80% 92,40% 91,80% GAROTO 90,80% 91,00% 92,40% 92,00% OI 83,60% 84,40% 85,80% 85,00% RENNER 92,00% 92,00% 92,00% 91,40% SADIA 76,60% 79,80% 81,40% 81,80% A partir dos dados apresentados, e realizando uma comparação entre as entidades, pode-se ver que os valores variaram com uma divergência um pouco acentuada, e em uma proporção relativamente maior que a primeira etapa. A menor taxa de acerto de 76,60% foi obtida para a entidade Sadia. Comparando os resultados baseados nos classificadores, em uma mesma entidade, os valores apresentaram-se mais ou menos estáveis. Observando as entidades Claro, Extra, Garoto e Oi, os melhores resultados foram obtidos para o algoritmo K-NN. Ao analisar os resultados de Ferreira Costa, o SVM alcançou valores maiores em relação aos demais classificadores. Para a entidade Ford, o NB e K-NN atingiram a mesma taxa de acerto, se destacando aos demais classificadores. Ao verificar a entidade Renner, três dos quatro classificadores alcançaram a mesma taxa de acerto, resultando no algoritmo J48 com a taxa de erro maior que os demais. Em contrapartida, a entidade Sadia apresentou os melhores resultados com o J48. Em uma análise das duas etapas, apesar da primeira necessitar de maior esforço por parte do especialista, pois não utiliza nenhum processo automatizado para definição dos valores de termos de inclusão e exclusão, ela apresentou melhores resultados alcançando taxas de acerto mais elevadas que a segunda etapa. Comparando os classificadores avaliados, apesar do algoritmo J48 ter conseguido o maior índice de acerto, não foi satisfatório nas outras entidades. Em uma média geral o algoritmo K-NN obteve melhor desempenho em relação aos demais.

67 66 Avaliação das Medidas de Precisão, Cobertura e Medida-F Esta seção apresenta os resultados alcançados pelas medidas de avaliação, para cada classificador quando confrontados com o conjunto de teste. A tabela 8 exibe as medidas de cobertura, precisão e medida-f das classes Organizacionais e Não Organizacionais para a entidade Claro, considerando as duas etapas do experimento, permitindo uma comparação dos classificadores utilizados. Tabela 8: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Claro PRIMEIRA ETAPA CLARO SEGUNDA ETAPA PRECISAO COBERTURA MEDIDA-F PRECISAO COBERTURA MEDIDA-F NB 95,20% 95,20% 95,20% 92,50% 92,40% 92,40% SVM 95,90% 95,80% 95,80% 92,80% 92,80% 92,80% K-NN 95,90% 95,80% 95,80% 93,30% 93,20% 93,20% J48 95,10% 94,80% 94,80% 92,50% 92,40% 92,40% Conforme pode ser observado, na primeira etapa do experimento, os algoritmos SVM e K-NN apresentaram os mesmos resultados, e dentre os demais classificadores, obtiveram as melhores medidas de avaliação. Na segunda etapa, o K-NN permaneceu com melhores índices. Na tabela 9 observamos as medidas avaliadas para a entidade Extra. Assim como na tabela 10 são vistos os valores para a entidade Ferreira Costa. Tabela 9: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Extra PRIMEIRA ETAPA EXTRA SEGUNDA ETAPA PRECISAO COBERTURA MEDIDA-F PRECISAO COBERTURA MEDIDA-F NB 85,30% 84,60% 81,60% 84,40% 84,00% 83,90% SVM 85,50% 84,80% 81,90% 84,90% 84,20% 84,10% K-NN 85,70% 85,00% 82,20% 84,80% 84,60% 84,60% J48 85,30% 84,60% 81,60% 84,30% 84,00% 83,90% Diante dos dados acima podemos verificar que o algoritmo K-NN apresentou as melhores medidas de avaliação comparadas aos demais algoritmos, quando da primeira etapa. Já na segunda etapa, o algoritmo K-NN continuou com boas taxas

68 67 em relação à cobertura e medida-f, ficando a melhor taxa de precisão com o algoritmo SVM. Tabela 10: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Ferreira Costa PRIMEIRA ETAPA FERREIRA COSTA SEGUNDA ETAPA PRECISAO COBERTURA MEDIDA-F PRECISAO COBERTURA MEDIDA-F NB 92,80% 92,20% 91,60% 93,70% 93,80% 93,60% SVM 93,30% 92,80% 92,30% 94,70% 94,60% 94,40% K-NN 93,30% 92,80% 92,30% 94,50% 94,40% 94,20% J48 92,80% 92,20% 91,60% 93,50% 93,60% 93,40% Para a entidade Ferreira Costa, na primeira etapa do experimento, os algoritmos SVM e K-NN alcançaram os mesmos valores, obtendo as melhores medidas de avaliação, se destacando dos demais classificadores. Na segunda etapa, o SVM se manteve na posição de melhores resultados. A tabela 11 expõe os valores das medidas de avaliação recuperados pela entidade Ford. De acordo com os dados expostos, observa-se que todos os quatro classificadores obtiveram, na primeira etapa, o mesmo percentual para as medidas de precisão, cobertura e medida-f. Enquanto que na segunda etapa os algoritmos NB e K-NN apresentaram destaque sobre os demais. Tabela 11: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Ford PRIMEIRA ETAPA FORD SEGUNDA ETAPA PRECISAO COBERTURA MEDIDA-F PRECISAO COBERTURA MEDIDA-F NB 94,10% 93,60% 93,30% 93,00% 92,40% 92,00% SVM 94,10% 93,60% 93,30% 92,50% 91,80% 91,40% K-NN 94,10% 93,60% 93,30% 93,00% 92,40% 92,00% J48 94,10% 93,60% 93,30% 92,50% 91,80% 91,40% Na tabela 12 tem-se as medidas avaliadas para a entidade Garoto. E em seguida, na tabela 13 são exibidos os valores para e Entidade Oi.

69 68 Tabela 12: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Garoto PRIMEIRA ETAPA GAROTO SEGUNDA ETAPA PRECISAO COBERTURA MEDIDA-F PRECISAO COBERTURA MEDIDA-F NB 97,40% 97,40% 97,40% 92,50% 90,80% 91,20% SVM 97,20% 97,20% 97,20% 92,20% 91,00% 91,30% K-NN 97,40% 97,40% 97,40% 92,50% 92,40% 92,00% J48 97,60% 97,60% 97,60% 92,00% 92,00% 91,60% Tabela 13: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Oi PRIMEIRA ETAPA OI SEGUNDA ETAPA PRECISAO COBERTURA MEDIDA-F PRECISAO COBERTURA MEDIDA-F NB 92,50% 92,20% 92,20% 84,00% 83,60% 83,20% SVM 92,60% 92,40% 92,40% 84,60% 84,40% 84,10% K-NN 92,40% 92,20% 92,20% 86,60% 85,80% 85,30% J48 92,00% 91,60% 91,70% 86,00% 85,00% 84,50% Conforme exposto na tabela 12, o algoritmo J48 obteve melhores resultados na primeira etapa do experimento, enquanto que o algoritmo K-NN conseguiu melhores taxas na segunda etapa para a entidade Garoto. Os resultados para a entidade Oi mostram que os melhores índices, na primeira etapa, foram atingidos pelo algoritmo SVM. Para a segunda etapa, os melhores resultados das medidas de avaliação foram do classificador K-NN. Na tabela 14 observamos o resultado das medidas avaliadas para a entidade Renner. Assim como na tabela 15 são vistos os valores para a entidade Sadia. Tabela 14: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Renner PRIMEIRA ETAPA RENNER SEGUNDA ETAPA PRECISAO COBERTURA MEDIDA-F PRECISAO COBERTURA MEDIDA-F NB 94,00% 94,20% 94,00% 91,60% 92,00% 91,70% SVM 94,00% 94,20% 94,00% 91,60% 92,00% 91,70% K-NN 94,00% 94,20% 94,00% 91,60% 92,00% 91,70% J48 94,00% 94,20% 94,00% 91,00% 91,40% 91,10%

70 69 Tabela 15: Resultado das medidas de avaliação: precisão, cobertura e medida-f para a entidade Sadia PRIMEIRA ETAPA SADIA SEGUNDA ETAPA PRECISAO COBERTURA MEDIDA-F PRECISAO COBERTURA MEDIDA-F NB 89,00% 83,80% 84,60% 77,30% 76,60% 76,90% SVM 89,00% 83,80% 84,60% 79,10% 79,80% 77,40% K-NN 89,00% 83,80% 84,60% 81,40% 81,40% 79,10% J48 89,00% 83,80% 84,60% 81,80% 81,80% 79,70% No resultado exibido na tabela 14, para a entidade Renner, os quatro algoritmos alcançaram o mesmo resultado de avaliação quando observada a primeira etapa. O mesmo aconteceu para a entidade Sadia, conforme mostra a tabela 15. Na segunda etapa dos experimentos, para a entidade Renner, apenas os resultados do algoritmo J48 foram inferiores aos demais. No entanto, para a entidade Sadia, o algoritmo J48 se sobressaiu com valores melhores. Realizando uma comparação entre as duas etapas, é possível perceber que a primeira etapa conseguiu melhores percentuais das medidas de avaliação em relação à segunda etapa. Tal fato se deve aos valores dos atributos dos termos de inclusão e exclusão terem sido especificados de forma automática, baseado na frequência de palavras, desconsiderando o conhecimento do especialista, o qual foi utilizado para estes atributos na primeira fase. Ao rodar o classificador J48, o programa oferece a ilustração de uma árvore de decisão, que será apresentada na seção Árvore de decisão. Matriz de Confusão Além dos resultados exibidos das medidas de avaliação, o Weka fornece um dado interessante que são as matrizes de confusão. A matriz de confusão oferece uma medida da efetividade do modelo de classificação, e através dela é possível ter a informação da quantidade de falsos negativos e quantos falsos positivos existem. Os resultados são sumarizados em uma matriz de duas dimensões. A matriz de confusão permite, dado um conjunto de teste T, visualizar a quantidade de classificações corretas sobre as classificações preditas para cada categoria. A quantidade de acertos em cada classe se localiza na diagonal principal

71 70 M(Ci;Ci) da matriz e os demais elementos M(Ci;Cj), para i j, representam erros na classificação. Se houver 100% de classificação correta podemos esperar uma matriz de confusão onde todo elemento fora das diagonais é igual a zero. A classe que está sendo analisada aparece na linha. As classificações encontradas aparecem nas colunas. Nas imagens abaixo (da figura 6 a figura 13), podemos observar a matriz de confusão para cada entidade, em seus respectivos algoritmos, para as duas etapas do experimento. Figura 6: Matriz de confusão de cada classificador para a Entidade Claro nas duas etapas do experimento Como pode ser visto, a primeira etapa apresentou um melhor resultado, e os algoritmos SVM e K-NN apresentaram menos erros na classificação da Entidade Claro, onde 223 instancias foram classificadas corretamente como Organizacional (ORG), e 17 instâncias foram classificadas indevidamente, como Não Organizacional (NO-ORG). Enquanto que quatro instâncias foram classificadas como ORG indevidamente, e 256 foram classificadas de forma correta, como NO_ORG. A quantidade de classificações incorretas é a soma dos elementos que estão fora da diagonal da matriz.

72 71 Figura 7: Matriz de confusão de cada classificador para a Entidade Extra nas duas etapas do experimento Para a entidade Extra, observando as duas etapas, a quantidade de classificações incorretas foi menor para o algoritmo K-NN. A grande diferença entre as duas etapas em relação a quantidade de instancias classificadas como organizacional e Não Organizacional, deve-se ao fato de que na segunda etapa os valores dos atributos wordinc e wordexc foram definidos automaticamente, e por consequência, os algoritmos classificam as instancias conforme combinações dos atributos, que são diferentes para as duas etapas. Figura 8: Matriz de confusão de cada classificador para a Entidade Ferreira Costa nas duas etapas do experimento

73 72 Na figura acima, exibida para e Entidade Ferreira Costa, observa-se que os algoritmos SVM e K-NN obtiveram resultados iguais na etapa um. No entanto, o SVM se destacou com maiores taxas de classificações corretas nas duas etapas. Figura 9: Matriz de confusão de cada classificador para a Entidade Ford nas duas etapas do experimento A entidade Ford alcançou na primeira etapa resultados idênticos para os quatro algoritmos avaliados. Já na segunda etapa, o algoritmo K-NN conseguiu classificações mais assertivas. Figura 10: Matriz de confusão de cada classificador para a Entidade Garoto nas duas etapas do experimento

74 73 Conforme ilustrado na figura 10, observa-se que na etapa um do experimento, a soma dos elementos externos da diagonal da matriz de confusão do algoritmo J48, possui um valor menor comparado aos demais algoritmos, o que significa que menos instâncias foram classificadas indevidamente. Na etapa dois, o algoritmo K- NN alcançou uma matriz com melhores resultados. A diferença de valores de instancias classificadas como Organizacional e Não Organizacional, deve-se aos atributos definidos de forma diferente nas duas etapas. Figura 11: Matriz de confusão de cada classificador para a Entidade Oi nas duas etapas do experimento Ao avaliar as matrizes da entidade Oi, nota-se que na primeira etapa, a menor quantidade de falsos positivos e falsos negativos foi obtida pelo algoritmo SVM, diferente da segunda etapa, onde o melhor resultado foi para o algoritmo K-NN. Comparando a etapa 1 com a etapa 2, percebe-se uma diferença considerável em relação a quantidade de instancias classificadas como Organizacional e Não Organizacional, ocasionado pelos valores distintos dos atributos nas duas etapas, acarretando um resultado diferente nas regras efetuadas pelos algoritmos.

75 74 Figura 12: Matriz de confusão de cada classificador para a Entidade Renner nas duas etapas do experimento Nas figuras 12 e 13, respectivamente para as Entidades Renner e Sadia, é visto que na primeira etapa todos os algoritmos avaliados obtiveram resultados iguais. No entanto, na segunda etapa, para a Entidade Renner, o algoritmo J48 foi o único que atingiu resultados inferiores, com o maior índice de classificações incorretas. Enquanto que para a Entidade Sadia, o J48 apresentou melhor resultado. Figura 13: Matriz de confusão de cada classificador para a Entidade Sadia nas duas etapas do experimento

76 75 Árvore de Decisão O classificador J48 gera várias regras sobre a relação existente entre os atributos. Estas regras irão, posteriormente, dar origem à árvore de decisão. A figura 14 ilustra o exemplo da árvore de decisão gerada pelo algoritmo J48 quando executada a primeira etapa do experimento para a entidade Garoto. Figura 14: Árvore de decisão de forma textual gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na primeira etapa do experimento. Algumas observações podem ser analisadas: 1) J48 pruned tree indica que o algoritmo usado foi o J48 e que a árvore foi podada (comportamento default para este algoritmo); 2) As linhas seguintes mostram a árvore de decisão de forma textual. Ao final de cada folha da árvore (que apresenta o valor possível para cada classe, no exemplo, NO_ORG ou ORG) pode aparecer um ou dois valores nas folhas: Apenas um valor indica quantas instâncias do arquivo de treinamento foram classificadas por aquela folha. No exemplo acima dois valores apareceram, esse segundo valor significa o número de exemplos que pertencem a classe diferente daquela predita pela folha. A árvore de decisão pode ser simplesmente interpretada como um conjunto de regras de classificação, de forma equivalente a um sistema especialista; 3) Number of leaves: número de níveis que a árvore gerou;

77 76 4) Size of the tree: o tamanho da árvore. A partir das regras apresentadas na figura 14, também é possível visualizar a árvore de decisão gráfica gerada pelo Weka, com o algoritmo J48, conforme ilustra a figura 15. Figura 15: Árvore de decisão gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na primeira etapa do experimento. Podemos observar na figura 16 que na segunda etapa, pelo fato dos valores dos termos de inclusão e exclusão serem diferentes, os quais foram especificados automaticamente, a árvore textual exibida é bem diferente da primeira etapa, para a mesma entidade, Garoto.

78 77 Figura 16: Árvore de decisão de forma textual gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na segunda etapa do experimento. Figura 17: Árvore de decisão gerada pela ferramenta Weka, com o algoritmo J48, para a entidade Garoto na segunda etapa do experimento.

Exibir mais