João Ribeiro Carrilho Junior. Desenvolvimento de uma Metodologia para Mineração de Textos. Dissertação de Mestrado

Documentos relacionados
SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

Bruno Loureiro Rezende. Um Framework para a Automação de Testes com Linguagens de Especificação Configuráveis DISSERTAÇÃO DE MESTRADO

Sistema para Consultas sobre Banco de Dados Relacional Baseado em Palavras-Chave

Estudo Comparativo de Estratégias de Classificação de Páginas Web

Iam Vita Jabour. O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML. Dissertação de Mestrado

João Paulo de Freitas Araujo. Algoritmos para acelerar a computação de Árvores de corte de Gomory e Hu. Dissertação de Mestrado

Utilização de uma estratégia para identificação de fontes de informação na fase de elicitação

Gerenciamento de projetos no âmbito da Economia Criativa Um estudo de caso das Incubadoras Rio Criativo

Matchmaking Uma infraestrutura para alinhamento de esquemas

Adriano Francisco Branco. Um modelo de programação para RSSF com. Dissertação de Mestrado

Avaliação Probabilística de Reservas de Óleo e Gás Considerando o Efeito da Variação do Preço do Óleo

QEEF-G: Execução Paralela Adaptativa de Consultas Iterativas

Bruno Siqueira Silva. Workflows dinâmicos em gerência de projetos ágeis. Dissertação de Mestrado

Integração de Ontologia com Modelagem de Processo: Um Método para Facilitar a Elicitação de Requisitos

Elicitação de requisitos de software através da utilização de questionários

UM ESTUDO SOBRE OS VALORES NO CONSUMO DE PRODUTOS DE BELEZA POR MULHERES DE BAIXA RENDA

Geraldo da Silva Rocha Netto. Escalonamento Flexível de Workflows com Restrições Temporais. Dissertação de Mestrado

Aprendizado de Máquina para o Problema de Sentiment Classification

Ricardo Fukasawa. Resolução de problemas de logística ferroviária utilizando programação inteira DISSERTAÇÃO DE MESTRADO

Previsão da Produção Industrial do Brasil: Uma Aplicação do Modelo de Índice de Difusão Linear

Tânia Cristina Soeiro Simões O uso das preposições locais no processo de aquisição formal da língua alemã como segunda língua

Experimentos de Previsão da Estrutura a Termo da Taxa de Juros Americana: Reversão à Media, Inércia e Influência de Variáveis Macroeconômicas

Heidegger e a relação homem-técnica-natureza na crise ambiental contemporânea

Alberto Santos Junqueira de Oliveira. Essa vez que não chega: fila e drama social no Brasil. Dissertação de Mestrado

Francisco Benjamim Filho. XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO

Avaliação Preliminar dos Movimentos Aéreos no Aeroporto Internacional Antônio Carlos Jobim Galeão

Uma meta-ferramenta de geração de diagramas utilizada na engenharia reversa de sistemas legados.

Mauricio Kreczmarsky Guimarães Meinicke. Opacidade 3D na Visualização Volumétrica de Dados Sísmicos

Rodrigo Pereira David. Técnica de Estimação de Canal Utilizando Símbolos Pilotos em Sistemas OFDM. Dissertação de Mestrado

Mineração de Dados voltada para Recomendação no Âmbito de Marketing de Relacionamento

Gerenciando Conflitos em Reuniões: Uma Estratégia para a Elicitação de Requisitos de Software

Entropia de Rényi e Informação Mútua de Cauchy-Schwartz Aplicadas ao Algoritmo de Seleção de Variáveis MIFS-U: Um Estudo Comparativo

Um Estudo Sobre Middlewares Adaptáveis

Criação Automática de Visões Materializadas em SGBDs Relacionais

Fabian David Backx. Detecção Multiusuário Ótima por Grupos em Sistemas DS/CDMA M-PSK com Codificação Convolucional. Dissertação de Mestrado

Bernardo Pereira Nunes. Classificação automática de dados semi-estruturados. Dissertação de Mestrado

Um Framework de Jogos Sérios para Mercado de Informações com Aplicação em Ética Empresarial

Sistema de recomendação de segundo nível para suporte à produção de matérias jornalísticas

Categorização Automática de Textos Baseada em Mineração de Textos

Análise e Avaliação do Equity Premium Puzzle no Mercado Acionário Brasileiro sob diferentes Contextos Econômicos

Bruno de Figueiredo Melo e Souza. Modelos de fatoração matricial para recomendação de vídeos. Dissertação de Mestrado

Carlos Roberto da Costa Ferreira. Interpolação Modificada de LSF's. Dissertação de Mestrado

Posicionamento Estratégico das Distribuidoras de Energia Elétrica no Brasil

Vinci Pegoretti Amorim. Uma Arquitetura Flexível para Replicação de Bases Distribuídas Heterogêneas. Dissertação de Mestrado

Gustavo Simão Rodrigues

João Clemente A. Quaresma de Moura. O poder na obra de Foucault e as Estratégias do Contemporâneo. Dissertação de Mestrado

Patrícia Helena G. Seize

APLICAÇÃO DE CONCEITOS DE ENGENHARIA DE FATORES HUMANOS: UM ESTUDO DE CASO EM UMA EMPRESA DE OPERAÇÕES LOGÍSTICAS

Capital Requerido via Simulação Estocástica aplicado ao Seguro de Vida e Fundo de Pensão

Marcos José Gomes Cristovão

Francisco Eduardo Torres Cursino de Moura. Uma proposta para Rendering Baseado em Imagens em celulares

Modelo de Redes Neurais Artificiais para Inferência da Qualidade de um Processo Polimérico

MODELAGEM DE SÉRIES TEMPORAIS FOCADA NA PRECIFICAÇÃO DE DERIVATIVOS CLIMÁTICOS

Tatiana Waintraub. Modelagem da calçada de Copacabana. Dissertação de Mestrado

Bruno Baère Pederassi Lomba de Araujo. Um estudo sobre adaptatividade dinâmica de dificuldade em jogos. Dissertação de Mestrado

Remo Mannarino Filho. O método das divisões: a última proposta dialética de Platão. Dissertação de mestrado

Controle da Execução e Disponibilização de Dados para Aplicativos sobre Seqüências Biológicas: o Caso BLAST

Adriano Medeiros dos Santos. Suporte a Componentes Compostos Para o Middleware SCS. Dissertação de Mestrado

Isabela Maria Lyra Zyro

Bernardo de Mendonça G. Ferreira. Valoração de uma opção sobre um contrato futuro. Dissertação de Mestrado

Pedro Tiago Barbosa do Couto. Resolução de problemas de transporte rodoviário de cargas utilizando programação inteira DISSERTAÇÃO DE MESTRADO

Davi Romero de Vasconcelos. Análise de Estratégias Utilizando Verificação Formal de Modelos. Dissertação de Mestrado

Desambiguação de Sentido de Palavras Dirigida por Técnicas de Agrupamento sob o Enfoque da Mineração de Textos

Comparação de estratégias de construção de poços marítimos incorporando incertezas

Análise da satisfação dos clientes de serviços de cabotagem no Brasil: Um estudo de caso

Comercialização do Serviço de Venda de Seguro: Ampla Energia e Serviços S.A. Um estudo de caso

Paulo Afonso Monteiro Velasco Júnior

Proposta de um sistema de suporte à decisão para programação de navios baseado em otimização: um caso prático

Alexandre Roberto Rentería ESTIMAÇÃO DE PROBABILIDADE FUZZY A PARTIR DE DADOS IMPRECISOS. Tese de Doutorado

Laura Gonçalves Carvalho

Uma proposta para recuperação da informação através de redes lexicais: uma estratégia léxico-quantitativa

Compras de itens não críticos: implementação no nível operacional e práticas em uma empresa de petróleo

Uma Abordagem para a Evolução Transparente em Repositórios de Medição de Software

Geração semi-automática de massas de testes funcionais a partir da composição de casos de uso e tabelas de decisão

Gheisa Roberta Telles Esteves. Modelos de Previsão de Carga de Curto Prazo. Dissertação de Mestrado

Marcos Borges Pessoa. Geração e execução automática de scripts de teste para aplicações web a partir de casos de uso direcionados por comportamento

Aplicação da Análise de Sistemas à Definição de Processos de Desenvolvimento de Software

IPOs no Novo Mercado: Estratégias de Capitalização ou de Saída?

Estudo de Viabilidade da Implementação de Software de Roteamento para Transporte de Funcionários de Refinaria da Petrobras

Renato Figueiró Maia. Um Framework para Sistemas Baseados em Componentes Distribuídos. Informática DEPARTAMENTO DE INFORMÁTICA

Jaqueline Engelmann. Teoria da Definição. Das definições reais às definições predicativas. Tese de Doutorado

Influência de Avaliações Online Negativas na Atitude e na Intenção de Compra

Uma Proposta de Sistema de Dependência a Distância Usando a Plataforma Moodle

Programas de fidelização e seu impacto no regime de concorrência na indústria aérea americana

Uma abordagem baseada em SPH para animação interativa de águas rasas em jogos

Debora Carvalho Capella. Um estudo descritivo do vocativo em linguagem oral para Português L2. Dissertação de Mestrado

Realce de Imagens no Domínio da Transformada

Um ambiente de suporte para uma linguagem de modelagem de sistemas multi-agentes

Pontifícia Universidade Católica do Rio de Janeiro

Thatty de Aguiar Castello Branco. O Maravilhoso e o Fantástico na Literatura Infantil de Monteiro Lobato. Dissertação de Mestrado

As notícias sobre crime e a construção da realidade:

Sándor Ferenczi: entre os limites da clínica e as experimentações técnicas

Pedro Larronda Asti. Anotador Morfossintático para o Português-Twitter. Dissertação de Mestrado

Renata Thomaz Lins do Nascimento. Visualização por Imagens Auto-animadas de Campos Vetoriais Baseada na sua Topologia. Dissertação de Mestrado

Thomas de Campos Tsuchida. Modelagem da localização de pólos de venda de derivados de petróleo. Dissertação de Mestrado (Opção Profissional)

Controle Preditivo com Aprendizado por Reforço para Produção de Óleo em Poços Inteligentes

Zonas de Influência Portuárias (Hinterlands) e um Estudo de Caso em um Terminal de Contêineres com a Utilização de Sistemas de Informação Geográfica

Considerações sobre o Afeto em Psicanálise

Michel Lacerda Baitelli. Posicionamento Competitivo dentro dos Grupos Estratégicos da Indústria de Higiene Pessoal e Cosméticos

Transcrição:

João Ribeiro Carrilho Junior Desenvolvimento de uma Metodologia para Mineração de Textos Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pósgraduação em Engenharia Elétrica do Departamento de Engenharia Elétrica da PUC-Rio. Orientador: Prof. Emmanuel Piseces Lopes Passos Rio de Janeiro Dezembro de 2007

João Ribeiro Carrilho Junior Desenvolvimento de uma Metodologia para Mineração de Textos Dissertação apresentada como requisito parcial para obtenção do grau Mestre pelo Programa de Pós- Graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica do Centro Técnico Científico da PUC- Rio. Aprovada pela Comissão Examinadora abaixo assinada. Dr. Emmanuel Piseces Lopes Passos Orientador Departamento de Engenharia Elétrica Dra. Marley Maria Bernardes Rebuzzi Vellasco Departamento de Engenharia Elétrica - PUC-RIO Dr. Antonio Luz Furtado Departamento de Informática - PUC-RIO Dr. Christian Nunes Aranha Cortex Intelligence Dr. Ricardo Tanscheit Departamento de Engenharia Elétrica - PUC-RIO Prof. José Eugenio Leal Coordenador Setorial do Centro Técnico Científico PUC-Rio Rio de Janeiro, 18 de dezembro de 2007

Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador. João Ribeiro Carrilho Junior Graduou-se Bacharel em Informática pela PUC-Rio em 2004. Atua como analista de sistemas na Petrobras, principalmente no desenvolvimento de sistemas de apoio à decisão. Tem interesse na pesquisa de novos algoritmos, principalmente na área de Mineração de Textos. Ficha Catalográfica Carrilho Junior, João Ribeiro Desenvolvimento de uma metodologia para mineração de textos / João Ribeiro Carrilho Junior ; orientador: Emmanuel Piseces Lopes Passos. 2007. 96 f. ; 30 cm Dissertação (Mestrado em Engenharia Elétrica) Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007. Inclui bibliografia 1. Engenharia elétrica Teses. 2. Mineração de textos. 3. Dados não-estruturados. 4. Processamento de linguagem natural. 5. Aprendizado de máquina. 6. Recuperação de informação. I. Passos, Emmanuel Piseces Lopes. II. Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Engenharia Elétrica. III. Título. CDD: 621.3

Agradecimentos A Deus, por conceder-me mais esta benção em minha vida. Aos meus pais, João e Tereza, e minha irmã, Fabiana, que tanto me apoiaram e me incentivaram. À minha namorada, Beatriz, por ter acreditado em mim e estado ao meu lado em todos os momentos, sendo estes difíceis ou não. Aos meus avós, Afonso e Sebastiana, que sempre me amaram e estiveram prontos a me ajudar. Ao professor Emmanuel pelos seus valiosos ensinamentos e pela confiança depositada em meu trabalho. Aos amigos Roberto e Fábio, que foram companheiros de estudos e que sempre estiveram prontos a colaborar. Ao CNPq pelo apoio financeiro durante o primeiro ano do mestrado.

Resumo Carrilho Junior, João Ribeiro; Passos, Emmanuel Piseces Lopes (Orientador). Desenvolvimento de uma Metodologia para Mineração de Textos. Rio de Janeiro, 2007. 96p. Dissertação de Mestrado - Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro. A seguinte dissertação tem como objetivo explorar a Mineração de Textos através de um estudo amplo e completo do que atualmente é considerado estado da arte. Esta nova área, considerada por muitos como uma evolução natural da Mineração de Dados, é bastante interdisciplinar e vem obtendo importantes colaborações de estudiosos e pesquisadores de diversas naturezas, como Lingüística, Computação, Estatística e Inteligência Artificial. Entretanto, muito se discute sobre como deve ser um processo completo de investigação textual, de forma a tirar máximo proveito das técnicas adotadas nas mais variadas abordagens. Desta forma, através de um encadeamento sistemático de procedimentos, pode-se chegar a uma conclusão do que seria a metodologia ideal para a Mineração de Textos, conforme já se chegou para a de Dados. O presente trabalho explora um modelo de processo, do início ao fim, que sugere as seguintes etapas: coleta de dados, pré-processamento textual, indexação, mineração e análise. Este sequenciamento é uma tendência encontrada em trabalhos recentes, sendo minuciosamente discutido nos capítulos desta dissertação. Finalmente, a fim de se obter enriquecimento prático, foi desenvolvido um sistema de Mineração de Textos que possibilitou a apresentação de resultados reais, obtidos a partir da aplicação de algoritmos em documentos de natureza geral. Palavras-chave Mineração de Textos; Dados Não-Estruturados; Processamento de Linguagem Natural; Aprendizado de Máquina; Recuperação de Informação.

Abstract Carrilho Junior, João Ribeiro; Passos, Emmanuel Piseces Lopes (Advisor). Development of a Methodology for text Mining. Rio de Janeiro, 2007. 96p. MSc Dissertation - Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro. The following essay is intended to explore the area of Text Mining, through an extensive and comprehensive study of what is currently considered "state of the art". This new area, considered by many as a natural evolution of the Data Mining, is quite interdisciplinary. Several scholars and researchers from fields like linguistics and computing, for instance, have contributed for its development. Nevertheless, much has been discussed on how complete dossier of textual investigation must be carried out, in order to take maximum advantage of the techniques adopted in various approaches. Thus, through a systematic sequence of procedures, one can come to a conclusion of what would be the ideal method for the Mining of documents, as one has come about Data. This work explores a model of process which suggests the following steps: collecting data, textual preprocessing, indexing, mining and analysis. This sequence is a tendency followed in some recent works and it is thoroughly discussed in the chapters to come. Finally, in order to obtain a practical enrichment, one developed a system of Mining of documents with which became possible the presentation of results, obtained from the application of algorithms in documents of a general nature. Keywords Text Mining; Unstructured Data; Natural Language Processing; Machine Learning; Information Retrieval.

Sumário 1 Introdução 12 1.1. Objetivos da Dissertação 13 1.2. Organização da Dissertação 13 2 Mineração de Textos: Fundamentos e Aplicações 14 2.1. Áreas de Conhecimento em Mineração de Textos 15 2.1.1. Processamento de Linguagem Natural 15 2.1.2. Ciência Cognitiva 16 2.1.3. Recuperação de Informação 16 2.1.4. Estatística 18 2.1.5. Aprendizado de Máquina 18 2.1.6. Inteligência Computacional 19 2.1.7. Mineração de Dados 19 2.1.8. Web Mining 20 2.2. Aplicações 21 2.2.1. Negócios 21 2.2.2. Direito 24 2.2.3. Medicina 24 3 Etapas da Metodologia de Mineração de Textos 26 3.1. Coleta 27 3.2. Pré-processamento 30 3.2.1. Tokenization (Atomização) 31 3.2.2. Correção Ortográfica 34 3.2.3. Redução do Léxico 35 3.2.4. Identificação do Início e Fim de Sentenças 42 3.2.5. Etiquetagem POS 45 3.2.6. Identificação de Entidades Nomeadas 45 3.2.7. Parsing (Análise Sintática) 46 3.3. Indexação 48 3.3.1. Representação de Documentos 48 3.3.2. Medidas de Similaridade entre Documentos 49 3.3.3. Listas Invertidas 51 3.3.4. Processamento de Consultas 52 3.3.5. Avaliação das Consultas 54 3.4. Mineração 56 3.5. Análise da Informação 56 4 Tarefas de Mineração de Textos 58 4.1. Categorização de Textos 58 4.1.1. Treinamento e Teste 60 4.1.2. Avaliação de Performance 62 4.1.3. Naive Bayes 64 4.2. Clusterização 67

4.3. Sumarização 69 4.4. Extração de Informação 71 4.5. Sistemas de Busca de Informação 73 5 Implementação e Estudo de Caso 74 5.1. Arquitetura Geral do Sistema 74 5.1.1. Módulo de Coleta 75 5.1.2. Módulo de Pré-processamento 79 5.1.3. Módulo de Indexação 81 5.1.4. Módulo de Mineração 82 5.1.5. Módulo de Análise de Resultados 84 5.2. Estudo de Caso: Identificação de Subjetividade em Pesquisas de Opinião 87 6 Conclusão 91 Referências bibliográficas 92

Lista de Figuras Figura 1 Componentes de um sistema de Recuperação de Informação...17 Figura 2 Abordagens de Web Mining...21 Figura 3 - Diagrama que ilustra a metodologia de Mineração de Textos com o encadeamento de técnicas proposta por Aranha....26 Figura 4 Linha de montagem de um procedimento de Tokenization...32 Figura 5 Exemplo de um algoritmo de detecção de início e fim de sentenças...44 Figura 6 - Árvore de Derivação simples para a frase "José comeu o bolo"....47 Figura 7 Exemplificação do modelo saco de palavras...49 Figura 8 Documentos apontando para seus tokens....51 Figura 9 Estrutura de Lista Invertida com os tokens apontando para os documentos...52 Figura 10 - Classificação ternária de documentos...59 Figura 11 Utilização da estratégia holdout para treinamento e validação de classificadores...61 Figura 12 Validação Cruzada com 3-folds....62 Figura 13 Esquema básico da Tarefa de Clusterização...67 Figura 14 Agrupamento de não-hierárquico aglomerativo de documentos....68 Figura 15 Extração de Características de um documento...71 Figura 16 Diagrama Hierárquico de Funções do sistema implementado...74 Figura 17 Modelo MVC utilizado no desenvolvimento do sistema. As setas sólidas indicam associações diretas e as tracejadas indicam associações indiretas....75 Figura 18 Diagrama de classes parcial do sistema com as classes Corpus e Documento....76 Figura 19 Ciclo contínuo de execução da coleta na Internet através de web crawlers....78

Figura 20 - Diagrama de classes contendo as novas classes introduzidas pela etapa de tokenization do módulo de pré-processamento...79 Figura 21 Parte do diagrama de classes do sistema com a adição das partes envolvidas na indexação...81 Figura 22 Diagrama de classes parcial do sistema com a inclusão das classes que compõem o módulo de mineração...83 Figura 23 Gráfico de barras que mostra a relação entre faixas de freqüência e o número total de tokens presentes...86

Lista de Tabelas Tabela 1 As duas abordagens para a Análise de Textos e suas principais Áreas de Conhecimento...15 Tabela 2 Principais focos no monitoramento de páginas na web...22 Tabela 3 Resumo das principais coleções de texto usadas pela comunidade científica...29 Tabela 4 - Representação atributo-valor obtida à partir da etapa de Préprocessamento...30 Tabela 5- Exemplificação do resultado da execução de um subsistema de Tokenization que baseia-se em dicionários pré-estabelecidos e regras de formação...33 Tabela 6 Identificação e Remoção de Stopwords (os tokens descartados estão tachados)...39 Tabela 7 Stoplist obtida automaticamente a partir de um sistema de Mineração de Texto pronto...39 Tabela 8 Matriz de Confusão...85 Tabela 9 Relatório de freqüência dos tokens nos corpus envolvidos no treinamento do classificador...86 Tabela 10 Lista de stopwords padrão do Google....88 Tabela 11 Resultados dos experimentos realizados com o classificador Naive Bayes no problema de subjetividade versus objetividade....89 Tabela 12 Resultados dos experimentos realizados com o classificador SVM no problema de subjetividade versus objetividade...89 Tabela 13 Categorização obtida para novos exemplos utilizado o classificador Naive Bayes....90