Categorização de Textos baseada em Conceitos



Documentos relacionados
Aprendizagem de Máquina

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

ONTOLOGIA E SUAS APLICAÇÕES EM MODELAGEM CONCEITUAL PARA BANCO DE DADOS PROPOSTA DE TRABALHO DE GRADUAÇÃO

Uso de Informações Lingüísticas na etapa de pré-processamento em Mineração de Textos

Declaração de Pesquisa: Extração Automática de Ontologias da Wikipédia

UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Esta comunicação está sendo submetida sob o [x] Tema 1 Aspectos teóricos e metodológicos nos estudos em ontologias

Análise de Sentimentos e Mineração de Links em uma Rede de Co-ocorrência de Hashtags

Aula 02: Conceitos Fundamentais

Reconhecimento de entidades nomeadas em textos em português do Brasil no domínio do e-commerce

Estudo do Domínio do Repositório Institucional da ENAP

UNIVERSIDADE FEDERAL DE SANTA CATARINA

Descoberta de Domínio Conceitual de Páginas Web

UTILIZAÇÃO DO AMBIENTE COLABORATIVO TIDIA-AE PELO GRUPO DE GERENCIAMENTO DO VOCABULÁRIO CONTROLADO DO SIBiUSP - BIÊNIO

Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL

Regimento Interno do Centro de Pesquisa Clínica da Faculdade de Odontologia da USP (CEPEC-FOUSP)

UTILIZANDO O SOFTWARE WEKA

HOW TO Como realizar o bloqueio e a liberação de URLs que pertençam a mais de uma categoria.

Aprendizagem de Máquina

AS RELAÇÕES DE PODER, GÊNERO E SEXUALIDADES ENTRE DISCENTES E DOCENTES DA UNIVERSIDADE ESTADUAL DE PONTA GROSSA - UEPG, PARANÁ.

Linguística P R O F A. L I L L I A N A L V A R E S F A C U L D A D E D E C I Ê N C I A D A I N F O R M A Ç Ã O

Laboratório de Mídias Sociais

PROJETO DE REDES

Uma Ontologia para Gestão de Segurança da Informação

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA INGLÊS LE I (2 anos) 2015

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Módulo 4: Gerenciamento de Dados

Avaliação de técnicas de seleção de quadros-chave na recuperação de informação por conteúdo visual

Nathalie Portugal Vargas

Introdução ao EBSCOhost 2.0

PROGRAMA DE DISCIPLINA CURSO: EDUCAÇÃO FÍSICA

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Universidade Federal do Ma Pós-Graduação em Eng. Elétrica

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

ONTOLOGIA DE DOMÍNIO PARA ANÁLISE DE BLOGS

Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO

Pontos de Função. André Chastel Lima Andréia Ferreira Pinto Diego Souza Campos. Engenharia de Software Mestrado Ciência da Computação - UFMS

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO

Classificação Automática de Documentos em uma Biblioteca Digital com o Uso de Ontologias

Análise do Conteúdo e a Análise Documental

Microsoft Innovation Center

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

Sistema web de Monitoramento para Banco de. Acadêmico: Giovani Tercílio Moser Orientador: Cláudio Ratke 2013/2

Hierarquia de modelos e Aprendizagem de Máquina

Roteiro 2 Conceitos Gerais

Usando RDL para Derivação de Produtos em uma Linha de Produtos de Software

Análise de usabilidade de menus de navegação em portal com grande quantidade de informação e vários níveis hierárquicos

Ontologias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

Conhecimento. Sistemas de Organização do. Classificação. Taxonomia. Tesauro. Cléria Elvina Costa Moreira Lais Pereira de Oliveira

PÓS-GRADUAÇÃO EM MATEMÁTICA COMPUTACIONAL INFORMÁTICA INSTRUMENTAL

Ontologia de Domínio da Biodisponibilidade de Ferro: Uma Experiência no Projeto Nutri-Fuzzy-Orixás

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

MANUAL PARA ELABORAÇÃO DE PROJETOS E SUBPROJETOS DE PESQUISA

Gerência de Redes. Arquitetura de Gerenciamento.

Agenda. Modelo de Domínio baseado em Ontologia para acesso à Informações de Segurança Pública. George Fragoso

UNIVERSIDADE FEDERAL DE PERNAMBUCO

APRENDENDO LÓGICA DE PROGRAMAÇÃO VIA WEB

Processamento de Linguagem Natural (PLN)

GUIA DE ORIENTAÇÕES ROTEIRO DE CONFIGURAÇÃO DO SOFTWARE CRM PROFESSIONAL ANEXO III ROTEIRO DE CONFIGURAÇÃO - CRM PROFESSIONAL

Como combinado segue proposta para o coaching executivo com foco na preparação e caminhos para o seu crescimento e desenvolvimento profissional.

ARQUITETURA DE UM SISTEMA SPATIO-TEXTUAL. PALAVRAS-CHAVE: banco de dados espaciais, busca spatio-textual. aplicativo.

20/05/2013. Sistemas de Arquivos Sistemas de arquivos. Sistemas de Gerenciamento de Banco de Dados (SGBD) Banco de Dados. Estrutura de um BD SGBD

Proposta de Dissertação de Mestrado

Extração de Conhecimento a partir dos Sistemas de Informação

Prof. Marcelo Machado Cunha

SAD orientado a MODELO

Disciplina de Banco de Dados Parte V

05/05/2015. Recuperação de Informação

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO - TIC 10º C. Planificação de. Curso Profissional de Técnico de Secretariado

Oficina. Praça das Três Caixas d Água Porto Velho - RO

Reconhecimento de ações humanas utilizando histogramas de gradiente e vetores de tensores localmente agregados

Função Mudar de unidade estatística

INSTRUÇÃO NORMATIVA 002/2014-UNEMAT

ATENÇÃO: ESTE ARTIGO NÃO PODERÁ SER UTILIZADO PARA FINS COMERCIAIS. DEVERÁ OBRIGATORIAMENTE SER REFERENCIADO COMO:

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

Extração de Entidades Nomeadas Com Maximização de Entropia (Opennlp) Richerland Pinto Medeiros 1, Patrícia Bellin Ribeiro 1.

INF 1771 Inteligência Artificial

FACULDADE INTEGRADAS DE PARANAÍBA ADMINISTRAÇÃO DE EMPRESAS. Bancos de Dados Conceitos Fundamentais

RECONHECIMENTO DE PADRÕES TEXTUAIS PARA CATEGORIZAÇÃO AUTOMÁTICA DE DOCUMENTOS. Laila Beatriz Soares Melo

Desenvolvimento de software orientado a características e dirigido por modelos

Curso de Especialização em GESTÃO DE EQUIPES E VIABILIDADE DE PROJETOS

1º Seminário de Gestão da Informação Jurídica em Espaços Digitais

Técnicas de Seleção de Atributos utilizando Paradigmas de Algoritmos Disciplina de Projeto e Análise de Algoritmos

Engenharia de Domínio baseada na Reengenharia de Sistemas Legados

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

Workshop em Gerenciamento de Projetos

Transcrição:

Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Encontro de PLN Categorização de Textos baseada em Conceitos Silvia Maria Wanderley Moraes silvia.moraes@pucrs.br Vera Lúcia Strube de Lima vera.strube@pucrs.br Janeiro de 2008

Roteiro Categorização de Textos Conceitos Coleção PLN-BR CATEG Proposta 2

Categorização de Textos Processo de automaticamente atribuir uma ou mais categorias predefinidas a documentos textuais (Sun e Lim, 2001). Categoria A Categoria B Classificador Categoria C Categoria D 3

Categorização de Textos As aplicações em CT têm feito uso de: bag-of-words. informações lingüísticas para identificar termos compostos na etapa de features selection. conceitos Classificadores k-nn com tesauro que contém conceitos sobre os relacionamentos existentes entre as categorias da hierarquia (Bang et. al, 2006). Classificadores SVM, Rocchio e Naïve Bayesian utilizam um modelo que combina um analisador estatístico e um grafo contendo relações conceituais para definir conceitos (Shehata et. al, 2007) Classificador neural MLP que utiliza uma ontologia de domínio (Rigo et al, 2007) 4

Conceitos doença Conceito dano à saúde ou condição anormal de funcionamento. intenção câncer úlcera... gastrite enfermidade diasease... illness (P. Buitelaar et al, 2005) extensão traços lingüísticos 5

Conceitos Conceito = conjunto de palavras (termos compostos ou mesmo frases) que compartilham contextos (Jiang e Tan, 2005). palavras que co-ocorrem em uma janela (parágrafo, documento, n palavras consecutivas). palavras que possuem contextos sintáticos semelhantes ( Harris' distributional hypothesis). 6

Conceitos Formação dos Conceitos: Clusterização de palavras (Ex: k-means) Clusterização hierárquica de palavras para gerar taxonomias (Ex: Bi-Section k-means) POS + Parser para extrair dependências sintáticas com o objetivo de identificar papéis temáticos, como: agente (o que efetua a ação): verbo (sujeito) paciente ( o que sofre a ação): verbo (objeto) 7

Conceitos Formação de Conceitos (Cimiano,2006) alugar(carro) carro(alugar,dirigir,reservar) alugar(apartamento) bicicleta(alugar,dirigir,reservar) alugar(bicicleta) apartamento(alugar,reservar) dirigir(carro) hotel(reservar) dirigir(bicicleta) viagem(participar, reservar) reservar(hotel) reservar(carro) reservar(viagem) hotel reservar (bicicleta) apartamento viagem reservar(apartamento) participar(viagem) carro, bicicleta 8

Coleção PLN-BR CATEG Formada por 30 mil textos jornalísticos da Folha de São Paulo dos anos de 1994 a 2005. Obtida através do projeto Recursos e Ferramentas para Recuperação de Informações em Bases Textuais em Português do Brasil (PLN-BR). 9

Coleção PLN-BR CATEG Está organizada em 29 seções, assim distribuídas: Seção #Textos Seção #Textos Seção #Textos Agrofolha 166 Empregos 211 Informática 362 Brasil 4.788 Esporte 4.133 Mais! 207 Caderno Especial 2 Caderno Especial Ciência Construção 48 444 175 7 FolhaInvest Folha Negócios Folha Sinapse FolhaTeen 156 36 11 216 Mundo Primeira Página Revista Folha Tudo da 2.099 152 3 75 Cotidiano 5.831 Folhinha 73 Turismo 429 Dinheiro 3.790 FolhaVest 73 Tv Folha 207 Entrevistada 2 4 Ilustrada 2.594 Veículos 179 Equilíbrio 27 Imóveis 110 10

Coleção PLN-BR CATEG Serão usadas apenas as categorias: Política: Brasil (4.788) Esporte (4.133) Arte e Cultura: Ilustrada (2.594) Mais!(207) TvFolha(207) Folha Teen (216) Folhinha (76) Finanças: Dinheiro (3.790) Empregos (211) FolhaInvest(156) Folha Negócios (36) Imóveis (110) 11

Proposta Categoria A CHAMA + FORMA (Gonzalez, 2006) Tokenização Tokenizador POS Lematização Lematizador Chunking verbos e SN Clusterização de Palavras Seleção de Características Clusterização Hierárquica Conceitos Fase de Treinamento 12

Proposta Tokenização Tokenizador POS Lematização Lematizador CHAMA + FORMA (Gonzalez, 2006) Chunking verbos e SN Fase de Teste (Folha Hierarq) conceitos categoria B Similaridade Similaridade conceitos categoria A Definição da Categoria Categoria 13

Proposta Comparação da abordagem baseada em conceitos com bag-of-words 14

Referências Sun, A. e Lim, E. (2001) Hierarchical Text Classification and Evaluation, In: IEEE International Conference on Data Mining, Proceedings, Califórnia, USA, p.521-528. Bang, S. L, Yang, J.D e Yang, H. J. (2006) Hierarchical Document Categorization with k-nn and concept-based thesauri, Information Processing & Management, No 42, Elsevier, p. 387-406. Shedata, S. Karray, F. Kamel, M. A Concept-based Model for Enhancing Text Categorization. KDD'07. Sebastiani, F. (2006) Classification of text, automatic, In Keith Brown (ed.), The Encyclopedia of Language and Linguistics, vol. 14, 2a edição, Elsevier Science Publishers, Amsterdam, NL, p. 457-462. X. Jiang e A. Tan. Mining Ontological Knowledge from Domain-Specific Text Documents. Proceedings of the Fifth IEEE International Conference on Data Mining (ICDM 05). P. Buitelaar, P. Cimiano e B. Magnini. Ontology Learning from Text: An Overview. Ontology Learning from Text: Methods, Evaluation and Applications, P. Buitelaar et al (Editores), IOS Press, 2005. Rigo,S., Oliveira, J.P. e Barbieri, C. Classificação de Textos baseada em ontologias de domínio. TIL 2007 Cimiano, P. Ontology Learning and Population from Text, 2006. 15