UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

Documentos relacionados
Universidade Federal de Pernambuco Graduação em Engenharia da Computação Centro de Informática

Universidade Federal de Pernambuco

Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática

Revisão/Mapeamento Sistemático

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

Universidade Federal de Pernambuco

MODELAGEM E OTIMIZAÇÃO DE SOFTWARE AUTOMOTIVOS PROPOSTA DE TRABALHO DE GRADUAÇÃO

COMPARANDO SUMÁRIOS DE REFERÊNCIA HUMANOS COM EXTRATOS IDEAIS NO PROCESSO DE AVALIAÇÃO DE SUMÁRIOS EXTRATIVOS

Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

IHAGO HENRIQUE LUCENA E SILVA

Tipos para uma Linguagem de Transformação

Análise de Desempenho de Plataformas para Desenvolvimento com o Sistema Operacional Android

Extração de características utilizando filtros de Gabor aplicado a identificação de defeitos no couro bovino

ENTENDENDO ABORDAGENS DE GAMEFICAÇÃO APLICADAS À EDUCAÇÃO: UMA REVISÃO SISTEMÁTICA DA LITERATURA

Um Método para Melhoria de Dados Estruturados de Imóveis

DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY

EER-CASE: FERRAMENTA CASE DE MODELAGEM CONCEITUAL COM ENTIDADE- RELACIONAMENTO ESTENDIDO PARA BANCO DE DADOS PROPOSTA DE TRABALHO DE GRADUAÇÃO

ESTUDO E IMPLEMENTAÇÃO DE METÁFORAS DE INTERAÇÃO 3D COM FOCO EM NAVEGAÇÃO EM AMBIENTE CAVE

Aula 2: Planejamento da RS

Mineração de Textos na Web

USANDO XML PARA CARGA AUTOMÁTICA DE DADOS EM BANCOS DE DADOS DE PROJETO INDUSTRIAL DE MAQUETE ELETRÔNICA PROPOSTA DE TRABALHO DE GRADUAÇÃO

Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de Graduação

UNIVERSIDADE FEDERAL DE P ERNAMBUCO

UBIBUSANALYSIS UMA FERRAMENTA DE INTERPRETAÇÃO DE

Um mecanismo de monitoramento de serviços na plataforma OSGi

Síntese de programas utilizando a linguagem Alloy

Uma Linguagem de Domínio Específico para descrever redes de sensores na prototipagem de Instrumentos Musicais Digitais

Previsão de séries temporais através da combinação de modelo híbrido ARIMA e redes neurais artificiais

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

Desenvolvimento de Ferramentas no igeom: Utilizando a Geometria Dinâmica no Ensino

UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO CENTRO DE INFORMÁTICA

Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos

Definição dotrabalho de Diplomação na ECP/UFRGS em Perguntas e Respostas e Procedimentos de Matrícula e Conclusão para 2008/2

UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO CENTRO DE INFORMÁTICA

Universidade Católica Dom Bosco

Análise de Difusão de Influência em redes sociais com foco na Hipótese dos Influentes

UNIVERSIDADE FEDERAL DE PERNAMBUCO. Análise da Eficiência da Codificação de Huffman em Extensões de Fontes de Informação

UNIVERSIDADE FEDERAL PERNAMBUCO

ANALISANDO TÉCNICAS DE DESENVOLVIMENTO EM REPOSITÓRIOS DE SOFTWARE ALUNO: BRENO GUSTAVO DE CARVALHO SIQUEIRA TORRES ORIENTADOR: MÁRCIO LOPES CORNÉLIO

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

Avaliação do desempenho das ConvNets na detecção de ovos de esquistossomose PROPOSTA DE TRABALHO DE GRADUAÇÃO

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

UM PROCESSO PARA MANUTENÇÃO DA CONSISTÊNCIA DE INTERFACES INTEGRADAS AO AMADEUS

As Disciplinas de Introdução à Programação na USP: um Estudo Preliminar

BLMSumm Métodos de Busca Local e Metaheurísticas na Sumarização de Textos

Sistema de Reconhecimento de Logotipos

UNIVERSIDADE FEDERAL DE P ERNAMBUCO

PROCESSAMENTO E ANÁLISE DE IMAGENS DE MICROARRANJOS DE DNA

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

SUMÁRIO REGIMENTO INTERNO E ESTRUTURA CURRICULAR DO MESTRADO PROFISSIONALIZANTE EM CIÊNCIA DA COMPUTAÇÃO

Metodologia da Pesquisa em Sistemas de Informação. Aula 3. Projeto de Pesquisa. Revisão Sistemática. Profa. Fátima L. S. Nunes

Universidade Federal de Pernambuco

Métodos de Segmentação de Imagem para Análise da Marcha

Reconhecimento Ótico de Caracteres em Placas Veiculares

Mecanismo de Segurança para Redes Móveis Ad Hoc

"Análise de Extratores de Característica para Reconhecimento de Face"

GistSumm GIST SUMMarizer: Extensões e Novas Funcionalidades

CC-226 Introdução à Análise de Padrões

Uma ferramenta para Definição de Mapeamentos entre Vocabulários usados na publicação de Dados Linkados

Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática

Detecção de Posicionamento no contexto de Fake News

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

Avaliação de desempenho de virtualizadores no envio e recebimento de pacotes em sistemas Linux

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

Estendendo GeoDWCASE para Oracle Spatial e MySQL PROPOSTA DE TRABALHO DE GRADUAÇÃO

Aula 1 Projeto de Formatura PF2. PSI2594 2º. Semestre 2014

Ferramenta para Criação e Balanceamento de Efeitos Climáticos em Jogos

Sumarização Automática Multidocumento

Uma metodologia para aprimoramento do Video Colortoning

Rastreamento de Objetos Baseado em Grafos. Casamento Inexato entre Grafos Relacionais com Atributos

Universidade Federal de Pernambuco CIn - Centro de Informática Graduação em Bacharelado em Sistemas de Informação

Aplicando regras de programação para refatoração de programas em Dafny: uma linguagem imperativa com especificação nativa

Medidas de Avaliação

O Desenvolvimento de um Sistema Computacional de Sumarização Multidocumento com Base em um Método Linguisticamente Motivado

MINISTÉRIO DA EDUCAÇÃO SECRETARIA DE EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA INSTITUTO FEDERAL DO NORTE DE MINAS GERAIS CAMPUS MONTES CLAROS 1 PERÍODO

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Um método de validação de residência baseado em geolocalização PROPOSTA DE TRABALHO DE GRADUAÇÃO

PSI Equipe PROJETO DE FORMATURA II. Aula Inaugural. Prof. Antonio Carlos Seabra. Prof. Marcelo Knörich Zuffo.

ORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS 1

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

ESTÁGIOS DOMINANTES FLEXÍVEIS EM SISTEMAS DE PRODUÇÃO FLOW SHOP HÍBRIDOS

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Estratégia para medição de orientação baseado em sensores MARG para aplicações Wearable PROPOSTA DE TRABALHO DE GRADUAÇÃO

Ferramentas de Suporte

IMPLEMENTAÇÃO E OTIMIZAÇÃO DE UMA BOUNDING INTERVAL HIERARCHY PARA UM RAYTRACER DE TEMPO REAL USANDO CUDA

PRÁTICAS QUE CONTRIBUEM NA FORMAÇÃO DE HACKERS AO LONGO DA GRADUAÇÃO EM CURSOS DE COMPUTAÇÃO

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

RECONHECIMENTO DE CARACTERES MANUSCRITOS JAPONESES

Seiji Isotani CURRICULUM VITAE

Reconhecimento de Gestos

Processamento de áudio em tempo real em dispositivos computacionais de alta disponibilidade e baixo custo

Uma ferramenta para expansão do vocabulário com base em coocorrência

Um ambiente de suporte para uma linguagem de modelagem de sistemas multi-agentes

PROCESSO UNIFICADO FOCADO EM BANCO

Metodologia de Pesquisa Científica Trabalho de Avaliação de Tese de Outros

U NIVERSIDADE F EDERAL DE P ERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA

Transcrição:

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO Sistema de Sumarização Automática de Textos Baseado em Classes de Documentos PROPOSTA DE TRABALHO DE GRADUAÇÃO Aluno: Ihago Henrique Lucena e Silva (ihls@cin.ufpe.br) Orientador: Prof. Dr. Rafael Dueire Lins (rdl@cin.ufpe.br) Área: Processamento de Linguagem Natural Recife, 17 de Abril de 2017

Resumo A sumarização automática de textos é o processo computacional da geração uma versão mais curta de um ou mais documentos de texto, mantendo a informação fundamental dos documentos originais. Esta área tem sido apontada como uma forma importante de encontrar informações relevantes em grandes bibliotecas de texto, principalmente na Internet. O trabalho aqui proposto visa encontrar as melhores combinações de métodos de sumarização extrativa, dentre as técnicas mais amplamente difundidas para sumarização, para diferentes classes de documentos.

Introdução A enorme quantidade de informações disponíveis hoje em grandes bibliotecas digitais e na Internet tornou humanamente impossível selecionar, de forma eficiente, informações úteis. A demanda por ferramentas automáticas capazes de sintetizar informações de forma clara e concisa de documentos textuais passou a ser cada vez maior. A utilização de técnicas de sumarização automática de textos [1] tem sido apontada como uma possível solução para este crescente problema. O uso de sumarização automática também tem sido estudado como oferecendo potencial melhora nas tarefas de recuperação de informação e classificação de textos, uma vez que reduz o tamanho do documento e, consequentemente, informações possivelmente ruidosas para essas tarefas. A utilização de resumos dos textos, também, diminui consideravelmente o tempo de classificação dos textos [2]. Com o trabalho proposto, espera-se associar a categoria de classificação de um documento como um bom critério para escolher quais técnicas de sumarização extrativa são mais indicadas para cada texto, gerando resumos de melhor qualidade de informação e legibilidade para cada classe de documentos.

Objetivos O objetivo geral do trabalho proposto é criar um sistema, que a partir de um corpus de textos já classificados em certas categorias e de um conjunto de técnicas de sumarização extrativa, verifique quais as combinações de técnicas produzem os melhores resumos para cada categoria de documento. Os objetivos específicos desse trabalho incluem: Selecionar um corpus de textos já classificados coerentemente, ou seja, um corpus que não apresente classificações muito genéricas; Selecionar técnicas de sumarização extrativa de textos; Adotar medidas para equilatar e comparar a qualidade dos resumos de um texto produzidos automaticamente; Avaliar manualmente e de forma qualitativa uma parte dos resumos produzidos para cada uma das classes; Tentar identificar e sistematizar, a partir dos resultados obtidos, as características de cada categoria de texto que justifiquem a combinação selecionada pelo sistema.

Metodologia A metodologia aqui descrita consiste na definição do corpus de textos, bem como nas metodologias de avaliação dos resultados. O corpus de texto a ser utilizado será o corpus CNN [3], desenvolvido pelo supervisor deste trabalho e seus colaboradores em no projeto de P&D chamado FLIP, em parceria com a Hewlett-Packard a partir de textos do site da CNN (www.cnn.com). O corpus CNN na versão atual consiste de 3.000 textos em inglês atribuídos. Os textos estão originalmente classificados em 11 categorias: África, América Latina, Ásia, Esportes, Estados Unidos da América, Europa, Negócios, Oriente Médio, Tecnologia, Viagens e Mundo. Tal classificação foi considerada inadequada uma vez que a classe Mundo, por exemplo, é demasiadamente genérica. Uma nova ontologia foi desenvolvida pelo grupo do projeto FLIP baseada nas classificações da Google e Yahoo. Cada um dos 3.000 textos do corpus CNN foi automaticamente reclassificado segundo a nova ontologia desenvolvida em três categorias em ordem decrescente de importância, sendo tal classificação verificada por três especialistas. Esta nova classificação dos textos será utilizada neste trabalho. Avaliar a qualidade dos resumos produzidos é algo muito importante e ao mesmo tempo muito complexo. A importância da avaliação da qualidade serve para selecionar as melhores técnicas para um determinado contexto. Uma ferramenta muito utilizada para o propósito da avaliação automática de resumos é o ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Uma primeira avaliação quantitativa será, então, realizada utilizando o ROUGE, uma vez que o mesmo consegue avaliar automaticamente a qualidade de um resumo comparando-o com outros resumos (ideais) criados por seres humanos. Dessa forma será possível eliminar a subjetividade humana do processo de avaliação nessa etapa [4] e comparar numericamente a qualidade de um resumo. Uma característica especial do corpus CNN é a existência de um gold standard [3], um sumário extrativo para cada um dos seus 3.000 textos, que foi gerado a partir de uma metodologia desenvolvida no Projeto FLIP, a partir dos highlights, um sumário abstrativo de alta qualidade gerado pelos próprios autores dos textos extraídos do site da CNN. Será realizada, ainda, uma avaliação qualitativa, por pessoas, dos resumos produzidos pelo sistema. O número de casamentos entre as frases do resumo gerado com as frases dos gold standard são uma medida da qualidade dos resumos a ser considerada neste trabalho. A referência [5] apresenta uma análise preliminar da relação entre técnicas de sumarização automática e classificação de textos, porém como foi aí concluído, a classificação original do corpus CNN devido a sua extrema generalidade, não permitiu

uma correlação clara entre o conteúdo do documento (sua classificação) e as técnicas mais adequadas para sua sumarização. Apenas nas classes Negócios e Esportes ficou evidenciada uma correlação da maior adequabilidade de algumas técnicas de sumarização com o tipo de documento. Logo, espera-se com o presente trabalho, fazendo uso da nova classificação proposta mais abrangente e detalhada, lançar uma nova luz nessa importante área de pesquisa.

Cronograma Atividade Março/17 Abril/17 Maio/17 Junho/17 Julho/17 Revisão bibliográfica X X Estudo dos algoritmos X X Implementação dos algoritmos X X Realização dos experimentos X X Avaliação dos resultados obtidos X X X Escrita da monografia X X X Revisão do texto X X Preparação da apresentação X X Entrega e defesa do trabalho X

Referências [1] Ferreira, R.; Freitas, F.; Cabral, L. S. C.; Lins, R. D.; Lima, R.; Franca, G.; Simske, S. J.; Favaro, L. (2014). A Context Based Text Summarization System. 11th IAPR International Workshop on Document Analysis Systems, 2014, pp. 66-70. [2] Koulali, R.; Mahmoud, E.-H.; Abdelouafi, M. Arabic Topic Detection using Automatic Text Summarisation. Computer Systems and Applications (AICCSA). pp. 1-4, 2013. [3] Lins, R. D.; Simske, S.J. ; CABRAL, L. S. ; Silva, G. de F. P. e ; Lima, R. ; Mello, R. F. ; Favaro, L. A Multi-tool Scheme for Summarizing Textual Documents. In: IADIS International Conference WWW/Internet 2012, p. 409-414. 2012. [4] Lin, C.-Y. ROUGE: A Package for Automatic Evaluation of Summaries. Workshop on Text Summarization Branches Out, Barcelona, Spain, July 25-26, 2004. [5] Ferreira, R. ; Lins, R. D. ; Cabral, L. ; Freitas, F. ; Simske, S. J. ; Riss, M. Automatic Document Classification using Summarization Strategies. Proceedings of the 2015 ACM Symposium on Document Engineering - DocEng '15. p. 69-124.

Possíveis Avaliadores Os possíveis avaliadores que irão compor a banca examinadora são: Prof. Dr. Rafael Dueire Lins (rdl@cin.ufpe.br) - CIn/UFPE (orientador) Prof. Dr. Frederico Luiz Gonçalves de Freitas (fred@cin.ufpe.br) - CIn/UFPE (avaliador interno) Prof. Dr. Rafael Ferreira de Mello (rafaelflmello@gmail.com) - DEInfo/UFRPE (avaliador externo)

Assinaturas Recife, 17 de Abril de 2017 Ihago Henrique Lucena e Silva (Aluno) Prof. Dr. Rafael Dueire Lins (Orientador)