Sistema SeRELeP para o reconhecimento de relações



Documentos relacionados
Sistema SeRELeP para o reconhecimento de relações entre entidades mencionadas

CORREFSUM: REVISÃO DE COESÃO REFERENCIAL EM SUMÁRIOS EXTRATIVOS. Mestrando: Patricia Nunes Gonçalves Orientadora: Renata Vieira

Linguateca e Processamento de Linguagem Natural na Área da Saúde: Alguns Comentários e Sugestões

PROJETO ARARIBÁ. Um projeto que trabalha a compreensão leitora, apresenta uma organização clara dos conteúdos e um programa de atividades específico.

Laboratório de Mídias Sociais

Reconhecimento de entidades nomeadas em textos em português do Brasil no domínio do e-commerce

UNIVERSIDADE PAULISTA UNIP INSTITUTO DE CIÊNCIAS SOCIAIS E COMUNICAÇÃO CURSOS: ADMINISTRAÇÃO E CIÊNCIAS CONTÁBEIS. MANUAL do ALUNO

MUC e HAREM: Uma visão contrastiva

FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS

Manual do Ambiente Moodle para Professores

BANCO DE AULAS E PROJETOS MANUAL DO APLICATIVO

Um espaço colaborativo de formação continuada de professores de Matemática: Reflexões acerca de atividades com o GeoGebra

SUGESTÕES PARA ARTICULAÇÃO ENTRE O MESTRADO EM DIREITO E A GRADUAÇÃO

"Manual de Acesso ao Moodle - Discente" 2014

Escola de Administração Biblioteca. Normas para elaboração do TCC

Orientanda do Dr. Paulo Miguel Duarte Quaresma (Univ. Évora) e Co-orientanda da Drª Rove Chishman (Unisinos).

Novos rumos para a recuperação de informação geográfica em português

Tradução profissional vs. Tradução não-profissional Estudo do Protocolo Think Aloud Sonja Tirkkonen-Condit

ReRelEM - Reconhecimento de Relações entre Entidades Mencionadas. Segundo HAREM: proposta de nova pista

Metadados de Imagens Digitais

Edital para seleção de projetos de pesquisa para o período 2014 Programa de Incentivo a Pesquisa Docente (PIPED)

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Edital para seleção de projetos de pesquisa para o período 2015/2016 Programa de Incentivo a Pesquisa Docente (PIPED)

Mineração de Opinião / Análise de Sentimentos

OBI2014 Caderno de Tarefas

Linguateca. Um centro de recursos distribuído para o processamento computacional da língua portuguesa

APRESENTAÇÃO. PAULO CÂMERA Secretário -1-6

Curso de atualização Educação Integral e Integrada. Tutorial Moodle. Belo Horizonte, 2013.

CONSULTA AO MERCADO RFI REQUEST FOR INFORMATION CONSOLIDAÇÃO DE DÚVIDAS APRESENTADAS

Metodologia Científica. Profa. Alessandra Martins Coelho

Tecnologia da Linguagem Humana

Criar Pesquisas. Guia rápido sobre...

Gerenciamento de Dados e Informação Fernando Castor

CLASSCEEP MATEMÁTICA NAS REDES SOCIAIS

Gerenciador de Referências. EndNote. Nonato Ribeiro Biblioteca de Ciências e Tecnologia (UFC)

Nome do candidato TÍTULO DO PROJETO

Motor de Pesquisa Baseado na Web Semântica

MANUAL DE REFERÊNCIA A FERRAMENTA MAIS PODEROSA NA GESTÃO DAS SUAS REFERÊNCIAS BIBLIOGRÁFICAS

Definição e Construção de Ambientes de Desenvolvimento de Software Orientados a Organização

GUIA DE REDAÇÃO PARA TRABALHO DE EM974

11 de maio de Análise do uso dos Resultados _ Proposta Técnica

O Corpus.EaD no Projeto TermiNet: Estratégias de Construção

Estudo do Domínio do Repositório Institucional da ENAP

Módulo 4: Gerenciamento de Dados

tarefa 1. Para criar uma Tarefa clique em Ativar edição.

Seção de Acesso a Bases de Dados. Estratégias de busca e recuperação de informação online para Profissionais de Informação

Marcia Avruch Tel: (11)

MBA Gestão Integrada de Resíduos Sólidos

PASSO A PASSO MOVIE MAKER

Universidade Estadual Paulista Faculdade de Filosofia e Ciências Campus de Marília Grupo de Estudos sobre Organização e Representação do Conhecimento

Edital de CHAMADA PÚBLICA nº 059/2014-CEAD/UFPI

PROVA DE EQUIVALÊNCIA À FREQUÊNCIA [INGLÊS]

REMBRANDT. Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto

TUTORIAL DO ALUNO. Olá, bem vindo à plataforma de cursos a distância da Uniapae!!!

METODOLOGIA & Hábito de estudos AULA DADA AULA ESTUDADA

Informação Prova de Equivalência à Frequência Agrupamento de Escolas de ANTÓNIO NOBRE. DISCIPLINA: Inglês CÓDIGO DA PROVA: 367

2º PRÊMIO DE INOVAÇÃO DE JOINVILLE 2014

MINISTÉRIO DO DESENVOLVIMENTO AGRÁRIO SUBSECRETARIA DE PLANEJAMENTO, ORÇAMENTO E ADMINISTRAÇÃO COORDENAÇÃO-GERAL DE MODERNIZAÇÃO E INFORMÁTICA

Trabalho de Conclusão de Curso

Regulamento da Prova de Certificação ABS-BR

NORMA ISO/IEC Isac Aguiar isacaguiar.com.br

PRÁTICAS DE ENSINO EM CONTEXTO TECNOLÓGICO: PRIMEIROS APONTAMENTOS SOBRE A OFERTA DE CURSO ONLINE

JOGO ONLINE DE GESTÃO PARA ALUNOS DO ENSINO SECUNDÁRIO

TCC CURSO POS-GRADUAÇÃO ESPECIALIZAÇÃO DESIGN INSTRUCIONAL ROTEIRO DO PROJETO DE DESIGN INSTRUCIONAL DE UM CURSO

XIX Ciência Viva. Tema: Ciência, tecnologia e desenvolvimento social. 06 e 07 de Novembro de 2014

4 Mercado setor de telecomunicações

INSTRUÇÕES SOBRE APRESENTAÇÃO DOS TRABALHOS CIENTÍFICOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Tecnologia da Informação

RESOLUÇÃO UnC-CONSUN 015/2010

TECHONOLOGY FOR SECOND LANGUAGE LEARNING

PORTAL (

Curso Intensivo. Marketing Pessoal

Sistema de Gestão de Recursos de Aprendizagem

5. Links de bibliotecas (off-line) Localiza bibliotecas que tenham uma cópia imp 6. Como entender um resultado de pesquisa. Sobre o Google Acadêmico

ArcGIS 1: Introdução ao GIS (10.2)

Associação Educativa Evangélica FACULDADE RAÍZES. Plantando Conhecimento para a Vida. Regulamento do Núcleo de Atividades Complementares NAC

Objetivos. Processos de Software. Tópicos abordados. O processo de software. Modelos genéricos de modelos de processo de software.

e auxiliares de biblioteca mediada por EAD como modalidade de aprendizagem organizacional

Criação e publicação de um dataset de dados interligados das edições passadas do Simpósio Brasileiro de Banco de Dados

Etapa 1: Escolho o tema/subtema

iextranet A solução inovadora em gerenciamento e compartilhamento seguro de arquivos e de ambiente colaborativo

Tema da Semana Office 2010

Base de Dados Landolt-Börnstein

REGIMENTO DO CURSO DE PÓS-GRADUAÇÃO EM ENGENHARIA E TECNOLOGIA ESPACIAIS ÁREA DE CONCENTRAÇÃO EM ENGENHARIA E GERENCIAMENTO DE SISTEMAS ESPACIAIS

Procedimentos para a divulgação de eventos no site da ECUM

COLIVRE Cooperativa de Tecnologias Livres Telefone: (71) CNPJ:

REGULAMENTO DAS ATIVIDADES COMPLEMENTARES DA FACULDADE DE DIREITO DA UNIVERSIDADE CATÓLICA DE SANTOS

Preâmbulo. 1 - Público Alvo:

Gui d. Inscriçõe. Gramad. Rio Grande do Sul. 08 a 10 Abril 2015

Projeto de Intervenção do PROVAB ORIENTAÇÕES PARA ELABORAÇÃO NO MODELO PADRÃO

RELATÓRIO DE INTERCÂMBIO CRInt ECA. Dados do Intercâmbio

FACULDADE DE ENGENHARIA DE ALIMENTOS

FCGTURH III FÓRUM CIENTÍFICO DE GASTRONOMIA,

ÍNDICE O QUE É... 2 COMO FUNCIONA Acervo Meus Livros Livros em destaque Fórum Notícias Ajuda Suporte...

REGULAMENTO DE PRÁTICA EDUCACIONAL Curso de Letras Português e Inglês Licenciatura Currículo: LI

Transcrição:

Segundo HAREM Workshop PROPOR 2008: International Conference on Computational Processing of Portuguese Language para o reconhecimento de relações Mírian Bruckschen mirian.bruckschen@gmail.com Renata Vieira renata.vieira@pucrs.br José Guilherme Camargo de Souza joseguilhermecs@gmail.com Aveiro, setembro de 2008

Roteiro Introdução Visão geral Reconhecimento de relações Resultados e discussão Discussão sobre a trilha ReRelEM Considerações finais 2

Introdução Oportunidade de participação no Segundo HAREM 1 (HAREM, 2007) Trilha de reconhecimento de relações entre EMs 2 e experiência do grupo sobre correferência 1 HAREM é uma Avaliação de Reconhecedores de Entidades Mencionadas 2 Entidades Mencionadas Introdução 3

Visão geral (1/3) 6 Desenvolvido em Python Objetivo: reconhecer relações entre EMs previamente identificadas pelo PALAVRAS Entrada: arquivos do corpus pré-processados pelo analisador PALAVRAS e o conversor Tiger2XCES SeRELeP Tools: pacote associado que realiza tarefas de conversão entre ferramentas Saída: arquivos anotados com EMs e suas relações 6 Sistema de Reconhecimento de RELações entre EMs da Língua Portuguesa 4

Visão geral (2/3) Figura 1. Processo de anotação automática de EMs e relações da coleção do HAREM 5

Visão geral (3/3) Figura 2. Trechos de entrada e saída do pipeline 6

Reconhecimento de relações (1/3) O processo de reconhecimento de relações baseia-se na informação fornecida nos arquivos XCES Se é EM (prop) ou não (PALAVRAS) Etiquetação semântica (PALAVRAS) 7

Reconhecimento de relações (2/3) Existe uma relação da etiqueta semântica atribuída à classificação da EM no HAREM Com base nessa etiquetação, são definidas as heurísticas para reconhecimento das relações Exemplo: hum ou groupofficial no PALAVRAS: PESSOA no HAREM 8

Reconhecimento de relações (3/3) Figura 3. Relações e classes semânticas das EMs no SeRELeP 9

Reconhecimento das relações ident exact match, sigla, parte do nome em caso de PESSOA (Silva e José da Silva) inclui tratada entre entidades de LOCAL, procura entidades da mesma sentença que estejam na forma <entidade1> (...) em (...) <entidade2> ocorre_em pedaço do nome do evento ou organização é nome de local São Leopoldo Fest ocorre em São Leopoldo entidade de local na mesma frase que evento ou organização local mais próximo no texto 10

Resultados e discussão (1/5) Precisão Abrangência Medida F Identificação 82% 60% 69% Tabela 1. HAREM clássico (PALAVRAS) 11

Resultados e discussão (2/5) Precisão Abrangência Medida F Aval. Relações 58% 31% 40% Tabela 2. ReRelEM (SeRELeP) sem a relação outra 12

Resultados e discussão (3/5) identidade 89% de precisão, 55% de abrangência, 68% de medida F inclui 54% de precisão, 11% de abrangência, 18% de medida F Poucas regras utilizadas, a baixa abrangência era esperada ocorre_em (localização) 36% de precisão, 27% de abrangência e 31% de medida F Um problema com relação à precisão: muitos casos marcados pelo sistema como ocorre_em eram outra, na verdade 13

Resultados e discussão (4/5) Abordagem simples Melhorias planejadas ident Nomes similares (edit distance) Utilização de informação de aposto Tradutores online Wikipedia Artigo na Wikipedia pt: Lisboa Artigo na Wikipedia en: Lisbon inclui e ocorre_em Consulta a bases de dados (ontologias, Wikipedia, gazetteers) Relações de difícil tratamento somente com regras linguísticas 14

Resultados e discussão (5/5) Diferenças entre identificação e classificação Vagueza, talvez? A relação presente entre EMs vagas é somente outra SeRELeP não contempla vagueza Brasil é sempre LOCAL Brasil sempre inclui Porto Alegre (mesmo que este se refira à seleção brasileira de futebol...) 15

Discussão sobre a trilha ReRelEM Resolução de correferência Relação ident Exemplo de cadeia de correferência #1 Felix_Mirabel, pesquisador que liderou o grupo Mirabel o pesquisador ele Discussão sobre a trilha ReRelEM 16

Discussão sobre a trilha ReRelEM Resolução de correferência Relação ident Exemplo de cadeia de correferência #2 pesquisadores de a Universidade de Wisconsin-Madison (EUA) A equipe liderada por Yoshihiro_Kawaoka Os cientistas o grupo de Kawaoka Discussão sobre a trilha ReRelEM 17

Discussão sobre a trilha ReRelEM Resolução de correferência Relação ident Exemplo de cadeia de correferência #3 Brasileiros Os brasileiros Gilson Rambelli, Paulo Bava de Camargo e Flávio Rizzi, pesquisadores de o Museu de Arqueologia e Etnologia (MAE) de a USP Eles os arqueólogos os três brasileiros os arqueólogos Discussão sobre a trilha ReRelEM 18

Discussão sobre a trilha ReRelEM Outras relações subconjunto/parte-de Exemplo a Via Láctea outra o Sol a Terra Exemplo a estrela o que sobra Discussão sobre a trilha ReRelEM 19

Corpus Summ-it Summ-it v3.0 já disponível para download 50 textos jornalísticos de ciências retirados da Folha de São Paulo Composição textos originais e tarjados (com informações relevantes do texto) arquivos XML com anotação morfossintática (PALAVRAS) arquivos com anotação manual de correferência (MMAX) arquivos XML com anotação RST (RSTTool) sumários automáticos e manuais <http://www.inf.pucrs.br/~linatural/procacosa.htm> Discussão sobre a trilha ReRelEM 20

Análise de resultados Resultados preliminares são razoáveis Mas podem (e devem!) ser melhorados Propostas de aplicação do sistema SeRELeP Geração automática de ontologias de determinado tipo de EMs e relações a partir de conjuntos de textos ident pode auxiliar nas tarefas de resolução de correferência e enriquecimento de sumários automáticos SeRELeP-Olympics Geração de hot topics (com o auxílio da relação ident) para um portal de notícias sobre as Olimpíadas Cielo e César Cielo se referem à mesma entidade, portanto devem aumentar o ranking desta entre os hot topics Considerações finais 21

Trabalhos futuros Melhorias nos algoritmos de reconhecimento de relações Consulta a bases de dados externas, principalmente Ampliação da tarefa para incluir mais que EMs, objetivando cadeias de relações mais completas e informativas, focadas no tipo de entidade Considerações finais 22

Agradecimentos Agradecemos imensamente à organização do Segundo HAREM pela oportunidade de participação, pela atenção, paciência e pela receptividade a todos nossos comentários e sugestões 23

Referências Collovini, S.; Carbonel, T.; Fuchs, J. T.; Coelho, J. C.; Rino, L.; Vieira, R. (2007) Summ-it: Um corpus com informações discursivas visando à sumarização automática. In: Anais do XXVII Congresso da SBC (TIL V Workshop em Tecnologia da Informação e Linguagem Humana). HAREM. (2007) HAREM: Reconhecimento de entidades mencionadas em português. Disponível em: http://acdc.linguateca.pt/aval_conjunta/harem/. Acesso em: junho de 2008. Norvig, P. (2008) How to Write a Spelling Corrector. Disponível em: http://norvig.com/spell-correct.html. Acesso em: agosto de 2008. Santos, D.; Cardoso, N. (eds.) (2007) Reconhecimento de entidades mencionadas em português: Documentação e actas do HAREM, a primeira avaliação conjunta na área. Linguateca, Portugal. Souza, J. G. C. (2007) Resolução automática de correferência aplicada à lingua portuguesa. Monografia (Graduação). Curso de Ciência da Computação, UNISINOS. Brasil. 24

Segundo HAREM Workshop PROPOR 2008: International Conference on Computational Processing of Portuguese Language para o reconhecimento de relações Mírian Bruckschen mirian.bruckschen@gmail.com Renata Vieira renata.vieira@pucrs.br José Guilherme Camargo de Souza joseguilhermecs@gmail.com Aveiro, setembro de 2008