Reconhecimento de entidades mencionadas em português



Documentos relacionados
Linguateca. Um centro de recursos distribuído para o processamento computacional da língua portuguesa

Reconhecimento de entidades mencionadas em português

SIEMES Sistema de Identificação de Entidades Mencionadas com Estratégia Siamesa

Sistema SeRELeP para o reconhecimento de relações

Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal

UNIVERSIDADE DE SÃO PAULO FACULDADE DE EDUCAÇÃO JOÃO FÁBIO PORTO. Diálogo e interatividade em videoaulas de matemática

MUC e HAREM: Uma visão contrastiva

OWASP Portugal OWASP. The OWASP Foundation

e-lab: a didactic interactive experiment An approach to the Boyle-Mariotte law

Linguateca e Processamento de Linguagem Natural na Área da Saúde: Alguns Comentários e Sugestões

Uma Análise da História do VEM, WBVS e WMSWM

DISSERTAÇÃO DE MESTRADO

Estereoscopia Digital no Ensino da Química AGRADECIMENTOS

NORMAS PARA AUTORES. As normas a seguir descritas não dispensam a leitura do Regulamento da Revista Portuguesa de Marketing, disponível em

This report mirrors my journey as a Master s Degree student and describes my development as a future teacher.

As A p s e p c e t c os o s Só S c ó i c o o P r P of o iss s i s on o a n i a s s d a d a I nf n or o mát á ica c 2º Trabalho Prático Abril de 2007

Software Integration Procedure

UNIVERSIDADE CATÓLICA PORTUGUESA Centro Regional das Beiras Pólo de Viseu Instituto Universitário de Desenvolvimento e Promoção Social

NCE/13/00806 Decisão de apresentação de pronúncia - Novo ciclo de estudos

Prova Escrita de Inglês

Resultados da Candidatura a Alojamento

aelousada.net AE Lousada Ministério da Educação e Ciência Resultados da 2ª Fase do Concurso Nacional de Acesso de 2014

POLÍTICA DE SEGURANÇA DA RCTS

Eu sei o que quero! Eu compro o que quero!

Comparador: forma de auscultar corpos no AC/DC

2 Forum PTPC. 21 de Fevereiro de 2013

Apesar de colocar-se no campo das Engenharias, profissional destaca-se, também, pelo aprimoramento das relações pessoais

Ministério da Ciência, Tecnologia e Ensino Superio Resultados da 1ª Fase do Concurso Nacional de Acesso de 2011

Autor: Marcelo Maia

CANDIDATURA À DIRECÇÃO DA UNIDADE DE INVESTIGAÇÃO DO INSTITUTO POLITÉCNICO DE SANTARÉM

ORGANIZAÇÃO DA INFORMAÇÃO NOTICIOSA EM COMUNIDADE ONLINE PARA O SÉNIOR RENATO MIGUEL SILVA COSTA. Departamento de Comunicação e Arte !!!!!!!!!

Prova de Seleção Mestrado LINGUA INGLESA 15/02/2016

GBIF.PT. Cape Town, 7 April GBIF.PT The first steps to establish the Portuguese GBIF Node. Nelson Lima

Searching for Employees Precisa-se de Empregados

Behance portfolio. Filipe Oliveira (FilipeO) Seixal, Portugal. Choices - Multimedia engineering final project

Jornalismo potencializador e as formas de narrar o outro - a alteridade brasileira no New York Times

advogados-portugueses

INVESTIMENTOS HOTELEIROS EM CABO VERDE: O CASO DO RIU HOTELS & RESORTS

Linguateca: um Centro de Recursos Distribuído para o Processamento Computacional da Língua Portuguesa

Reflexão e fundamento: a validade universal do juízo de gosto na estética de Kant

NCE/09/00492 Decisão de apresentação de pronúncia - Novo ciclo de estudos

PROJECTO DE LEI N.º 179/IX ALARGA O REGIME DE INCENTIVOS FISCAIS À I&D EMPRESARIAL. Exposição de motivos

Uso de indicadores SciELO na gestão de periódicos

RELAÇÕES ENTRE O DESEMPENHO NO VESTIBULAR E O RENDIMENTO ACADÊMICO DOS ESTUDANTES NO CURSO DE GRADUAÇÃO EM ENGENHARIA DE MATERIAIS DA UFSCAR

; joao.tedim@sensocomum.pt; joanaviveiro@ordemfarmaceuticos.pt; joaomartinho@ordemfarmaceuticos.pt Assunto:

O "Visualizing STEM Research Synergy Cluster

GereComSaber. Disciplina de Desenvolvimento de Sistemas de Software. Sistema de Gestão de Serviços em Condomínios

Corrida da Saúde. Infantis A - Feminino

Universidade do Minho. Escola de Engenharia. UC transversais Programas Doutorais 1º semestre de outubro 2012

EXPERIÊNCIA PROFISSIONAL ACADÉMICA

Indicadores de Pesquisa, Desenvolvimento e Inovação (P,D&I) em Software e Serviços de TI: o Caso da Lei do Bem (nº /05)

Resumo. Palavras-chaves: Atividade seguradora, desenvolvimento e performance.

(Prática) 1º Ano da Licenciatura em. Medicina Dentária Análises Clínicas Fisioterapia Terapia da Fala Ciências Farmacêuticas. Ano Lectivo de 2002/2003

TURMA 10 H. CURSO PROFISSIONAL DE: Técnico de Multimédia RELAÇÃO DE ALUNOS

Mudança Organizacional em uma Empresa Familiar Brasileira: um estudo de caso

A Direção-Geral do Território disponibiliza aos seus clientes diversas modalidades de pagamento:

Ano / Disciplina Título ISBN Autor(es) Editora 5º ANO

M O D E L O E U R O P E U D E

Infraestrutura, Gestão Escolar e Desempenho em Leitura e Matemática: um estudo a partir do Projeto Geres

Faculty of Law, University of Oporto a Invited Assistant Law Department, Lusíada

Capital Humano e Capital Social: Construir Capacidades para o Desenvolvimento dos Territórios

LISTA DE CANDIDATOS ADMITIDOS E NÃO ADMITIDOS. Concurso Oferta de Escola para Contratação de Docente Grupo 110. Ano Letivo /2015

AGRUPAMENTO DE ESCOLAS DE VOUZELA E CAMPIA ESCOLA BÁSICA DE CAMPIA MATEMÁTICA /2014 (3.º período) 2.º Ciclo - TABUADA

GereComSaber. Disciplina de Desenvolvimento de Sistemas de Software. Sistema de Gestão de Serviços em Condomínios

Ministério da Ciência, Tecnologia e Ensino Resultados da 2ª Fase do Concurso Nacional de Acesso de 2011

UNIVERSIDADE CATÓLICA PORTUGUESA Centro Regional das Beiras Departamento de Economia, Gestão e Ciências Sociais

A meus pais, Ari e Célia, sempre presentes, todo o meu amor incondicional!

Erasmus Student Work Placement

NCE/13/00986 Decisão de apresentação de pronúncia - Novo ciclo de estudos

Lista de verificação antes da partida. Apoio à Mobilidade Europeia para o Emprego

Consolidar os bancos de tumores existentes e apoiar o desenvolvimento de outros bancos de tumores em rede;

Atividades de Enriquecimento Extracurricular

2014 / 2015 Lista de manuais escolares adotados

O Projeto Ações Sociais AMO-RS nasceu do desejo de mudar realidades, incentivar, potencializar e criar multiplicadores.

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular PLANIFICAÇÃO ESTRATÉGICA DOS MEDIA Ano Lectivo 2010/2011

GereComSaber. Desenvolvimento de Sistemas de Software. Universidade do Minho Conselho de Cursos de Engenharia Licenciatura em Engenharia Informática

Guião A. Descrição das actividades

PORTUGUESE ENVIRONMENT AGENCY (APA) MOBILITY WEEK 2013 PORTUGAL

INSTITUTO POLITÉCNICO DE SANTARÉM ESCOLA SUPERIOR DE DESPORTO DE RIO MAIOR. Licenciatura em desporto Gestão das Organizações Desportivas

WP8 Quality and Management/Governance National study Portuguese version 2012

Contributions for the Project. University of Aveiro Project EuSTD web Final Castelo Branco Portugal 23 rd 24 rd September 2009

Cognição e Aprendizagem em História e Ciências Sociais. Isabel Barca, Ana Catarina Simão, Júlia Castro, Carmo Barbosa, Marília

Programa: 1º DIA DO SEMINÁRIO 27 DE NOVEMBRO, 2014

PROVA COMENTADA PELOS PROFESSORES DO CURSO POSITIVO

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular GESTÃO DO CONHECIMENTO Ano Lectivo 2012/2013

ICOM Glass Annual Conference, Lisbon, 2009

Uma visita ao mundo do espectáculo Diário de Notícias Prémio Final: Viagem a Londres 27 a 29 de Julho 2010

Fórum empresarial. Associação de Estudantes de Ciências Farmacêuticas da Universidade Lusófona. 17 e 18 de setembro de 2015.

Ficha Técnica: Design e Impressão Mediana Global Communication

CORREFSUM: REVISÃO DE COESÃO REFERENCIAL EM SUMÁRIOS EXTRATIVOS. Mestrando: Patricia Nunes Gonçalves Orientadora: Renata Vieira

Silvano Nogueira Buback. Utilizando aprendizado de máquina para construção de uma ferramenta de apoio a moderação de comentários

Aqui pode escolher o Sistema operativo, e o software. Para falar, faça download do Cliente 2.

Gerenciamento de Integração do Projeto Será que você está precisando de uma ajuda?

Análise Matemática I - Informática de Gestão Avaliação da 1ª frequência

SUPLEMENTO AO DIPLOMA DA UNIVERSIDADE DO MINHO MESTRADO EM CONSTRUÇÃO E REABILITAÇÃO SUSTENTÁVEIS (2º CICLO)

Material Auxiliar da Oficina Aprimorando a Apresentação Oral

Uma Representação Ontológica da Geografia Física de Portugal

Novo dicionário de formas flexionadas do Unitex-PB: Avaliação da flexão verbal

Transcrição:

Reconhecimento de entidades mencionadas em português Documentação e actas do HAREM, a primeira avaliação conjunta na área Diana Santos e Nuno Cardoso editores Linguateca, 2007

Reconhecimento de entidades mencionadas em português Documentação e actas do HAREM, a primeira avaliação conjunta na área Diana Santos e Nuno Cardoso editores Linguateca, 2007

c 2007, Linguateca 1 a Edição,Novembrode2007. 1st Edition, November 2007. Publicação Digital. Digital Print. ISBN 978-989-20-0731-1 O capítulo 12, Functional Aspects of Portuguese NER, foi anteriormente publicado em Renata Vieira, Paulo Quaresma, Maria da Graça Volpes Nunes, Nuno J. Mamede, Cláudia Oliveira e Maria Carmelita Dias (eds.), Computational Processing of the Portuguese Language: 7th International Workshop, PROPOR 2006, Itatiaia, Brazil, May 2006. Proceedings. p. 80-89, na série LNAI, Vol. 3960 da editora Springer Verlag, ISBN-10: 3-540-34045-9. The chapter 12, Functional Aspects of Portuguese NER, was republished from Renata Vieira, Paulo Quaresma, Maria da Graça Volpes Nunes, Nuno J. Mamede, Cláudia Oliveira& Maria Carmelita Dias(eds.), Computational Processing of the Portuguese Language: 7th International Workshop, PROPOR 2006, Itatiaia, Brazil, May 2006. Proceedings. pp. 80-89, Springer Verlag, LNAI series, Vol. 3960, ISBN-10: 3-540-34045-9. O capítulo 16, Directivas para a identificação e classificação semântica na colecção dourada do HAREM, foi previamente publicado como Relatório Técnico DI/FCUL TR 06 18, Departamento de Informática, Faculdade de Ciências da Universidade de Lisboa. The chapter 16, Directivas para a identificação e classificação semântica na colecção dourada do HAREM, was previously published as Technical Report DI/FCUL TR 06 18, Department of Informatics, Faculty of Sciences, University of Lisbon. O texto do capítulo 17, Directivas para a identificação e classificação morfológica na colecção dourada do HAREM, foi previamente publicado como Relatório Técnico DI/FCUL TR 06 19, Departamento de Informática, Faculdade de Ciências da Universidade de Lisboa. The chapter 17, Directivas para a identificação e classificação morfológica na colecção dourada do HAREM, was previously published as Technical Report DI/FCUL TR 06 19, Department of Informatics, Faculty of Sciences, University of Lisbon. O capítulo 18, Avaliação no HAREM: Métodos e medidas, foi previamente publicado como Relatório Técnico DI/FCUL TR 06 17, Departamento de Informática, Faculdade de Ciências da Universidade de Lisboa. The chapter 18, Avaliação no HAREM: Métodos e medidas, was previously published as Technical Report DI/FCUL TR 06 17, Department of Informatics, Faculty of Sciences, University of Lisbon.

Prefácio Não quisemos que a divulgação do trabalho feito no HAREM sofresse um atraso tão significativo como o que ocorreu por ocasião das Morfolimpíadas(cujo livro saíu à luz quatro anos depois). Por isso, decidimos publicar a presente obra de forma electrónica e gratuita, deformaamaximizaroseualcanceeminimizarotempodesaída. Isso não obstou, naturalmente, a que tivéssemos seguido um processo editorial rigoroso, com revisão cruzada entre os autores, além de amplos comentários e sugestões pelos dois editores, numa tentativa de tornar os capítulos mais homogéneos entre si, e ainda a leitura crítica da primeira versão completa do livro por vários especialistas em processamento computacional do português, que resultou em várias sugestões valiosas e observações pertinentes. Para que conste, aqui fica a nossa profunda gratidão a essa comissão informal de redacção, que foi constituída(por ordem alfabética) por António Teixeira, Daniel Gomes, Graça Nunes, Jorge Baptista, Luís Costa e Paulo Gomes. Agradecemos também a leitura aturada do primeiro capitulo pelo Eugénio Oliveira com valiosos comentários, e queremos fazerumamençãoespecialàcristinamotapelocuidadoepormenorcomquereviutodos os outros capítulos do livro, fazendo sugestões valiosíssimas. Embora como trabalho de bastidores, foi também muito importante a contribuição do Luís Miguel Cabral para o processamento das referências bibliográficas. Aorganizaçãodeumaavaliaçãoconjuntaderaizéalgoqueexigeumgrandeempenhamento e muito trabalho, por isso nos parece importante que aquilo que se aprendeu equefoifeitopossaserreaproveitadoporoutros osleitoresdopresentelivro.aocontrário de fechar aqui o trabalho nesta área e partir para outra, pretendemos também com este livro potenciar e possibilitar a preparação de futuras avaliações conjuntas em REM, i

eemparticularosegundoharemque,àdatadeescritadesteprefácio,acabadeseriniciado. Assim, tivemos o cuidado de republicar as directivas no presente volume e criar uma documentação mais cuidada dos próprios programas de avaliação, para facilitar a sua utilização e mesmo reprogramação. Como nunca é demais ser repetido, na organização do HAREM não estivemos sós: contámos com a preciosa colaboração(por ordem alfabética) de Anabela Barreiro, Luís Costa, Paulo Rocha, Nuno Seco, Rui Vilela e Susana Afonso. E gostávamos de agradecer também a todos os participantes no Primeiro HAREM e também aos participantes no Encontro do HAREM no Porto pela participação e valiosas sugestões, participação e ideias essas que tudo fizemos para se encontrarem fielmente reflectidas pelo presente volume. ComotodootrabalhofeitonoâmbitodaLinguateca,oquenosmoveufoiodesejo de uma melhoria significativa das condições do processamento computacional da língua portuguesa e, na esteira do modelo IRA(informação, recursos e avaliação), além da avaliação conjunta propriamente dita criámos recursos importantes para o REM em português (acolecçãodourada,eossistemasdeavaliação).comestelivro,estamosapôremprática a terceira vertente, de informação. Resta-nos agradecer a todos quantos tornaram este projecto(harem, e a própria Linguateca) possível, e acusar com gratidão o financiamento recebido, através dos projectos POSI/PLP/43931/2001(2001-2006) e POSC 339/1.3/C/NAC(2006-2008). OsloeLisboa,5deNovembrode2007 Os editores Diana Santos e Nuno Cardoso

Preface This is a book about the First HAREM, an evaluation contest in named entity recognition inportuguese,organizedinthescopeofthelinguatecaprojecttofosterr&dinthecomputational processing of Portuguese. AlthoughinspiredbyMUC,thepathfollowedinHAREMwasbasedonadifferentsemantic model, aiming at identifying and classifying all proper names in text with the help of a set of 10 categories and 41 subcategories(called types), and allowing vague categories in the sense of merging two or more interpretations(as the geopolitical class in ACE, which conflates place and organization, but not only in that case). HAREM had 10 participants in its first edition, which in fact included two evaluation events, the first event and Mini-HAREM(only for those who had participated before), which allowed us to perform some statistical validation studies and increase the evaluation resources. Because we had participants from non-portuguese speaking countries (Denmark, Spain and Mexico), we have four chapters in English in this book, and thereforeaprefaceinenglishisdueaswell. This book reflects the participation and the discussion in the final HAREM workshop that took place in July 2006 after Linguateca s first summer school in Porto. It is organized in three parts, after an encompassing introduction: 1. Fundamentals of HAREM: history, preliminary studies, comparison with MUC and ACE, discussion of the semantic choices, statistical validation, a proposal for future venues, and a chapter summing up what was achieved and which future prospects we envisage. 2. Participation in HAREM: most participants wrote a chapter describing their systems, iii

approaches and results in HAREM evaluations, often also suggesting improvements or changes for the future. 3. HAREM documentation: the material produced by the organization, such as the guidelines for the annotation of the golden collection, the evaluation metrics, the evaluation software architecture, and the distribution of the golden collection as a regular corpus as well. Following the usual procedure in Linguateca, abiding by the IRE model(information- resources- evaluation), we organized the evaluation contest, we made the resources therein available to the community, and we now gather and produce information about the whole endeavour, in the form of the present book. We thank all participants in HAREM, our fellow organizers(susana Afonso, Anabela Barreiro, Paulo Rocha, Nuno Seco and Rui Vilela), Luís Miguel Cabral who processed the book s references, and all those who participated as book reviewers(luís Costa, Daniel Gomes, Paulo Gomes, Cristina Mota, Graça Nunes and António Teixeira) and whose help led to a considerable increase in quality. AllworkinHAREMwasdoneinthescopeoftheLinguatecaproject,jointlyfunded by the Portuguese Government and the European Union(FEDER and FSE) under contract references POSI/PLP/43931/2001 and POSC/339/1.3/C/NAC. Oslo and Lisbon, 5th November, 2007 The editors, Diana Santos and Nuno Cardoso

Autores Antonio Toral Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante, Espanha. Andrés Montoyo Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante, Espanha. Bruno Martins Universidade de Lisboa, Faculdade de Ciências, LaSIGE, Portugal, agora Instituto Superior Técnico, Universidade Técnica de Lisboa, Portugal. Christian Nunes Aranha CortexIntelligence,Brasil. Cristina Mota Instituto Superior Técnico, Universidade Técnica de Lisboa, Portugal, agora Instituto Superior Técnico, Universidade Técnica de Lisboa, Portugal/ L2F, INESC- -ID, Portugal/ New York University, EUA. Diana Santos Linguateca, SINTEF ICT, Noruega. Eckhard Bick VISL, Institute of Language and Communication, University of Southern Denmark, Dinamarca. José João Dias de Almeida Departamento de Informática, Universidade do Minho, Portugal. Luís Sarmento Linguateca, CLUP, Faculdade de Letras da Universidade do Porto, Portugal, agora Faculdade de Engenharia da Universidade do Porto, Portugal. Marcirio Chaves Universidade de Lisboa, Faculdade de Ciências, LaSIGE, Portugal. Marília Antunes Universidade de Lisboa, Faculdade de Ciências, Portugal. v

Mário J. Silva Universidade de Lisboa, Faculdade de Ciências, LaSIGE, Portugal. Max Silberztein LASELDI, Université de Franche-Comté, França. Nuno Cardoso FCCN, Linguateca, Portugal, agora Universidade de Lisboa, Faculdade de Ciências, LaSIGE, Portugal. Nuno Seco Linguateca, Grupo KIS, Centro de Informática e Sistemas da Universidade de Coimbra, Faculdade de Ciências e Tecnologia da Universidade de Coimbra, Portugal. Óscar Ferrández Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante, Espanha. Paulo Rocha Linguateca, Grupo KIS, Centro de Informática e Sistemas da Universidade de Coimbra, Faculdade de Ciências e Tecnologia da Universidade de Coimbra, Portugal. Rafael Muñoz Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante, Espanha. Rui Vilela Departamento de Informática, Universidade do Minho, Portugal. Thamar Solorio Human Language Research Institute, Universidade do Texas, Dallas, EUA. Zornitsa Kozareva Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante, Espanha.