Marcação de Nomes Próprios usando técnicas de pesquisa local e recorrendo a fontes de conhecimento na Internet

Documentos relacionados
O impacto de diferentes fontes de conhecimento na marcação de Nomes Próprios em Português

POS-Tagging usando Pesquisa Local

6 Atributos. A dívida da empresa subiu.

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

Biblioteca Escolar. O Dicionário

Comunicação. Capítulo 22 (Secções 1-3)

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Inglês LE I (2 anos) 2016

Pesquisa Linear. Adriano J. Holanda 15/3/2016

Buscas Informadas ou Heurísticas - Parte III

Objectivos / Competências Conteúdos Descrição dos Domínios de referência: Unidades temáticas

Comunicação. Capítulo 22

Resolução De Problemas Em Informática. Docente: Ana Paula Afonso Resolução de Problemas. 1. Analisar o problema

Utilização da Programação Declarativa para processamento do CETEMPúblico

Capítulo 4 Secção 1. Livro

Programação de Computadores I Dados, Operadores e Expressões PROFESSORA CINTIA CAETANO

Resumo. Como um agente busca de seqüência de ações para alcançar seus objetivos.

Lógica de Programação: aula 2. Dariel Mazzoni Maranhão. Uninove: Universidade Nove de Julho. 22 de agosto de 2010

Sumário. Decisões óptimas em jogos (minimax) Cortes α-β Decisões imperfeitas em tempo real

Processamento de Linguagem Natural

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS

Resolução de Problemas. Universidade Católica de Pelotas Engenharia da Computação Disciplina: Inteligência Artificial

Portuguesa a Estrangeiros

Programa de Português 4º Ano

5 o Ano AR 1 + AR 2. ANTARES PRAIA DE IRACEMA Da Educação Infantil ao Ensino Médio Rua Hist. Guarino Alves, 95 - Praia de Iracema Fone: (85) 3308.

Escola Secundária de Manuel da Fonseca, Santiago do Cacém Disciplina: Língua Portuguesa Planificação do Ano Lectivo 2008/2009 Ano: 9º

Procura-PALavras (P-PAL):

Tabelas Hash. informação, a partir do conhecimento de sua chave. Hashing é uma maneira de organizar dados que:

Teoria dos Grafos Aula 6

Análise de Sentimento - Parte I

2011/2012 (Despacho nº 5238/2011 de 28 de Março) 2º Ano CONTEÚDOS ANUAIS DISCIPLINA: Língua Portuguesa. CEF Serviço de Bar

Inteligência Artificial Projecto 1

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Bottom-Up Filtering. Ambiguidade. Combinando Top-Down e Bottom-Up

Licenciatura em Engenharia Informática DEI/ISEP Linguagens de Programação 2006/07

Aula Prática de Comunicação

2014 Fundamental II Conteúdo e Datas 1 ª Etapa 2ª Parcial

5 Experimentos Conjunto de Dados

Escola Básica e Secundária de Alvide

Aula10 O USO DO DICIONÁRIO. Izabel Silva Souza D Ambrosio. META Conscientizar os alunos do uso apropriado do dicionário

1 Complementos e Modificadores de Nome... 2

Planificação periódica LÍNGUA PORTUGUESA

LÍNGUA PORTUGUESA GRAMÁTICA CAP. 7: COLOCAÇÃO PRONOMINAL PROF.º PAULO SCARDUA

O ALEATÓRIO EM COMPUTAÇÃO. Por Diogo Anderson Integrante do Grupo PET Computação

Linguagem Python. Processamento Estatístico da Linguagem Natural. Barra invertida em strings. Strings. Aspas triplas. Operações com Strings

Guião 1 Anexo (v1.0) 2. Do léxico à frase 2.1. Classes de palavras e critérios para a sua identificação

ESPANHOL INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA. Prova º Ciclo do Ensino Básico AGRUPAMENTO DE ESCOLAS VERGÍLIO FERREIRA

Abordagens na Tradução Automática

Correção Ortográfica. Processamento Estatístico da Linguagem Natural. Correção de Erros. Distância Mínima de Edição. Distância Mínima de Edição

Um Algoritmo Genético para o Problema de Roteamento de Veículos com Janelas de Tempo

Studienbegleitende Fremdsprachenausbildung (SFA) Portugiesisch III WS 2008/2009 Catarina Pascoal. Programa do curso 1

Inteligência Artificial

Capítulo1. Capítulo2. Índice A LÍNGUA E A LINGUAGEM O PORTUGUÊS: uma língua, muitas variedades... 15

ÍNDICE. AGRADECIMENTOS... v. TÍTULO E RESUMO... ix. TITLE AND ABSTRACT... xi. TITRE ET RÉSUMÉ... xiii. TÍTULO Y RESUMEN... xv

Pronomes, determinantes e advérbios relativos

847- ESPANHOL (NÍVEL- CONTINUAÇÃO 10.º/ 11.º ANO)

Conceitos Básicos. LEIC 2 o Semestre, Ano Lectivo 2012/13. c Inês Lynce

INFORMAÇÃO DE PROVA EQUIVALENTE A EXAME NACIONAL

Apresentação. !! Familiarização com os métodos de construção de compiladores de linguagens e com as técnicas de compilação mais habituais.

Breve Apresentação do Projecto Estudo do Uso e do Significado da Preposição de em Contextos Nominais: SN de SN

Processo de Admissão de Novos Estudantes Conteúdos programáticos para candidatos que ingressarão no. 1º ano do Ensino Médio MATEMÁTICA

Computação 1 - Python Aula 9 - Teórica: Interferindo no fluxo de repetição: Break e Continue Laços Aninhados

Dados pessoais. Nome. Apelido. Morada. Estado Civil

Otimização de horários Seminário. Clarisse Resende 25/01/2013

Unidade VI. Técnicas de Teste de Software Teste Estrutural. Profa. Dra. Sandra Fabbri

3.º Ciclo do Ensino Básico (Decreto Lei n.º 3/2008, de 7 de janeiro)

INFORMAÇÃO DE EXAME A NÍVEL DE ESCOLA EQUIVALENTE A NACIONAL Secundário - 1.ª e 2.ª FASES CÓDIGO: 847

DEPARTAMENTO DE LÍNGUAS CURSO DE EDUCAÇÃO E FORMAÇÃO AFAC PLANIFICAÇÃO A LONGO PRAZO INGLÊS 1º E 2º ANO 1º ANO MÓDULO 1 O MUNDO PESSOAL E QUOTIDIANO

PLANO DE ESTUDOS PORTUGUÊS 8.º ANO 2015/2016

Anatomia do motor de um programa de xadrez. Hugo Vinicius M. D. Santana Orientador: José Coelho de Pina

de palavras cruzadas

Objectivos com o Desenho de Bases de Dados Dependências funcionais 1ª Forma Normal Decomposição Forma Normal de Boyce-Codd 3ª Forma Normal

Escola Básica 2.3 Martim de Freitas PORTUGUÊS Planificação anual 5ºano. Excerto informativo; excerto narrativo; excerto descritivo; excerto fílmico.

Teoria dos Grafos Aula 5

Sondagem 2017 ENSINO FUNDAMENTAL

Objectivos / Competências Conteúdos Descrição dos itens

Árvores B (Parte III)

TIPOS DE DADOS E VARIÁVEIS

Aula de Informática (disponível em Sumário

DISCIPLINA DE LÍNGUA PORTUGUESA - 5.º Ano 1. COMPETÊNCIAS ESSENCIAIS COMPETÊNCIAS GERAIS COMPETÊNCIAS ESPECÍFICAS

O O léxico de crianças em idade pré-escolar

Disciplina 1º Período 2º Período 3º Período

Introdução à Programação em C (II)

PROGRAMAÇÃO I E N T R A DA E S A Í DA D E DA D O S

Conteúdo para concurso de bolsa 9º ano

2 Fluxogramas e Pseudocódigo. 18 Programação em C/C++ estrutura básica e conceitos fundamentais

Pires do Rio, 30 de agosto de 2010.

DISCIPLINA DE LÍNGUA PORTUGUESA - 5.º Ano 1. COMPETÊNCIAS ESSENCIAIS COMPETÊNCIAS GERAIS COMPETÊNCIAS ESPECÍFICAS

5.1, 6.1, 6.2, 6.3, 6.4, 6.5, 7.4, 8.1, 9.1, 10.1, 10.2, 10.3, 10.4, 14.3, 15.1, 15.2, 16.1, 18.1, 18.2, 18.3, 18.4

Consultar o dicionário

Linguagem Python. Inteligência Artificial. Características de Python. Importando módulos. Módulos. Usando Python no modo interativo

ESPANHOL 1ª e 2ª fase de 2014

Busca com informação e exploração. Inteligência Artificial. Revisão da aula passada: Heurística Admissível. Revisão da aula passada: Busca A *

CONTEÚDO DAS PROVAS DE RECUPERAÇÃO TURMAS 60/70 E 80

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

Pronome relativo A língua portuguesa apresenta 7 formas de pronomes e advérbios relativos consensuais: Que O que Quem O qual Onde Quanto Cujo

ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2.

2 Fluxogramas e Pseudocódigo

Inteligência Computacional

Estudo da Produção de Oclusivas do Português Europeu

Transcrição:

Marcação de Nomes Próprios usando técnicas de pesquisa local e recorrendo a fontes de conhecimento na Internet João Laranjinho Universidade de Évora Évora, Portugal joao.laranjinho@gmail.com Irene Rodrigues Universidade de Évora Évora, Portugal ipr@di.uevora.pt Abstract Lígia Ferreira Universidade de Évora Évora, Portugal lsf@di.uevora.pt Neste artigo apresenta-se um sistema, independente do domínio, para marcação de nomes próprio para o português e inglês. O sistema é avaliado de forma a estudar o impacto de diferentes fontes de conhecimento nos resultados. O marcador usa informação morfo-sintáctica, sintáctica e semântica. A informação morfosintáctica vem de um dicionário local que completa a sua informação recorrendo a dicionários disponíveis na rede como o da Priberam e do LookWayUP. A informação semântica usada nas experiências de avaliação vem da Wikipédia e do WordNet. No sistema são usadas também algumas das técnicas pesquisa local na marcação de nomes próprios. Na avaliação do sistema e do impacto das diferentes fontes de informação usaram-se frases 2 corpora: 100 frases do WSJ e 100 frases do Brown usadas na fase de treino e 100 frases do Brown usadas na fase de testes. 1 Introdução O sistema que apresentamos chama-se REMUE2011. Este sistema é uma evolução do REMUE [1] que tinha como objectivo a marcação de nomes próprio para o Português. Actualmente além de marcar nomes próprios para o Português também marca nome próprios para o Inglês. Na decisão de marcar nomes próprios usam-se 2 tipos de fontes de conhecimentos: Informação morfo-sintáctica do dicionário local que é completada recorrendo a dicionários que estão disponíveis na Web como o dicionário Priberam 1 (para o Português) e o Look Way Up 2 (para o Inglês). Informação semântica de dicionários e enciclopédias como a Wikipédia 3 e o WordNet 4 que indicam se o nome próprio existem em algum contexto. 2 Arquitectura do Sistema A arquitectura do REMUE2011 contém 4 módulos. Na Figura 6 é apresentada a arquitectura com os seus módulos: pré-processamento, análise lexical, pesquisa local e saída. No pré-processamento separa-se o texto em frases e as frases em átomos. As frases são constituídas por átomos e os átomos por sequências de caracteres. Na análise lexical consulta-se em dicionários on-line a informação morfo-sintáctico-semântica das palavras que não se encontram no dicionário local, guardando-se essa informação no dicionário local. José Saias, Luís Rato and Teresa Gonçalves (eds.): JIUE 2011, 2011, volume 1, issue: 1, pp. 1-6 1 http://www.wikipedia.org/ 2 http://lookwayup.com/free/ 3 http://www.wikipedia.org/ 4 http://wordnetweb.princeton.edu/perl/webwn?s 1

Figure 1: Arquitectura do REMUE Na pesquisa local gera-se um conjunto de interpretações iniciais e posteriormente avaliam-se estas. Na avaliação quando uma interpretação contém vizinhas com valor de heurística superior, expandem-se as vizinhas e em seguida avaliam-se. A avaliação termina quando não são encontradas mais interpretações vizinhas com valor de heurística superior. Finalmente na saída utiliza-se a interpretações que obteve o valor mais alto de heurística. 3 Função de Avaliação Na função de avaliação estudou-se o impacto de diferentes fontes de conhecimento na marcação de marcação de nomes próprios. O estudo das fontes incidiu sobre: o nome próprio, o átomo anterior ao nome próprio e átomo posterior ao nome próprio. No nome próprio estudou-se o impacto de: estar na Wikipédia (WIKI), no WordNet (WORDNET) ou parte do nome na Wikipédia (WIKI P); conter maiúsculas (MAIUSCULAS) ou números (NUMEROS); conter adjectivos(adjs), advérbios (ADVS), conjunções (CONJS), determinantes (DETS), nomes comuns (NOME), preposições (PREPS), pronomes (PRONS), verbos (VERBOS) ou palavras desconhecidas (DESCS); o números de átomos (ATOMOS); No átomo anterior e posterior ao nome próprio estudou-se o impacto de: estar na Wikipédia (WIKI) e WordNet (WORDNET); conter maiúsculas (MAIUSCULAS) ou números (NUMEROS); ser adjectivo (ADJ), advérbio (ADV), conjunção (CONJ), determinante (DET), nome comum (NOME), preposição (PREP), pronome (PRON), verbo (VERBO) ou uma palavra desconhecida (DESC); 2

4 Marcador Local Inicialmente o marcador de nomes próprio foi criado com o intuito de analisar todas as interpretações de uma frase. No entanto, em presença de frases com muitas interpretações torna-se impraticável analisar todas as interpretações devido ao elevado tempo de processamento. Para resolver este problema pensou-se em aplicar técnicas de pesquisa local no marcador de nomes próprios, sendo um estado (interpretação) constituído por um conjunto de tuplo em que cada tuplo consiste de um átomo (palavra, sinal de pontuação, números, etc) e um valor numérico (0 ou 1) que indica se o átomo pertence ou não a um nome próprio, e uma interpretação vizinha uma nova interpretação que é gerada a partir de uma outra através da mudança de um dos valores numéricos (mutação) de um tuplo ou de vários (mutações). O algoritmo recebe uma interpretações e aleatoriamente atribui valores que indicam se os átomos da interpretação pertencem ou não a nomes próprios. Para encontrar a melhor interpretação de uma frase utiliza-se o algoritmo search best interpretation: interpretation f unction search best interpretation(interpretation s, number Max Flips, table t) interpretation b, i, i1 b s f or j := 1 to Max Flips do i random interpretation(s) insert(i, t) i1 neighbor interpretation(i, t) while i1! = null do i f h(i1) >= h(i) i i1 i1 neighbor interpretation(i1, t) insert(i1, t) else i1 neighbor interpretation(i, t) insert(i1, t) endwhile i f h(i) >= h(b) b i end f or return b end search best interpretation O algoritmo search best interpretation recebe uma frase sem nomes próprios marcados, o número de interpretações iniciais que deve gerar aleatoriamente e uma tabela onde guarda as interpretações que gera. Para cada interpretação inicial são expandidas as interpretações vizinhas com valores heurística superior e por sua vez as vizinhas das vizinhas. Finalmente quando todas estas interpretações forem analisadas é retornada a interpretação que obteve o valor mais alto de heurística. 5 Optimizador Local Para não se apurar manualmente os valores dos parâmetros da função heurística consoante o corpora que se pretende analisar, criou-se uma aplicação que automaticamente encontra valores para os parâmetros que maximizam o desempenho da função heurística. 3

Inicialmente a aplicação foi criada com o intuito de estudar todos os conjuntos de parâmetros. No entanto, verificou-se que aumentando o número de parâmetros não se conseguia estudar todos esses conjuntos devido ao tempo de processamento. Para contornar esse problema pensou-se em incorporar na aplicação técnicas de pesquisa local, sendo um estado constituído por um conjunto de parâmetros em que cada parâmetro é representado por um valor numérico e um estado vizinho um novo conjunto de parâmetros que contém uma diferença (mutação) ou várias (mutações) em relação ao estado anterior. Para apurar os parâmetros utiliza-se o algoritmo determine parameters: parameters f unction determine parameters(parameters s, number Max Flips, table t) parameters b, ps, ps1 b s f or j := 1 to Max Flips do ps random parameters(s) insert(ps, t) ps1 neighbor parameters(ps, t) while ps1! = null do insert(ps1, t) i f ht(ps1) >= h(ps) ps ps1 ps1 neighbor parameters(ps1, t) else ps1 neighbor parameters(ps1, t) endwhile i f ht(ps) >= ht(b) b ps end f or return b end determine parameters O algoritmo determine parameters recebe um conjunto de parâmetros vazio, o número de conjuntos iniciais de parâmetros que pode gerar aleatoriamente e uma tabela onde guarda os conjuntos de parâmetros que gera. Para cada conjunto de parâmetros inicial são expandidos os conjuntos de parâmetros vizinhos que dão valor de heurística superior ao texto e por sua vez os vizinhos dos vizinhos. Finalmente quando todos estes conjuntos de parâmetros forem analisados é retornado o conjunto que deu o valor mais alto de heurística ao texto. 6 Avaliação Na avaliação inicialmente estudou-se o impacto de isolar cada uma das fontes de conhecimento. Na seguinte tabela podem ver-se os valores alcançados nas métricas de precisão, cobertura e medida-f quando se optimizaram os parâmetros usando no treino 70 frases com 4 nomes próprios no máximo por frase retiradas dos corpora Brown e WSJ e testando-se em 100 frases aleatórias do corpora Brown. 4

Nome Próprio Átomo Anterior Átomo Posterior Prec Cob Med-F Prec Cob Med-F Prec Cob Med-F WIKI 0,3784 0,4219 0,3990 0,3454 0,1833 0,2395 0,2950 0,1858 0,2280 WIKI P 0,3987 0,4486 0,4222 X X X X X X WORDNET 0,5244 0,3090 0,3889 0,7053 0,1365 0,2288 0,6192 0,1035 0,1774 MAIUSCULAS 0,5973 0,7313 0,6575 0,3300 0,1812 0,2339 0,2975 0,1650 0,2123 NUMEROS 0,8261 0,2241 0,3525 0,9908 0,0108 0,0214 0,8932 0,0142 0,0279 ADJS 0,5375 0,1748 0,2638 0,5288 0,1607 0,2465 0,6433 0,1294 0,2155 ADVS 0,6208 0,0248 0,0478 0,7193 0,1573 0,2581 0,8702 0,0945 0,1705 CONJS 1,0000 0,0000 0,0000 0,7690 0,1165 0,2023 0,8550 0,0892 0,1615 DETS 1,0000 0,0000 0,0000 0,5681 0,2053 0,3016 0,9025 0,0225 0,0439 NOMES 0,5856 0,6543 0,6180 0,4179 0,2123 0,2815 0,2792 0,2537 0,2658 PREPS 1,0000 0,0000 0,0000 0,5550 0,1940 0,2875 0,6708 0,2018 0,3102 PRONS 0,1818 0,0868 0,1175 0,8958 0,0847 0,1547 0,8235 0,0413 0,0787 VERBOS 0,6717 0,1647 0,2645 0,7274 0,0950 0,1681 0,5521 0,2778 0,3696 DESCS 0,6653 0,1962 0,3030 0,6333 0,1495 0,2419 0,5119 0,3358 0,4056 ATOMOS 0,5766 0,6801 0,6241 X X X X X X No que respeita aos nomes próprios as fontes que apresentaram maior impacto foram: a entrada dos nomes próprios nas enciclopédia (no caso a Wikipédia e o WordNet), a presença de maiúsculas e números nos nomes próprios, o comprimento dos nomes próprios e a existência de átomos nos nomes próprios que pertence as classes gramáticais nome comum, adjectivo, verbo ou palavra desconhecida. No átomo anterior ao nome próprio as fontes que tiveram mais impacto foram: o átomo pertencer a uma das classes gramaticais determinante, preposição, nome comum, advérbio ou adjectivo. Normalmente, palavras destas classes gramaticais antecentem os nomes próprios. No átomo posterior ao nome próprio as fontes que tiveram mais impacto foram: o átomo pertencer a uma das classes gramaticais verbo, preposição, nome comum, advérbio ou adjectivo. Palavras destas classes gramaticais que precedem os nomes próprios com bastante frequência. Em relação à classe gramatical palavra desconhecida não podemos especular muito sobre a mesma, porque existe uma frequência baixa de palavras desconhecida no corpora analisado. Para optimizar os parâmetros e marcar os nomes próprios foi usada a função heurística: H(I) = P1 NP I(I)+ i i=0 (P2 (WIKI(i)+WIKI P(i)+WORDNET (i)+numeros(i)) ATOMOS(i) +P3 MAIUSCULAS(i) + P4 (ADV S(i) +CONJS(i) + DET S(i) + PREPS(i) + PRONS(i))) Esta função foi encontrada realizando um conjunto de testes no qual se verificou a importância da combinação das fontes de conhecimento. Na tabela e no gráficos seguinte podemos ver os valores das métricas obtidos com os marcadores global e local usando os marcadores global e local. 5

MARC GLOBAL LOCAL FRASES Prec Cob Med-F Corr Prec Cob Med-F Corr 10 0,7850 0,8773 0,8286 52 0,7805 0,8692 0,8225 50 20 0,7889 0,8872 0,8351 54 0,7803 0,8735 0,8243 51 30 0,7889 0,8872 0,8351 54 0,7821 0,8757 0,8262 52 40 0,7889 0,8872 0,8351 54 0,7906 0,8797 0,8327 53 GLOBAL 50 0,7889 0,8872 0,8351 54 0,7796 0,8777 0,8258 51 60 0,7889 0,8872 0,8351 54 0,7872 0,8798 0,8310 53 70 0,7855 0,8822 0,8311 53 0,7715 0,8591 0,8129 50 OPT 10 0,7797 0,8713 0,8230 47 0,7757 0,8653 0,8181 47 20 0,7905 0,8855 0,8353 54 0,7890 0,8865 0,8349 53 30 0,7932 0,8880 0,8379 53 0,7915 0,8880 0,8291 54 40 0,7855 0,8822 0,8311 53 0,7742 0,8714 0,8199 50 LOCAL 50 0,7994 0,8955 0,8447 53 0,7927 0,8857 0,8366 50 60 0,7925 0,8855 0,8364 55 0,7848 0,8778 0,8287 49 70 0,7905 0,8855 0,8353 54 0,7950 0,8909 0,8402 51 Os resultado da tabela e do gráfico mostram que as diferenças na métrica de medida-f entre os marcadores local e global usando os optimizadores local e global não são significativas. 7 Conclusões e Trabalho Futuro Na marcação dos nomes próprios explorar a informação do nome próprio é tão importante com explorar a informação dos átomos que se encontram junto do nome próprio. As diferenças na métrica de medida-f entre os marcadores local e global usando os optimizadores local e global não foram significativas, existindo no máximo 0,03 valores de diferença. Além disso, usando o marcador local e optimizador local o espaço de pesquisa será reduzido tornando possível em tempo real extrair conclusões que seriam impossíveis de obter apenas com o marcador global e o opmitizador global. Como perspectiva futura no desenvolvimento do sistema pensamos explorar a marcação de entidades mencionadas. References [1] João Laranjinho and Irene Rodrigues. O impacto de diferentes fontes de conhecimento na marcação de nomes próprios em portugês. In INFORUM - Simpósio de Informática, 2010. 6