Construção de dicionários bilingües por transitividade



Documentos relacionados
Compilação e uso de corpora paralelos. Ana Frankenberg-Garcia

Uso de corpora comparáveis para filtrar dicionários bilíngues gerados por transitividade

A Compilação de um Corpus Paralelo de Traduções da Constituição Brasileira

Testes de Software. Testes de Software. Teste de Validação. Teste de Defeito. Modelo de Entrada e Saída. Modelo de Entrada e Saída

Testes de Software. Testes de Software. Teste de Validação. Teste de Defeito. Modelo de Entrada e Saída. Modelo de Entrada e Saída

ENSINO DA TERMINOLOGIA DO TURISMO: BUSCA DOS TERMOS EM INGLÊS RELATIVOS A EQUIPAMENTOS USADOS EM TÉCNICAS VERTICAIS PARA ELABORAÇÃO DE GLOSSÁRIO

VIRNA. Virtualizador Nacional

XI Jornada Científica. Maria da Graça KRIEGER Universidade do Vale do Rio dos Sinos (UNISINOS), Brasil Grupo TermiLex

Projeto 8 Servidor de estatísticas de desempenho on-line da BVS 11 de janeiro de 2005

Gestão e Tratamento de Informação 1º semestre

A QUESTÃO DA TAXONOMIA NUM CORPUS COLABORATIVO PARA CONSTRUÇÃO DE UM VOCABULÁRIO NA ÁREA DE LINGUÍSTICA

CECAD Consulta Extração Seleção de Informações do CADÚNICO. Caio Nakashima Março 2012

1 Introdução. 1.1 Apresentação do tema

AJUDA À REVISÃO do AnELL

IMPLEMENTAÇÃO DA TÉCNICA TEXT MINING APLICADO NO AMBIENTE DO EMPREENDEDOR. Acadêmico: Roger Erivan Gaulke Prof. Orientador: Dr.

DEPARTAMENTO DE LÍNGUAS ESTRANGEIRAS

Como é o desenvolvimento de Software?

A construção de um corpus de textos paralelos inglês-português

Curriculum vitae quarta-feira, :: 16:21

Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL

Linguateca. Um centro de recursos distribuído para o processamento computacional da língua portuguesa

Tradução profissional vs. Tradução não-profissional Estudo do Protocolo Think Aloud Sonja Tirkkonen-Condit

Modelo Cascata ou Clássico

Bianca Pasqualini LEITURA, TRADUÇÃO E MEDIDAS DE COMPLEXIDADE TEXTUAL EM CONTOS DA LITERATURA PARA LEITORES COM LETRAMENTO BÁSICO

Construção de Aplicativos Usando PLN e Recursos para Reconhecimento e Síntese de Fala Disponibilizados pelo Projeto FalaBrasil da UFPA

Estabelecer critérios e procedimentos padronizados necessários para utilização do Help Desk da Coco do Vale.

WEBQUESTER: FERRAMENTA PARA CRIAÇÃO DE WEBQUEST COM AVALIAÇÕES ON- LINE. Acadêmico: Yauari Vieira Orientador: Everaldo Artur Grahl

PrimeUp Educação. Caso real: implantação de solução de ALM.

1.2. Sistemas de Programação

Plano de Trabalho Docente Ensino Técnico

MAPEAMENTO DA ESTRUTURA MORFOFONÉTICA DE UNIDADES TERMINOLÓGICAS EM LIBRAS

TRIBUNAL DE CONTAS DO ESTADO DO RIO DE JANEIRO SISTEMA INTEGRADO DE GESTÃO FISCAL MÓDULO DELIBERAÇÃO 260/13 MANUAL DE UTILIZAÇÃO

Próximas etapas. Desenvolvimento técnico:

E3Suite. Estudo da Evolução de Eventos Científicos

SEGMENTAÇÃO DE IMAGENS EM PLACAS AUTOMOTIVAS

Engenharia de Software I

Realização de Prova de Conceito dos Sistemas Legados da Secretaria de Saúde

Manual de Instalação. Gestão Comercial Golfinho. Gestão Comercial Golfinho - Manual de Instalação

grupo de compostelanas e compostelanos decididos a fazer activismo cultural na nossa cidade e comarca.

Secretaria-Geral do MAOT

Sucursal na Hora. Vida mais simples para as empresas

Projeto de Sistemas I

Um laboratório com 35 hectares!

Licença Pública da União Europeia

ARTSOFT. Gestão de Assiduidades

Traduza textos com um clique, usando o excelente Babylon

Dicionário da EAP - Software FarmaInfor

EXTRACÇÃO DE RELAÇÕES SEMÂNTICAS. RECURSOS, FERRAMENTAS E ESTRATÉGIAS

ENTREGA DA DECLARAÇÃO MODELO 39

1) A prática e o aprofundamento das habilidades comunicativas específicas que serão avaliadas nos exames.

TERMINOLOGIA DO COMÉRCIO INTERNACIONAL NO MERCOSUL: COMPILAÇÃO E ANÁLISE DE UM CORPUS BILÍNGUE

A AMBIGUIDADE LEXICAL DE SENTIDO NA TRADuc;:Ao AUTOMATICA INGLES-PORTU- GuES: UM ESTUDO DE CASO

FONTES DE INFORMAÇÃO PARA PESQUISA CIENTÍFICA

Modelagem e Simulação

NOVO REGIME DE ORGANIZAÇÃO E FUNCIONAMENTO DO SECTOR PETROLÍFERO

Matéria: Desenho e desenvolvimento de tecnologias linguísticas

Gerência de Configuração. Profº Rômulo César

SOFTWARE PARA DESIGN DE PROTÓTIPOS

FICÇÃO, TRADUÇÃO, TERMINOGRAFIA E LINGUÍSTICA DE CORPUS: CONFLUÊNCIAS

Teste de Software. Profa. Cátia dos Reis Machado


Integração Data de Saída GFE x Datasul 11

Prototipagem em Papel Desenvolver e testar interfaces antes de iniciar a programação. Ivo Gomes

INSPIRE Metadados e Serviços de Pesquisa

Apresentação. Bem-vindo à apresentação das diferenças entre as versões 1 e 2 do SEER. Elaborado por: Fernanda Moreno Consultora Ibict Fevereiro 2007

Ligação com Sage Retail XDPEOPLE

ESCOLA SECUNDÁRIA DR. SOLANO DE ABREU ABRANTES PLANIFICAÇÃO ANUAL

METADADOS INSPIRE. Henrique Silva; André Serronha;

BOLSAS DE MESTRADO CAMPUS DO MAR

Além da correção ortográfica nos editores de textos livres

o catálogo de revistas eletrônicas da área de odontologia

Prof. Marcelo Machado Cunha

Melhoria no Desenvolvimento Ágil com Implantação de Processo de Integração Contínua Multiplataforma para Java e.net. Hudson

Energia Open Source. Semana do Gestor de Projectos - APOGEP

Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados

Automação de Processos de Negócios com BPMS:

ESCOLA SECUNDÁRIA DR. SOLANO DE ABREU PLANIFICAÇÃO ANUAL INGLÊS. MÓDULOS 1,2,3 e 4 ACTIVIDADES ESTRATÉGIAS. - Exercícios de:

CICLO DE VIDA DE SISTEMAS DE GESTÃO DE CONHECIMENTO

IMPLANTAÇÃO DO PROJETO DE IDENTIFICAÇÃO E ARMAZENAMENTO DE PRODUTOS QUÍMICOS NOS LABORATÓRIOS DA ESCOLA NACIONAL DE SAÚDE PÚBLICA SÉRIO AROUCA/FIOCRUZ

7h30 min às 8h15min Inglês Espanhol Espanhol Biologia Biologia. 9h às 9h45 min História Gramática Geografia Literatura Matemática

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

GLOSSÁRIO BILÍNGUE DE COLOCAÇÕES DA HOTELARIA: UM MODELO À LUZ DA LINGUÍSTICA DE CORPUS

JVM s Livres. Paloma Costa. javawoman@portaljava.com.br

REQUISITOS. Prof. Msc. Hélio Esperidião

Teste de Regressão. R. Anido Baseado em notas de aulas da profa. Eliane Martins

Plano de Trabalho Docente Ensino Técnico

Etapa 1: Da inscrição:

CONSULTA AO MERCADO RFI REQUEST FOR INFORMATION CONSOLIDAÇÃO DE DÚVIDAS APRESENTADAS

Teodoro, Francisco M. Ferreira

O prime gestão é um software online constituído por vários módulos:

O que queremos. Processamento Estatístico da Linguagem Natural. Parsing Morfológico. Regras Simples. Adicionando palavras. Regras Derivacionais

MANUAL DE PROCEDIMENTOS MPR/ASCOM-002-R00 ATIVIDADES DE ASSESSORAMENTO, COMUNICAÇÃO INTEGRADA E APOIO À GESTÃO DA ASCOM

CENTRO ESTADUAL DE EDUCAÇÃO TECNOLÓGICA PAULA SOUZA FACULDADE DE TECNOLOGIA DE BOTUCATU CURSO SUPERIOR DE TECNOLOGIA EM INFORMÁTICA PARA NEGÓCIOS

PODER JUDICIÁRIO TRIBUNAL REGIONAL DO TRABALHO DA 2ª REGIÃO

Tópicos. Métodos Ágeis. Histórico; Valores; Métodos Ágeis x Modelos Tradicionais; Exemplo: Referências Bibliográficas.

Cenários do CEL. Acessar ao sistema

Transcrição:

Construção de dicionários bilingües por transitividade Grupo GE/ProLNat Universidade de Santiago de Compostela, Galiza, Spain Per-fide 2010, Universidade de Braga

Objetivo Objetivo e Plano Objetivo Plano Geração de dicionários por transitividade (A, B), (B, C) (A, C)

Contribuição Objetivo e Plano Objetivo Plano com corpus comparáveis

Plano Objetivo e Plano Objetivo Plano A estratégia Um caso de estudo Trabalho futuro

A estratégia Objetivo e Plano Transitivity Extração Conjetura 3 tarefas Derivação por transitividade (Nerima & Wehrli, 2008) mediante corpus comparáveis Extração a partir de corpus comparáveis

A estratégia Objetivo e Plano Transitivity Extração Conjetura 3 tarefas Derivação por transitividade (Nerima & Wehrli, 2008) mediante corpus comparáveis Extração a partir de corpus comparáveis

Transitivity Extração Conjetura Derivação por transitividade (A, B), (B, C) (A, C) noisy Para cada correspondência bilingue (a i, b i ) pertencente à relação (A, B), criamos um conjunto de novas correspondências {(a i, c 1 ), (a i, c 2 ),...,(a i, c n )}, onde c 1,...,c n são as traduções de b i em (B, C).

Transitivity Extração Conjetura Derivação por transitividade (A, C) noisy = (A, C) unamb (A, C) amb (A, C) amb É um léxico com ruido (Ingles, Espanhol) (subside, bajar),..., (Espanhol, Galego) (bajar, baixar), (bajar, apear),..., (Ingles, Galego) amb (subside, baixar), (subside, apear)

Transitivity Extração Conjetura Derivação por transitividade (A, C) noisy = (A, C) unamb (A, C) amb (A, C) amb É um léxico com ruido (Ingles, Espanhol) (subside, bajar),..., (Espanhol, Galego) (bajar, baixar), (bajar, apear),..., (Ingles, Galego) amb (subside, baixar), (subside, apear)

Transitivity Extração Conjetura Derivação por transitividade (A, C) noisy = (A, C) unamb (A, C) amb (A, C) amb É um léxico com ruido (Ingles, Espanhol) (subside, bajar),..., (Espanhol, Galego) (bajar, baixar), (bajar, apear),..., (Ingles, Galego) amb (subside, baixar), (subside, apear)

Objetivo e Plano Transitivity Extração Conjetura (A, C) amb (A, C) corpus (A, C) corpus (subside, minguar) (subside, aflorar) (subside, baixar)...

Objetivo e Plano Transitivity Extração Conjetura (A, C) amb (A, C) corpus (A, C) corpus (subside, minguar) (subside, aflorar) (subside, baixar)...

Dicionário sem ruido Transitivity Extração Conjetura (A, C) not noisy = (A, C) amb (A, C) corpus (A, C) unamb

Dicionário sem ruido Transitivity Extração Conjetura (A, C) not noisy = (A, C) amb (A, C) corpus validação (A, C) unamb

Transitivity Extração Conjetura Extração a partir de corpus comparáveis Extração de (A, C) corpus Método descrito em CICLing 2008 (Gamallo & Pichel 2008) Protótipo disponível em: http://gramatica.usc.es/~gamallo/prototypes Based on syntactic dependencies (DepPattern, available under GPL): http://gramatica.usc.es/pln/tools

Transitivity Extração Conjetura Por que a validação funciona bem? Conjetura Nos dicionários bilingues manuais, todos os lemas relacionados quer directamente quer por transitividade pertencem ao mesmo domínio conceitual, mas os erros por transitividade não têm as mesmas propriedades distribucionais Nos dicionários extraidos de corpus comparáveis, os lemas relacionados têm as mesmas propriedades distribucionais, portanto nunca podem validar os pares errados por transitividade.

Transitivity Extração Conjetura Domínio conceitual / Distribuição (subside, bajar) (bajar, baixar) (bajar, apear) (baixar, apear) (subside, apear) (subside, baixar) (subside, minguar)?? (subside, aflorar)...

Um caso de estudo Dicionários fonte Transitividade Corpus comparáveis (A, B), (B, C) (A, C) (Ingles, Espanhol), (Espanhol, Galego) (Ingles, Galego)

Dicionários fonte Objetivo e Plano Dicionários fonte Transitividade Corpus comparáveis 3 dicionários existentes dois (A, B): (Ingles, Espanhol) 8, 432 entradas, OpenTrad (Ingles_C, Espanhol_C) 48, 637 entradas, Collins um (B, C): (Espanhol, Galego) 27, 640 entradas, OpenTrad

Dicionários fonte Transitividade Corpus comparáveis Dicionários derivados por transitividade dicionários derivados ambíguos não ambíguos dicionários fonte entradas entradas (Ingles, Galego) 3, 890 3, 797 (Ingles, Espanhol) (Espanhol, Galego) (Ingles_C, Galego) 17, 601 5, 494 (Ingles_C, Espanhol_C) (Espanhol, Galego)

Dicionários fonte Transitividade Corpus comparáveis Dicionários derivados por transitividade dicionários derivados ambíguos não ambíguos dicionários fonte entradas entradas (Ingles, Galego) 3, 890 3, 797 (Ingles, Espanhol) (Espanhol, Galego) (Ingles_C, Galego) 17, 601 5, 494 (Ingles_C, Espanhol_C) (Espanhol, Galego)

Dicionários fonte Transitividade Corpus comparáveis 3 dicionários baseados em corpus dicionários número de entradas (Ingles, Galego) bnc 400, 440 (Ingles, Galego) reuters 531, 710 (Ingles, Galego) nyt 132, 490 3 corpus comparáveis BNC-based 35M notícias galegas e 35M de BNC. Reuters-based 35M notícias galegas e 35M de Reuters NYT-based 1M de notícias galegas e 1M de NYT.

Dicionários fonte Transitividade Corpus comparáveis 3 dicionários baseados em corpus dicionários número de entradas (Ingles, Galego) bnc 400, 440 (Ingles, Galego) reuters 531, 710 (Ingles, Galego) nyt 132, 490 3 corpus comparáveis BNC-based 35M notícias galegas e 35M de BNC. Reuters-based 35M notícias galegas e 35M de Reuters NYT-based 1M de notícias galegas e 1M de NYT.

Dicionários fonte Transitividade Corpus comparáveis mediante corpus (Ingles, Galego) not noisy = (Ingles, Galego) amb (Ingles_C, Galego) amb (Ingles, Galego) bnc (Ingles, Galego) reuters (Ingles, Galego_C) nyt (Ingles, Galego) not amb (Ingles_C, Galego) not amb

Dicionários fonte Transitividade Corpus comparáveis mediante corpus (Ingles, Galego) not noisy = (Ingles, Galego) amb (Ingles_C, Galego) amb validação (Ingles, Galego) bnc (Ingles, Galego) reuters (Ingles, Galego_C) nyt (Ingles, Galego) not amb (Ingles_C, Galego) not amb

Dicionários fonte Transitividade Corpus comparáveis (Ingles, Galego) not noisy número de entradas OpenTrad + Collins 25, 790 Correspondências validadas 4, 248 Correspondências não ambíguas 7, 816 Dicionário sem ruido final 12, 064 (47 %) Disponível em: http://gramatica.usc.es/~gamallo/dicosfromcomparable.htm

Dicionários fonte Transitividade Corpus comparáveis (Ingles, Galego) not noisy número de entradas OpenTrad + Collins 25, 790 Correspondências validadas 4, 248 Correspondências não ambíguas 7, 816 Dicionário sem ruido final 12, 064 (47 %) Disponível em: http://gramatica.usc.es/~gamallo/dicosfromcomparable.htm

Tradução automática Dicionários fonte Transitividade Corpus comparáveis sistema OpenTrad (GPL) Primeira versão do par inglês-galego Colaboração com a empresa Imaxin Software (Santiago de Compostela, Galiza)

e trabalho futuro Conclusão Método lexicográfico totalmente automático Útil para línguas com escasos recursos. Trabalho futuro mais cobertura com mais corpus comparável mais dicionários: Francês-Galego, Português-Inglês terminologias bilingues com multipalavras

e trabalho futuro Conclusão Método lexicográfico totalmente automático Útil para línguas com escasos recursos. Trabalho futuro mais cobertura com mais corpus comparável mais dicionários: Francês-Galego, Português-Inglês terminologias bilingues com multipalavras

Obrigado e gracinhas!! http://gramatica.usc.es/~gamallo/ http://gramatica.usc.es/pln/