Construção de dicionários bilingües por transitividade Grupo GE/ProLNat Universidade de Santiago de Compostela, Galiza, Spain Per-fide 2010, Universidade de Braga
Objetivo Objetivo e Plano Objetivo Plano Geração de dicionários por transitividade (A, B), (B, C) (A, C)
Contribuição Objetivo e Plano Objetivo Plano com corpus comparáveis
Plano Objetivo e Plano Objetivo Plano A estratégia Um caso de estudo Trabalho futuro
A estratégia Objetivo e Plano Transitivity Extração Conjetura 3 tarefas Derivação por transitividade (Nerima & Wehrli, 2008) mediante corpus comparáveis Extração a partir de corpus comparáveis
A estratégia Objetivo e Plano Transitivity Extração Conjetura 3 tarefas Derivação por transitividade (Nerima & Wehrli, 2008) mediante corpus comparáveis Extração a partir de corpus comparáveis
Transitivity Extração Conjetura Derivação por transitividade (A, B), (B, C) (A, C) noisy Para cada correspondência bilingue (a i, b i ) pertencente à relação (A, B), criamos um conjunto de novas correspondências {(a i, c 1 ), (a i, c 2 ),...,(a i, c n )}, onde c 1,...,c n são as traduções de b i em (B, C).
Transitivity Extração Conjetura Derivação por transitividade (A, C) noisy = (A, C) unamb (A, C) amb (A, C) amb É um léxico com ruido (Ingles, Espanhol) (subside, bajar),..., (Espanhol, Galego) (bajar, baixar), (bajar, apear),..., (Ingles, Galego) amb (subside, baixar), (subside, apear)
Transitivity Extração Conjetura Derivação por transitividade (A, C) noisy = (A, C) unamb (A, C) amb (A, C) amb É um léxico com ruido (Ingles, Espanhol) (subside, bajar),..., (Espanhol, Galego) (bajar, baixar), (bajar, apear),..., (Ingles, Galego) amb (subside, baixar), (subside, apear)
Transitivity Extração Conjetura Derivação por transitividade (A, C) noisy = (A, C) unamb (A, C) amb (A, C) amb É um léxico com ruido (Ingles, Espanhol) (subside, bajar),..., (Espanhol, Galego) (bajar, baixar), (bajar, apear),..., (Ingles, Galego) amb (subside, baixar), (subside, apear)
Objetivo e Plano Transitivity Extração Conjetura (A, C) amb (A, C) corpus (A, C) corpus (subside, minguar) (subside, aflorar) (subside, baixar)...
Objetivo e Plano Transitivity Extração Conjetura (A, C) amb (A, C) corpus (A, C) corpus (subside, minguar) (subside, aflorar) (subside, baixar)...
Dicionário sem ruido Transitivity Extração Conjetura (A, C) not noisy = (A, C) amb (A, C) corpus (A, C) unamb
Dicionário sem ruido Transitivity Extração Conjetura (A, C) not noisy = (A, C) amb (A, C) corpus validação (A, C) unamb
Transitivity Extração Conjetura Extração a partir de corpus comparáveis Extração de (A, C) corpus Método descrito em CICLing 2008 (Gamallo & Pichel 2008) Protótipo disponível em: http://gramatica.usc.es/~gamallo/prototypes Based on syntactic dependencies (DepPattern, available under GPL): http://gramatica.usc.es/pln/tools
Transitivity Extração Conjetura Por que a validação funciona bem? Conjetura Nos dicionários bilingues manuais, todos os lemas relacionados quer directamente quer por transitividade pertencem ao mesmo domínio conceitual, mas os erros por transitividade não têm as mesmas propriedades distribucionais Nos dicionários extraidos de corpus comparáveis, os lemas relacionados têm as mesmas propriedades distribucionais, portanto nunca podem validar os pares errados por transitividade.
Transitivity Extração Conjetura Domínio conceitual / Distribuição (subside, bajar) (bajar, baixar) (bajar, apear) (baixar, apear) (subside, apear) (subside, baixar) (subside, minguar)?? (subside, aflorar)...
Um caso de estudo Dicionários fonte Transitividade Corpus comparáveis (A, B), (B, C) (A, C) (Ingles, Espanhol), (Espanhol, Galego) (Ingles, Galego)
Dicionários fonte Objetivo e Plano Dicionários fonte Transitividade Corpus comparáveis 3 dicionários existentes dois (A, B): (Ingles, Espanhol) 8, 432 entradas, OpenTrad (Ingles_C, Espanhol_C) 48, 637 entradas, Collins um (B, C): (Espanhol, Galego) 27, 640 entradas, OpenTrad
Dicionários fonte Transitividade Corpus comparáveis Dicionários derivados por transitividade dicionários derivados ambíguos não ambíguos dicionários fonte entradas entradas (Ingles, Galego) 3, 890 3, 797 (Ingles, Espanhol) (Espanhol, Galego) (Ingles_C, Galego) 17, 601 5, 494 (Ingles_C, Espanhol_C) (Espanhol, Galego)
Dicionários fonte Transitividade Corpus comparáveis Dicionários derivados por transitividade dicionários derivados ambíguos não ambíguos dicionários fonte entradas entradas (Ingles, Galego) 3, 890 3, 797 (Ingles, Espanhol) (Espanhol, Galego) (Ingles_C, Galego) 17, 601 5, 494 (Ingles_C, Espanhol_C) (Espanhol, Galego)
Dicionários fonte Transitividade Corpus comparáveis 3 dicionários baseados em corpus dicionários número de entradas (Ingles, Galego) bnc 400, 440 (Ingles, Galego) reuters 531, 710 (Ingles, Galego) nyt 132, 490 3 corpus comparáveis BNC-based 35M notícias galegas e 35M de BNC. Reuters-based 35M notícias galegas e 35M de Reuters NYT-based 1M de notícias galegas e 1M de NYT.
Dicionários fonte Transitividade Corpus comparáveis 3 dicionários baseados em corpus dicionários número de entradas (Ingles, Galego) bnc 400, 440 (Ingles, Galego) reuters 531, 710 (Ingles, Galego) nyt 132, 490 3 corpus comparáveis BNC-based 35M notícias galegas e 35M de BNC. Reuters-based 35M notícias galegas e 35M de Reuters NYT-based 1M de notícias galegas e 1M de NYT.
Dicionários fonte Transitividade Corpus comparáveis mediante corpus (Ingles, Galego) not noisy = (Ingles, Galego) amb (Ingles_C, Galego) amb (Ingles, Galego) bnc (Ingles, Galego) reuters (Ingles, Galego_C) nyt (Ingles, Galego) not amb (Ingles_C, Galego) not amb
Dicionários fonte Transitividade Corpus comparáveis mediante corpus (Ingles, Galego) not noisy = (Ingles, Galego) amb (Ingles_C, Galego) amb validação (Ingles, Galego) bnc (Ingles, Galego) reuters (Ingles, Galego_C) nyt (Ingles, Galego) not amb (Ingles_C, Galego) not amb
Dicionários fonte Transitividade Corpus comparáveis (Ingles, Galego) not noisy número de entradas OpenTrad + Collins 25, 790 Correspondências validadas 4, 248 Correspondências não ambíguas 7, 816 Dicionário sem ruido final 12, 064 (47 %) Disponível em: http://gramatica.usc.es/~gamallo/dicosfromcomparable.htm
Dicionários fonte Transitividade Corpus comparáveis (Ingles, Galego) not noisy número de entradas OpenTrad + Collins 25, 790 Correspondências validadas 4, 248 Correspondências não ambíguas 7, 816 Dicionário sem ruido final 12, 064 (47 %) Disponível em: http://gramatica.usc.es/~gamallo/dicosfromcomparable.htm
Tradução automática Dicionários fonte Transitividade Corpus comparáveis sistema OpenTrad (GPL) Primeira versão do par inglês-galego Colaboração com a empresa Imaxin Software (Santiago de Compostela, Galiza)
e trabalho futuro Conclusão Método lexicográfico totalmente automático Útil para línguas com escasos recursos. Trabalho futuro mais cobertura com mais corpus comparável mais dicionários: Francês-Galego, Português-Inglês terminologias bilingues com multipalavras
e trabalho futuro Conclusão Método lexicográfico totalmente automático Útil para línguas com escasos recursos. Trabalho futuro mais cobertura com mais corpus comparável mais dicionários: Francês-Galego, Português-Inglês terminologias bilingues com multipalavras
Obrigado e gracinhas!! http://gramatica.usc.es/~gamallo/ http://gramatica.usc.es/pln/