Novo dicionário de formas flexionadas do Unitex-PB: Avaliação da flexão verbal Oto Araujo Vale Jorge Baptista otovale@ufscar.br jbaptist@ualg.pt
Plano Unitex Unitex-PB Adaptação à nova ortografia: revisão dos grafos de flexão nominal Criação dos grafos de flexão verbal Avaliação da flexão verbal 2
Unitex Plataforma OpenSource (Paumier, 2003; 2015) desenvolvimento de recursos linguísticos processador de corpus tecnologia de estados finitos utilização sistemática de recursos como dicionários e gramáticas locais http://www.unitexgramlab.org 3
Unitex Versão 3.1 (por enquanto Beta em 2015): Recursos em 22 línguas: alemão, árabe, coreano, espanhol, finlandês, francês, georgiano antigo, grego antigo, grego moderno, inglês, italiano, latim, malgache, norueguês bokmal, norueguês nynorsk, polonês, português europeu, português do Brasil, russo, sérvio (alfabeto cirílico e alfabeto latino) e tailandês http://www.unitexgramlab.org 4
Unitex Versão 3.1 (por enquanto Beta em 2015): Recursos em 22 línguas: alemão, árabe, coreano, espanhol, finlandês, francês, georgiano antigo, grego antigo, grego moderno, inglês, italiano, latim, malgache, norueguês bokmal, norueguês nynorsk, polonês, português europeu, português do Brasil, russo, sérvio (alfabeto cirílico e alfabeto latino) e tailandês http://www.unitexgramlab.org 5
Unitex Versão 3.1 (por enquanto Beta em 2015): francês português do Brasil Disponibilidade dos dicionários completos e da totalidade dos modelos de flexão http://www.unitexgramlab.org 6
Unitex-PB (2004) Recursos do português do Brasil Desenvolvido por Muniz et al (2005) a partir: dos dicionários do projeto ReGra (Nunes et al 1999) para os substantivos, adjetivos e advérbios; do dicionário de conjugação verbal de Vale (1990) para os verbos, que seguia a metodologia de Courtois (1990); http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/ 7
Unitex-PB (2004) Formas simples (lemas): DELAS_PB (61.335 entradas) Formas simples flexionadas: DELAF_PB (878.095 entradas) Formas compostas: DELACF_PB (~4.000 entradas) http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/ 8
Unitex-PB (2004) 392 modelos de flexão nominal 242 modelos de flexão adjetival 107 modelos de conjugação verbal http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/ 9
Acordo Ortográfico de 1990 Implementado a partir de 2009 Simplificação e unificação da ortografia 10
Atualização do dicionário Principais passos (Calcia et al, 2014) Adequação dos grafos de flexão nominal e adjetival Verificação das listas de entradas do DELAS-PB e DELAF-PB Construção dos grafos de conjugação verbal 11
Atualização do dicionário Comparação automática com listas de alguns softwares proprietários das 880.000 formas, 1.287 foram modificadas introdução de 7.900 novas entradas 12
Atualização dos grafos Flexão nominal: 10 grafos modificados Flexão adjetival: 6 grafos modificados 13
Grafos de conjugação verbal Muniz (2004) havia adaptado diretamente os modelos de conjugação verbal de Vale (2009) sem passar pelos grafos Vale (2009) não levava em conta as formas com ênclise e mesóclise. 14
15
16
Grafos de conjugação verbal As formas enclíticas e mesoclíticas pertencem ao domínio da morfologia ou da sintaxe? Escolha: considerar cada forma enclítica ou mesoclítica como uma entrada do dicionário de formas flexionadas 17
18
19
20
21
22
23
24
DELAF-PB (2015) Explosão do número de formas verbais: 10.954.724 formas (7.632.498 formas diferentes) 10.772.850 formas verbais (7.477.680 formas diferentes).bin ocupa 778 KB 25
Avaliação Utilizou-se o conjunto de recursos produzidos para as Primeiras Morfolimpíadas para o Português (Santos, 2003): Lista Dourada Avaliação da flexão verbal: Referência: 510 linhas da Lista Dourada estavam anotadas como verbos http://www.linguateca.pt/aval_conjunta/morfolimpiadas/listadourada.txt 26
Avaliação Procedimentos: Conversão do formato da Lista Dourada para o formato DELA Apoiemos V apoiar PR_C P 1.... => apoiemos,apoiar.v:s1p Adequação dos códigos de tempo e modo verbais e dos clíticos V+CL => V+PRO http://www.linguateca.pt/aval_conjunta/morfolimpiadas/listadourada.txt 27
Avaliação Procedimentos: Conversão do formato da Lista Dourada para o formato DELA Apoiemos V apoiar PR_C P 1.... => apoiemos,apoiar.v:s1p Adequação dos códigos de tempo e modo verbais e dos clíticos V+CL => V+PRO http://www.linguateca.pt/aval_conjunta/morfolimpiadas/listadourada.txt 28
Avaliação Procedimentos: Conversão do formato da Lista Dourada para o formato DELA Apoiemos V apoiar PR_C P 1.... => apoiemos,apoiar.v:s1p Adequação dos códigos de tempo e modo verbais e dos clíticos V+CL => V+PRO http://www.linguateca.pt/aval_conjunta/morfolimpiadas/listadourada.txt 29
Avaliação Procedimentos: Limpeza das formas marcadamente lusitanas registar conetar Limpeza dos códigos não pertinentes à tarefa raro lus afr http://www.linguateca.pt/aval_conjunta/morfolimpiadas/listadourada.txt 30
Avaliação Retirada das 56 formas derivadas, que não são passíveis de análise pelo DELAF-PB deriv pref Das 510 linhas obteve-se 296 formas a serem analisadas 31
Avaliação Da comparação obteve-se os seguintes resultados: Corretos : saída do dicionário igual à referência; Errados : saída do dicionário diferente da referência; Lacunas : a forma e a sua análise na Lista Dourada não estão na saída do dicionário; Espúrios : a forma e a sua análise são produzidas pelo dicionário mas não estão na referência. 32
Medidas standard da avaliação Precisão : total de formas corretamente analisadas: corretos / (corretos + errados + espúrios) Abrangência : total de formas corretamente analisadas de entre todas as formas analisadas na Lista Dourada: corretos / (corretos + lacunas) Acurácia: total de formas corretamente analisadas: corretos / (corretos + errados + lacunas) Medida F : média harmónica entre a Precisão e a Abrangência: 2 x Precisão x Abrangência / (Precisão + Abrangência) 33
Tabela 1. resultados da avaliação Linha A - Resultados em bruto Linha B - Resultados corrigidos a partir da retirada da lista de formas que não correspondem à ortografia brasileira após o acordo ortográfico e da consideração de alguns aspectos referentes à Nomenclatura Gramatical Brasileira 34
alguns erros resultam da incompletude la Lista Dourada iriar presar rer revir valar vivar pega,pegar.v:kfs pegas,pegar.v:kfp o DELAF-PB leva em conta apenas a grafia brasileira outros casos de espúrios devem-se a opções do DELAF-PB que diferem sistematicamente da Lista dourada como a particularidades da NGB, como a existência de imperativos de 3ª pessoa aceite,aceitar.v:y3s peçam,pedir.v:y3p 35
Tabela 2. Avaliação do desempenho do DELAF-PB na análise das formas verbais da Lista Dourada usando as medidas das Morfolimpíadas 36
Resultados O desempenho do DELAF-PB (2015) é bastante satisfatório em relação aos desafios propostos pelas Morfolimpíadas: A precisão está dentro dos parâmetros dos demais sistemas A cobertura ficou acima dos valores médios 37
Resultados Esta avaliação possibilitou perceber algumas lacunas e inconsistências na primeira versão do DELAF-PB 2015 p.ex.: introdução indevida do pronome reflexivo de terceira pessoa -se em formas de primeira e segunda pessoa a forma enclítica de alguns tempos impedia a geração de formas corretas em verbos regulares 38
Próximos passos Revisar e adequar os grafos de flexão nominal e adjetival Resolver o problema da etiquetagem dos clíticos Melhorar o dicionário de formas compostas 39
Referências 1 Calcia, N. P.; Kucinskas, A. B.; Muniz, M.; Nunes, M. G. V. ;Vale, O. A. Révision et adaptation des dictionnaires et graphes de flexion d Unitex-PB à la nouvelle orthographe du portugais. 3rd UNITEX/GramLab Workshop, Université de Tours. 3rd UNITEX/GramLab Workshop, Tours, 2014 Courtois, B. Un système de dictionnaires électroniques pour les mots simples du français. Langue Française, (87):11 22, 1990 Mamede, N.; Baptista, J.; Diniz, C. String - an hybrid statistical and rule-based natural language processing chain for portuguese. In Demos, P.., editor, PROPOR 2012, Coimbra, Portugal. PROPOR, 2012. Martins, R. T., Hasegawa, R., Nunes, M. G. V., G. Montilha, G., and Oliveira, O. N. Linguistic issues in the development of REGRA: a grammar checker for Brazilian Portuguese. Natural Language Engineering, 4(4):287 307, 1998 Muniz, M. C.M., Nunes, M. G. V and Laporte, E. UNITEX-PB, a set of flexible language resources for Brazilian Portuguese. Workshop on Technology on Information and Human Language (TIL), p.2059-2068, São Leopoldo, Brazil, 2005 40
Referências 2 Nunes, M. G. V., F. M. C. Vieira, C. Zavaglia, C. R. C. Sossolote, & J. Hernandez (1996). A construção de um léxico de português do brasil: Lições aprendidas e perspectivas. In Anais do II Workshop de Processamento Computacional de Português Escrito e Falado (PROPOR 96), pp. 61 70. CEFET-PR, Curitiba, 1996 Paumier, S. (2003). De la reconnaissance de formes linguistiques à l analyse syntaxique. Thèse de doctorat, Université de Marne-la-Vallée, Paris. Paumier, S. (2015). Unitex 3.1 - User Manual. Université de Paris-Est/Marne-la-Vallée - Institut Gaspard Monge, Noisy-Champs. Ranchhod, E., Mota, C., and Baptista, J. A computational lexicon of Portuguese for automatic text parsing. In Proceedings of SIGLEX99: Standardizing Lexical Resources, 37th Annual Meeting of the ACL, pages 74 80. College Park, Maryland, USA, 1996 Santos, D. and Costa, L.. Morfolimpíadas - apresentaçãoo detalhada da metodologia e dos problemas identificados. In AvalON 2003, Faro. Linguateca/Universidade do Algarve, 2003 Vale, O.V. Dictionnaire électronique des conjugaisons des verbes du portugais du Brésil. Rapport Technique du LADL n 27, Paris : Université Paris 7. 1990. 41