Novo dicionário de formas flexionadas do Unitex-PB: Avaliação da flexão verbal

Documentos relacionados
Processamento de Linguagem Natural (PLN)

III SEMINÁRIO EM PROL DA EDUCAÇÃO INCLUSIVA Desafios Educacionais

Ana Margarida de Almeida Borges CURRICULUM VITAE

Professora Verônica Ferreira

Vantagens da integração de dicionários de palavras compostas em sistemas de PLN

GEOMETRIA VIRTUAL: UMA PROPOSTA DE ENSINO PARA OS ANOS INICIAIS

Ano Grau académico Instituição Classificação. Faculdade de Letras de Coimbra. Faculdade de Letras do Porto

PLANIFICAÇÃO ANUAL 2015/2016 PORTUGUÊS - 4ºANO

ROTEIRO DE RECUPERAÇÃO 2015

Gestão de Ginásios e Centros de Lazer

Biblioteca Escolar. O Dicionário

Capítulo I DAS DISPOSIÇÕES GERAIS

Bilinguismo, aprendizagem do Português L2 e sucesso educativo na Escola Portuguesa

Introdução à Ciência da Computação

PLANIFICAÇÃO ANUAL 2015/2016 PORTUGUÊS - 3ºANO

DISCIPLINA DE LÍNGUA PORTUGUESA

TÉCNICAS DE PROGRAMAÇÃO

I SEMINÁRIO INTERDISCIPLINAR DAS CIÊNCIAS DA LINGUAGEM NO CARIRI DE 21 a 23 DE NOVEMBRO DE ISSN

Prof. Volney Ribeiro

O Desempenho Comparado das Telecomunicações do Brasil Preços dos Serviços de Telecomunicações Utilização de Banda Larga Fixa

Professora: Lícia Souza

Informação - Prova de Equivalência à Frequência

Curso Profissional 11º ano. Módulo III Lugares e Transportes

A INFORMÁTICA E O ENSINO DA MATEMÁTICA

INVESTIGANDO O ENSINO APRENDIZAGEM MEDIADO POR COMPUTADOR - UMA METODOLOGIA PARA REALIZAR PROTOCOLOS

CORRIGINDO UMA PROVA ESCRITA DE MATEMÁTICA: O QUE DETERMINA AS REGRAS DO JOGO?

Série 6 o ANO ROTEIRO DE ESTUDOS DE RECUPERAÇÃO E REVISÃO 3º BIMESTRE / 2011

Título (linha simples)

Plano Curricular de Português. 6ºano Ano Letivo 2015/2016

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

RESUMO. Autora: Juliana da Cruz Guilherme Coautor: Prof. Dr. Saulo Cesar Paulino e Silva COMUNICAÇÃO CIENTÍFICA

PROCESSO DE ADMISSÃO DE NOVOS ALUNOS PARA 2016

UNIVERSIDADE POSITIVO

PROGRAMAÇÃO PARA DISPOSITIVOS MÓVEIS

O O léxico de crianças em idade pré-escolar

CRITÉRIOS ESPECÍFICOS DE AVALIAÇÃO 3º ANO (1º CICLO) PORTUGUÊS

INSTITUTO INTERAMERICANO DE COOPERAÇÃO PARA A AGRICULTURA. TERMO DE REFERÊNCIA CONS GEO Vaga

Capítulo 2. Processos de Software Pearson Prentice Hall. Todos os direitos reservados. slide 1

Plano de Trabalho Docente Ensino Técnico

perspectivas e abordagens típicas de campos de investigação (Senra & Camargo, 2010).

Novo Acordo Ortográfico emferramentas TIC em uso na U.PORTO

Praça João Nery de Santana, 197 Centro Oliveira dos Brejinhos Bahia

Planificação anual Ano letivo: 2015/2016

Professor: Gustavo Lambert. Módulo de Português

Cronograma Mensalidades Período de Inscrições. Documentação necessária para candidatura

ÍNDICE GERAL. INTRODUÇÃO Capítulo 1

Título: OS PRONOMES RELATIVOS COMO MARCADORES DE COESÃO. Palavras-chave: pronomes relativos, coesão textual; referências textuais, regências RESUMO

LIVRO ENGENHARIA DE SOFTWARE FUNDAMENTOS, MÉTODOS E PADRÕES CAPÍTULO ATIVIDADES, PAG. 138 A 150

Gestão da Qualidade NP EN ISO 9001:2008

Auditoria como ferramenta de gestão de fornecedores durante o desenvolvimento de produtos

Gramática do Português, Maria Fernanda Bacelar do Nascimento (Centro de Linguística da Universidade de Lisboa)

Trabalhos Extracurriculares. grids.web.ua.pt. GRIDS Trabalhos extracurriculares e Áreas temáticas 2015/2016 1

Pré-maratona de. Prof. Igor Barca

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO

UTILIZAÇÃO DA PLATAFORMA MOODLE PARA O ENSINO DE MATRIZES E DETERMINANTES

Uma Aplicação da Metodologia Seis Sigma em um Processo Industrial

3 Pressupostos Teóricos

Colégio Policial Militar Feliciano Nunes Pires

Diagramas de Casos de Uso

Prova de Português Comentada NCE

EMENTAS DAS DISCIPLINAS

Carta do editor. Linguagem & Ensino, Vol. 7, No.2, 2004 (11-16) LARVAS OU BORBOLETAS?

PROCEDIMENTO PADRÃO. Status: Aprovado CONTROLE DE PRODUTO NÃO CONFORME

CALENDÁRIO DE AVALIAÇÕES BIMESTRAIS 3º BIM / 6º ano (601) DATA DISCIPLINA CONTEÚDOS

PROGRAMA DE ACÇÃO COMUNITÁRIO RELATIVO À VIGILÂNCIA DA SAÚDE. PROGRAMA DE TRABALHO PARA 2000 (Nº 2, alínea b), do artigo 5º da Decisão nº 1400/97/CE)

Prova Prática de Geometria Descritiva

O princípio multiplicativo

CNPJ: /

CONTEÚDO E HORÁRIO DAS AVALIAÇÕES Nº 1 4º BIMESTRE/2015

PLANEJAMENTO ANUAL DE LÍNGUA PORTUGUESA

RESUMO. Margarida Correia Marques. Cristina Sá. Sara Capela. Cristina Russo

Contexto. Rosana Jorge Monteiro Magni

RELATÓRIO. Participantes

ESTADO DE GOIÁS CÂMARA MUNICIPAL DE NOVA CRIXÁS-GO CNPJ: / Renovação,Trabalho e Ética A N E XO III PROGRAMA DE CONCURSO Nº 001/2014:

Sistemas de Numeração

FMEA (Failure Model and Effect Analysis)

PROVA TEMÁTICA/2014 Conhecimento e Expressão nas Artes e nas Ciências

REGULAMENTO DE PROJETOS INTERDISCIPLINARES Curso de Letras Tradutor e Intérprete Bacharelado Currículo: LTI 00001

As informações apresentadas neste documento não dispensam a consulta da legislação referida e do Programa da disciplina.

Política de Gestão de Riscos Tese Investimentos. Junho/2016

DESCRIÇÃO DO SERVIÇO

Auditoria nos termos do Regulamento da Qualidade de Serviço Relatório resumo EDP Serviço Universal, S.A.

ATIVIDADES PRÁTICAS SUPERVISIONADAS

UNIVERSIDADE POSITIVO (UP)

Reforma ortográfica.

ESCOLA SEC/3ºCICLO JOÃO GONÇALVES ZARCO PLANIFICAÇÃO ANUAL DE PORTUGUÊS 8º ANO

COLÉGIO SANTA MARCELINA INFORMATIVO DO 2º TRIMESTRE ENSINO FUNDAMENTAL I 5º ANO

Plano de Trabalho Docente Ensino Médio. Habilitação Profissional: Técnico em Informática para internet Integrado ao Ensino Médio

VALIDAÇÃO DE HIPÓTESES

Português. Índice de aulas. Tipologias textuais

Erros mais freqüentes

Regulação dos sistemas de saúde: segurança do paciente? Panorama mundial.

O ENSINO DE CÁLCULO NUMÉRICO: UMA EXPERIÊNCIA COM ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO

ENSINO E APRENDIZAGEM DE CIÊNCIAS BIOLÓGICAS, COM A UTILIZAÇÃO DE JOGOS DIDÁTICOS: RELATO DE EXPERIÊNCIA.

A classificação do teste deve respeitar integralmente os critérios gerais e os critérios específicos a seguir apresentados.

A Comunicação Estratégica. no âmbito da Mudança Organizacional

Transcrição:

Novo dicionário de formas flexionadas do Unitex-PB: Avaliação da flexão verbal Oto Araujo Vale Jorge Baptista otovale@ufscar.br jbaptist@ualg.pt

Plano Unitex Unitex-PB Adaptação à nova ortografia: revisão dos grafos de flexão nominal Criação dos grafos de flexão verbal Avaliação da flexão verbal 2

Unitex Plataforma OpenSource (Paumier, 2003; 2015) desenvolvimento de recursos linguísticos processador de corpus tecnologia de estados finitos utilização sistemática de recursos como dicionários e gramáticas locais http://www.unitexgramlab.org 3

Unitex Versão 3.1 (por enquanto Beta em 2015): Recursos em 22 línguas: alemão, árabe, coreano, espanhol, finlandês, francês, georgiano antigo, grego antigo, grego moderno, inglês, italiano, latim, malgache, norueguês bokmal, norueguês nynorsk, polonês, português europeu, português do Brasil, russo, sérvio (alfabeto cirílico e alfabeto latino) e tailandês http://www.unitexgramlab.org 4

Unitex Versão 3.1 (por enquanto Beta em 2015): Recursos em 22 línguas: alemão, árabe, coreano, espanhol, finlandês, francês, georgiano antigo, grego antigo, grego moderno, inglês, italiano, latim, malgache, norueguês bokmal, norueguês nynorsk, polonês, português europeu, português do Brasil, russo, sérvio (alfabeto cirílico e alfabeto latino) e tailandês http://www.unitexgramlab.org 5

Unitex Versão 3.1 (por enquanto Beta em 2015): francês português do Brasil Disponibilidade dos dicionários completos e da totalidade dos modelos de flexão http://www.unitexgramlab.org 6

Unitex-PB (2004) Recursos do português do Brasil Desenvolvido por Muniz et al (2005) a partir: dos dicionários do projeto ReGra (Nunes et al 1999) para os substantivos, adjetivos e advérbios; do dicionário de conjugação verbal de Vale (1990) para os verbos, que seguia a metodologia de Courtois (1990); http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/ 7

Unitex-PB (2004) Formas simples (lemas): DELAS_PB (61.335 entradas) Formas simples flexionadas: DELAF_PB (878.095 entradas) Formas compostas: DELACF_PB (~4.000 entradas) http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/ 8

Unitex-PB (2004) 392 modelos de flexão nominal 242 modelos de flexão adjetival 107 modelos de conjugação verbal http://www.nilc.icmc.usp.br/nilc/projects/unitex-pb/web/ 9

Acordo Ortográfico de 1990 Implementado a partir de 2009 Simplificação e unificação da ortografia 10

Atualização do dicionário Principais passos (Calcia et al, 2014) Adequação dos grafos de flexão nominal e adjetival Verificação das listas de entradas do DELAS-PB e DELAF-PB Construção dos grafos de conjugação verbal 11

Atualização do dicionário Comparação automática com listas de alguns softwares proprietários das 880.000 formas, 1.287 foram modificadas introdução de 7.900 novas entradas 12

Atualização dos grafos Flexão nominal: 10 grafos modificados Flexão adjetival: 6 grafos modificados 13

Grafos de conjugação verbal Muniz (2004) havia adaptado diretamente os modelos de conjugação verbal de Vale (2009) sem passar pelos grafos Vale (2009) não levava em conta as formas com ênclise e mesóclise. 14

15

16

Grafos de conjugação verbal As formas enclíticas e mesoclíticas pertencem ao domínio da morfologia ou da sintaxe? Escolha: considerar cada forma enclítica ou mesoclítica como uma entrada do dicionário de formas flexionadas 17

18

19

20

21

22

23

24

DELAF-PB (2015) Explosão do número de formas verbais: 10.954.724 formas (7.632.498 formas diferentes) 10.772.850 formas verbais (7.477.680 formas diferentes).bin ocupa 778 KB 25

Avaliação Utilizou-se o conjunto de recursos produzidos para as Primeiras Morfolimpíadas para o Português (Santos, 2003): Lista Dourada Avaliação da flexão verbal: Referência: 510 linhas da Lista Dourada estavam anotadas como verbos http://www.linguateca.pt/aval_conjunta/morfolimpiadas/listadourada.txt 26

Avaliação Procedimentos: Conversão do formato da Lista Dourada para o formato DELA Apoiemos V apoiar PR_C P 1.... => apoiemos,apoiar.v:s1p Adequação dos códigos de tempo e modo verbais e dos clíticos V+CL => V+PRO http://www.linguateca.pt/aval_conjunta/morfolimpiadas/listadourada.txt 27

Avaliação Procedimentos: Conversão do formato da Lista Dourada para o formato DELA Apoiemos V apoiar PR_C P 1.... => apoiemos,apoiar.v:s1p Adequação dos códigos de tempo e modo verbais e dos clíticos V+CL => V+PRO http://www.linguateca.pt/aval_conjunta/morfolimpiadas/listadourada.txt 28

Avaliação Procedimentos: Conversão do formato da Lista Dourada para o formato DELA Apoiemos V apoiar PR_C P 1.... => apoiemos,apoiar.v:s1p Adequação dos códigos de tempo e modo verbais e dos clíticos V+CL => V+PRO http://www.linguateca.pt/aval_conjunta/morfolimpiadas/listadourada.txt 29

Avaliação Procedimentos: Limpeza das formas marcadamente lusitanas registar conetar Limpeza dos códigos não pertinentes à tarefa raro lus afr http://www.linguateca.pt/aval_conjunta/morfolimpiadas/listadourada.txt 30

Avaliação Retirada das 56 formas derivadas, que não são passíveis de análise pelo DELAF-PB deriv pref Das 510 linhas obteve-se 296 formas a serem analisadas 31

Avaliação Da comparação obteve-se os seguintes resultados: Corretos : saída do dicionário igual à referência; Errados : saída do dicionário diferente da referência; Lacunas : a forma e a sua análise na Lista Dourada não estão na saída do dicionário; Espúrios : a forma e a sua análise são produzidas pelo dicionário mas não estão na referência. 32

Medidas standard da avaliação Precisão : total de formas corretamente analisadas: corretos / (corretos + errados + espúrios) Abrangência : total de formas corretamente analisadas de entre todas as formas analisadas na Lista Dourada: corretos / (corretos + lacunas) Acurácia: total de formas corretamente analisadas: corretos / (corretos + errados + lacunas) Medida F : média harmónica entre a Precisão e a Abrangência: 2 x Precisão x Abrangência / (Precisão + Abrangência) 33

Tabela 1. resultados da avaliação Linha A - Resultados em bruto Linha B - Resultados corrigidos a partir da retirada da lista de formas que não correspondem à ortografia brasileira após o acordo ortográfico e da consideração de alguns aspectos referentes à Nomenclatura Gramatical Brasileira 34

alguns erros resultam da incompletude la Lista Dourada iriar presar rer revir valar vivar pega,pegar.v:kfs pegas,pegar.v:kfp o DELAF-PB leva em conta apenas a grafia brasileira outros casos de espúrios devem-se a opções do DELAF-PB que diferem sistematicamente da Lista dourada como a particularidades da NGB, como a existência de imperativos de 3ª pessoa aceite,aceitar.v:y3s peçam,pedir.v:y3p 35

Tabela 2. Avaliação do desempenho do DELAF-PB na análise das formas verbais da Lista Dourada usando as medidas das Morfolimpíadas 36

Resultados O desempenho do DELAF-PB (2015) é bastante satisfatório em relação aos desafios propostos pelas Morfolimpíadas: A precisão está dentro dos parâmetros dos demais sistemas A cobertura ficou acima dos valores médios 37

Resultados Esta avaliação possibilitou perceber algumas lacunas e inconsistências na primeira versão do DELAF-PB 2015 p.ex.: introdução indevida do pronome reflexivo de terceira pessoa -se em formas de primeira e segunda pessoa a forma enclítica de alguns tempos impedia a geração de formas corretas em verbos regulares 38

Próximos passos Revisar e adequar os grafos de flexão nominal e adjetival Resolver o problema da etiquetagem dos clíticos Melhorar o dicionário de formas compostas 39

Referências 1 Calcia, N. P.; Kucinskas, A. B.; Muniz, M.; Nunes, M. G. V. ;Vale, O. A. Révision et adaptation des dictionnaires et graphes de flexion d Unitex-PB à la nouvelle orthographe du portugais. 3rd UNITEX/GramLab Workshop, Université de Tours. 3rd UNITEX/GramLab Workshop, Tours, 2014 Courtois, B. Un système de dictionnaires électroniques pour les mots simples du français. Langue Française, (87):11 22, 1990 Mamede, N.; Baptista, J.; Diniz, C. String - an hybrid statistical and rule-based natural language processing chain for portuguese. In Demos, P.., editor, PROPOR 2012, Coimbra, Portugal. PROPOR, 2012. Martins, R. T., Hasegawa, R., Nunes, M. G. V., G. Montilha, G., and Oliveira, O. N. Linguistic issues in the development of REGRA: a grammar checker for Brazilian Portuguese. Natural Language Engineering, 4(4):287 307, 1998 Muniz, M. C.M., Nunes, M. G. V and Laporte, E. UNITEX-PB, a set of flexible language resources for Brazilian Portuguese. Workshop on Technology on Information and Human Language (TIL), p.2059-2068, São Leopoldo, Brazil, 2005 40

Referências 2 Nunes, M. G. V., F. M. C. Vieira, C. Zavaglia, C. R. C. Sossolote, & J. Hernandez (1996). A construção de um léxico de português do brasil: Lições aprendidas e perspectivas. In Anais do II Workshop de Processamento Computacional de Português Escrito e Falado (PROPOR 96), pp. 61 70. CEFET-PR, Curitiba, 1996 Paumier, S. (2003). De la reconnaissance de formes linguistiques à l analyse syntaxique. Thèse de doctorat, Université de Marne-la-Vallée, Paris. Paumier, S. (2015). Unitex 3.1 - User Manual. Université de Paris-Est/Marne-la-Vallée - Institut Gaspard Monge, Noisy-Champs. Ranchhod, E., Mota, C., and Baptista, J. A computational lexicon of Portuguese for automatic text parsing. In Proceedings of SIGLEX99: Standardizing Lexical Resources, 37th Annual Meeting of the ACL, pages 74 80. College Park, Maryland, USA, 1996 Santos, D. and Costa, L.. Morfolimpíadas - apresentaçãoo detalhada da metodologia e dos problemas identificados. In AvalON 2003, Faro. Linguateca/Universidade do Algarve, 2003 Vale, O.V. Dictionnaire électronique des conjugaisons des verbes du portugais du Brésil. Rapport Technique du LADL n 27, Paris : Université Paris 7. 1990. 41