Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação Problemas na classificação de um texto A classificação de textos quanto ao seu nível de inteligibilidade é uma tarefa importante utilizada para apresentar textos de dificuldade apropriada a um determinado aluno. A correta classificação (manual) de um texto é um processo demorado. Segundo o Quadro de Referência para o Ensino Português no Estrangeiro (QuaREPE) (Grosso et al., 2011) publicado pelo Ministério da Educação e Ciência, considera-se que o grau de proficiência numa língua estrangeira pode ser determinado numa escala de cinco níveis: - A1: iniciação; - A2: elementar; - B1: intermédio; - B2: vantagem; - C1: avançado. Principais problemas na classificação de um texto quanto ao seu nível de inteligibilidade: Quais as características linguísticas relevantes? Como combinar as características linguísticas extraídas? Comprimento médio das frases (A) Comprimento médio de silabas por palavras (B) Fórmula de Flesch Reading Ease (Flesch, 1948): Inteligibilidade = 206.835 (1.015 x A) (84.6 x B) 3 4 Algoritmos(1/4) Conclusões, Contribuições e Trabalho futuro As primeiras abordagens baseiam-se em características simples dos documentos, nomeadamente: Comprimento médio de frases; Número médio de sílabas por palavras; Número de palavras polissilábicas. Fórmula de Flesch Reading Ease (Flesch, 1948): Inteligibilidade = 206.835 (1.015 x A) (84.6 x B) A: Comprimento médio das frases B: Comprimento médio de silabas por palavras 5 6
Algoritmos(2/4) Algoritmos(3/4) Posteriormente teve-se em conta o vocabulário utilizado, quando algumas abordagens utilizaram listas de palavras pré-determinadas para medir a inteligibilidade de um texto. Recentemente, explorou-se a utilização de modelos de língua. Fórmula de Dale-Chall (Dale & Chall, 1948): Inteligibilidade = 0.1579 x A 0.0496 x B A: Percentagem de palavras difíceis B: Comprimento médio das frases Colins-Thompson & Callan (Thompson & Callan, 2004): T: Passagem de texto em análise C(w): Contagem da palavra w Gi: Nível do modelo de língua (i [1,12]) 7 8 Algoritmos(4/4) Sistemas Estudos posteriores demonstraram que a combinação de informação proveniente dos modelos de língua com outras características linguísticas utilizando máquinas de vetor de suporte (SVMs) produz melhores resultados na classificação de textos. Pitler and Nenkova (Pitler & Nenkova, 2008): Vocabulário: modelos de língua baseado em unigramas; Número médio de sintagmas verbais por frase; Comprimento do texto. REAP.PT (Marujo et al., 2009; Pellegrini et al., 2012): sistema de apoio à aprendizagem de vocabulário. Parâmetros : Frequência de palavras (modelo de língua baseado em unigramas) LX-CEFR (Branco et al., 2014): sistema para análise quantitativa de diversas métricas linguísticas de forma a ajudar a classificação de excertos de textos. Parâmetros: Fórmula de Flesch Reading Ease; Frequência de nomes; Número médio de sílabas por palavras; Número médio de palavras por frase. 9 10 Arquitetura(1/3) Conclusões / Contribuições / Trabalho futuro 11 12
Arquitetura(2/3) Arquitetura(3/3) O conjunto de parâmetros extraídos pelo módulo de análise de textos está organizado nos seguintes grupos de informação: Diferentes classificadores desenvolvidos 1. Categorias morfossintáticas; 2. Sintagmas; 3. Métricas relativas a palavras e frases; 4. Métricas relacionadas com verbos; 5. Métricas que envolvem médias e frequências; 6. Métricas relativas a sílabas; 7. Métricas adicionais. Algoritmos de aprendizagem da Weka testados 13 14 Corpus: Instituto Camões Corpus: Instituto Camões Reclassificação (1/4) O corpus disponibilizado pelo Instituto de Camões é constituído por 237 textos previamente classificados quanto ao seu nível de inteligibilidade segundo o QuaREPE. Distribuição do corpus Os 237 textos do corpus do Instituto Camões foram divididos em dois grupos, sendo removido o nível de inteligibilidade originalmente atribuído a cada texto. Ao todo, participaram treze professores de línguas especialistas treinados na seleção e classificação de textos. Distribuição dos textos por grupos 15 16 Corpus: Instituto Camões - Reclassificação (2/4) Número de textos atribuídos a cada nível de inteligibilidade por cada anotador Corpus: Instituto Camões - Reclassificação (3/4) Concordância inter-anotador na remoção de 1 ou 2 anotadores Grupo 1 (0,188) Grupo 2 (0,164) Concordância Grupo 1 Grupo 2 7 anotadores 1 textos (0,8%) 2 textos (1,7%) 6 anotadores 14 textos (11,9%) 9 textos (7,6%) 4 anotadores 73 textos (61,9%) 81 textos (68,1%) 17 18
Corpus: Instituto Camões - Reclassificação (4/4) Corpus: Porto Editora Através dos resultados da reclassificação manual e dos textos do corpus do Instituto Camões, criamos um novo corpus. Corpus constituído por 47 livros escolares disponibilizados pela Porto Editora. Distribuição do corpus proveniente dos livros ecolares da Porto Editora Distribuição do corpus 19 20 Corpus: Exames nacionais Avaliação (1/6) Corpus constituído por 18 exames nacionais. Resultado da avaliação do módulo de análise para cada grupo de parâmetros extraídos Distribuição do corpus proveniente dos exames nacionais 21 22 Avaliação (2/6) Avaliação (3/6) Resultado do desempenho do módulo de análise de acordo com texto de diferentes tamanhos Escala de cinco níveis Contribuição dos parâmetros Escala de três níveis 23 24
Avaliação (4/6) Avaliação (5/6) Número de palavras diferentes Comprimento das cadeias verbais Classificador de inteligibilidade numa escala de 5 níveis (A1, A2, B1, B2 e C1) Algoritmo com melhores resultados: LogitBoost 25 26 Avaliação (6/6) Classificador de inteligibilidade numa escala de 3 níveis (A, B e C) Algoritmo com melhores resultados: J48 grafed (open source do algoritmo C4.5) (a) (b) (c) Conclusões, Contribuições e Trabalho futuro 27 28 Conclusões Contribuições Este trabalho apresenta: 1. Estudo sobre a dificuldade da tarefa de anotação de textos segundo a escala de cinco níveis de proficiência do português como segunda língua (QuaREPE) 2. Sistema para extrair diversas características linguísticas de textos 3. Desenvolvimento de seis classificadores automáticos para textos escritos em português europeu: Classificação de inteligibilidade baseada em 52 parâmetros, organizados em 7 grupos Os dois melhores classificadores desenvolvidos alcançaram bons resultados: Maioria dos erros têm uma distância de um nível de inteligibilidade do nível esperado Classificador de cinco níveis:» Exatidão de 75.11%» Exatidão adjacente de 91,98% Classificador de três níveis:» Exatidão de 81.44% Corpus anotado por treze profissionais de línguas quanto ao seu nível de inteligibilidade Comprovou-se a complexidade da tarefa de anotação de textos, quanto ao seu nível de inteligibilidade, e a baixa concordância entre profissionais de línguas Sistema de extração automática de características linguísticas de textos escritos em português europeu Análise das características linguísticas que mais contribuíram para distinguir textos de diferentes níveis de proficiência do português Sistemas de classificação automática de textos escritos em português Criação de uma interface web que disponibiliza os sistemas desenvolvidos para um público alargado 29 30
Trabalho futuro Exemplo de utilização dos sistemas Adicionar características linguísticas que possam melhorar os resultados dos classificadores automáticos de inteligibilidade Explorar técnicas de aprendizagem não supervisionada Extensão das capacidades da interface Backup 31 32 Bibliography Bibliography [1] Grosso, M. J., Soares, A., Sousa, F. de, & Pascoal, J. (2011a). QuaREPE - Quadro de Referência para o Ensino de Português no Estrangeiro. Documento Orientador. Lisboa: Ministério da Educação e Ciência/Direção Geral de Inovação e Desenvolvimento Curricular, http://www.dgidc.min-edu.pt/outrosprojetos/data/outrosprojectos/portugues/ Documentos/manual_quarepe_orientador_versao_final_janeiro_2012.pdf. [2] Flesch, R. (1948). A new readability yardstick. Journal of Applied Psychology, 32(3), 221 233. [3] Dale, E., & Chall, J. S. (1948). A formula for predicting readability. Educational research bulletin, 11 28. [4] Collins-Thompson, K., & Callan, J. (2004). Information Retrieval for Language Tutoring: An Overview of the REAP Project. In Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 04) (pp. 544 545). New York, NY, USA: ACM. [5] Pitler, E., & Nenkova, A. (2008). Revisiting readability: a unified framework for predicting text quality. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 08) (pp. 186 195). Stroudsburg, PA, USA: Association for Computational Linguistics. [6] Marujo, L. (2009). REAP.PT. Unpublishedmaster s dissertation, Instituto Superior Técnico Universidade Técnica de Lisboa, Lisboa. [7] Pellegrini, T., Ling, W., Silva, A., Correia, R., Trancoso, I., Baptista, J., & Mamede, N. (2012). Overview of Computer-assisted Language Learning for European Portuguese at L2F. In Proceedings of the 4 th International Conference on Computer Supported Education - CSEDU (pp. 538 543). Porto, Portugal. [8] Branco, A., Rodrigues, J., Costa, F., Silva, J., & Vaz, R. (2014). Rolling out Text Categorization for Language Learning Assessment Supported by Language Technology. In Proceedings of the 11th international Conference on Computational Processing of Portuguese (PROPOR 14) (Vol. 8775). São Carlos, Brazil. 33 34 technology L 2 F - Spoken Language Systems Laboratory 35