Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Documentos relacionados
Mineração de Textos na Web

Análise de sentimentos para português brasileiro usando redes neurais recursivas

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

Legibilidade de Artigos Científicos: Análise de Dados da RCC

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V.

Extração de Alvos em Comentários de Notícias em Português baseada na Teoria da Centralização

6 Atributos. A dívida da empresa subiu.

DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY

Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal

Universidade Federal de Pernambuco

Descritores de Imagens

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta

SEMINÁRIO DOS ARTIGOS:

ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO

"Análise de Extratores de Característica para Reconhecimento de Face"

Pedro Larronda Asti. Anotador Morfossintático para o Português-Twitter. Dissertação de Mestrado

Sistema de Aquisição semi-automática de Ontologias

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo

Visual readability analysis: how to make your writings easier to read (2012) Oelke, Spretke, Stoffel, Keim

Extração e Representação Semântica de Fatos Temporais

Identificação de Autoria de Textos através do uso de Classes Linguísticas da Língua Portuguesa

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade

DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO. Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R.

Classificação de Sentença

Aprendizado de Máquina

Rivanilson da Silva Rodrigues*, Wilkerson de Lucena Andrade, Dalton Dario Serey Guerrero, Lívia Maria Rodrigues Sampaio Campos

Aula 2: Planejamento da RS

UBIBUSANALYSIS UMA FERRAMENTA DE INTERPRETAÇÃO DE

OntoLP: Engenharia de Ontologias em Língua Portuguesa

10º Congresso Interinstitucional de Iniciação Científica CIIC a 04 de agosto de 2016 Campinas, São Paulo ISBN


Estilos de aprendizagem e utilização de recursos digitais no ambiente colaborativo Sakai

Apoio ao estudo autónomo com questões parametrizadas em aulas invertidas

Caracterização de Imagens via Redes Neurais Artificiais

Uma avaliação de analisadores morfológicos do português

Integração de Dados em GIS. Charles Ferreira Gonçalves

Pensamento Computacional Desplugado: Ensino e Avaliação na Educação Primária da Espanha


Autor 1 Orientador: 1. dia de mês de ano

Deep Learning for Chinese Word Segmentation and POS Tagging

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

CURSO DE LITERACIA DA INFORMAÇÃO

Engenharia de Softaware para Realidade Virtual: Avaliação de Aprendizado em Ambientes 3D

Ficha de Registo de Tema e Orientador de Dissertação / Trabalho de Projecto

Avaliação de atividades de programação submetidas em MOOC com emprego de técnicas de visualização

Análise automática de aspectos relacionados à coerência semântica em resumos acadêmicos

NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases

Conteúdo da Apresentação

Sistema de recomendação de segundo nível para suporte à produção de matérias jornalísticas

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Seiji Isotani CURRICULUM VITAE

TRAINING AND DISCOVERING CORPUS-BASED DATA-DRIVEN EXERCISES IN ENGLISH TEACHING (L2/FL) TO NATIVE SPEAKERS OF PORTUGUESE (L1)

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

Aprendizagem de Máquina

Utilizando Features Linguísticas Genéricas para Classificação de Triplas Relacionais em Português

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO PROPOSTA DE TRABALHO DE CONCLUSÃO DE CURSO

Desenvolvimento de competências no Ensino Superior: a importância da avaliação formativa

A gamificação no desenho personalizado no ensino superior a distância: um caso na aprendizagem de uma língua estrangeira

Avaliação formativa e desenvolvimento de competências no Ensino Superior: um estudo no primeiro ciclo de Bolonha

MCZA Processamento de Linguagem Natural Modelando a linguagem com N-gramas

APLICANDO A INTEGRAÇÃO DE PORTAIS EDUCACIONAIS COM APLICAÇÕES MÓVEIS ATRAVÉS DA INFRAESTRUTURA SAAS-RD.

Europass Curriculum Vitae

Análise da capacidade de identificação de paráfrase em ferramentas de resolução de correferência

M O D E L O E U R O P E U D E

Perspectives of online educational supervision in the final course papers and other works

Extração de objetos de interesse em imagens digitais utilizando a biblioteca de Visão Computacional OpenCV

Características do jornalismo popular: inteligibilidade e auxílio à descrição do gênero

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

A pesquisa em EaD nos últimos dez anos: ameaças e oportunidades

AVALIAÇÃO DE COMPLEXIDADE TEXTUAL EM TEXTOS DE PEDIATRIA E TEXTOS LITERÁRIOS. Bianca Pasqualini. Doutoranda PPGLet/UFRGS

ESTRUTURA CURRICULAR ECTS ÁREA CIENTÍFICA OBRIGATÓRIOS OPCIONAIS

Color Eyes Detector. Duarte Petiz. DCC/FCUP

Experiências de Avaliação (alunos) online

Aprendizagem de Máquina

Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática

Etiquetação morfossintática de textos em português do Brasil no domínio do e-commerce

Um Método para Melhoria de Dados Estruturados de Imóveis

Uma Arquitetura de Tutor Inteligente que Provê Suporte ao Diálogo com o Aluno Iniciante em Linguagem de Programação

Pesquisa e Extração de Informação de Grupos de Discussão na Web

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web

Aprendizagem de Máquina

Avaliação de Desempenho de Sistemas Operacionais em dispositivos embarcados para a provisão de serviços em Internet das Coisas

Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de Graduação

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Classificação Hierárquica de Documentos Textuais Digitais usando o Algoritmo knn

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

Descoberta de conhecimento em redes sociais e bases de dados públicas

Uma ferramenta para anotação de relações semânticas entre termos

Plano de Trabalho Docente Ensino Técnico

A pesquisa no ensino de computação. Práticas de ensino de algoritmos (Hazzan, Cap. 4) Péricles Miranda

Plano de Trabalho Docente Ensino Técnico

AGRUPAMENTO DE ESCOLAS PADRE BARTOLOMEU DE GUSMÃO

PROCESSAMENTO DE TEXTO

Recuperação de Informação em Bases de Texto

Aprendizagem de Máquina

Aprender português à distância? Basta o telemóvel. Ou um celular

Transcrição:

Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação Problemas na classificação de um texto A classificação de textos quanto ao seu nível de inteligibilidade é uma tarefa importante utilizada para apresentar textos de dificuldade apropriada a um determinado aluno. A correta classificação (manual) de um texto é um processo demorado. Segundo o Quadro de Referência para o Ensino Português no Estrangeiro (QuaREPE) (Grosso et al., 2011) publicado pelo Ministério da Educação e Ciência, considera-se que o grau de proficiência numa língua estrangeira pode ser determinado numa escala de cinco níveis: - A1: iniciação; - A2: elementar; - B1: intermédio; - B2: vantagem; - C1: avançado. Principais problemas na classificação de um texto quanto ao seu nível de inteligibilidade: Quais as características linguísticas relevantes? Como combinar as características linguísticas extraídas? Comprimento médio das frases (A) Comprimento médio de silabas por palavras (B) Fórmula de Flesch Reading Ease (Flesch, 1948): Inteligibilidade = 206.835 (1.015 x A) (84.6 x B) 3 4 Algoritmos(1/4) Conclusões, Contribuições e Trabalho futuro As primeiras abordagens baseiam-se em características simples dos documentos, nomeadamente: Comprimento médio de frases; Número médio de sílabas por palavras; Número de palavras polissilábicas. Fórmula de Flesch Reading Ease (Flesch, 1948): Inteligibilidade = 206.835 (1.015 x A) (84.6 x B) A: Comprimento médio das frases B: Comprimento médio de silabas por palavras 5 6

Algoritmos(2/4) Algoritmos(3/4) Posteriormente teve-se em conta o vocabulário utilizado, quando algumas abordagens utilizaram listas de palavras pré-determinadas para medir a inteligibilidade de um texto. Recentemente, explorou-se a utilização de modelos de língua. Fórmula de Dale-Chall (Dale & Chall, 1948): Inteligibilidade = 0.1579 x A 0.0496 x B A: Percentagem de palavras difíceis B: Comprimento médio das frases Colins-Thompson & Callan (Thompson & Callan, 2004): T: Passagem de texto em análise C(w): Contagem da palavra w Gi: Nível do modelo de língua (i [1,12]) 7 8 Algoritmos(4/4) Sistemas Estudos posteriores demonstraram que a combinação de informação proveniente dos modelos de língua com outras características linguísticas utilizando máquinas de vetor de suporte (SVMs) produz melhores resultados na classificação de textos. Pitler and Nenkova (Pitler & Nenkova, 2008): Vocabulário: modelos de língua baseado em unigramas; Número médio de sintagmas verbais por frase; Comprimento do texto. REAP.PT (Marujo et al., 2009; Pellegrini et al., 2012): sistema de apoio à aprendizagem de vocabulário. Parâmetros : Frequência de palavras (modelo de língua baseado em unigramas) LX-CEFR (Branco et al., 2014): sistema para análise quantitativa de diversas métricas linguísticas de forma a ajudar a classificação de excertos de textos. Parâmetros: Fórmula de Flesch Reading Ease; Frequência de nomes; Número médio de sílabas por palavras; Número médio de palavras por frase. 9 10 Arquitetura(1/3) Conclusões / Contribuições / Trabalho futuro 11 12

Arquitetura(2/3) Arquitetura(3/3) O conjunto de parâmetros extraídos pelo módulo de análise de textos está organizado nos seguintes grupos de informação: Diferentes classificadores desenvolvidos 1. Categorias morfossintáticas; 2. Sintagmas; 3. Métricas relativas a palavras e frases; 4. Métricas relacionadas com verbos; 5. Métricas que envolvem médias e frequências; 6. Métricas relativas a sílabas; 7. Métricas adicionais. Algoritmos de aprendizagem da Weka testados 13 14 Corpus: Instituto Camões Corpus: Instituto Camões Reclassificação (1/4) O corpus disponibilizado pelo Instituto de Camões é constituído por 237 textos previamente classificados quanto ao seu nível de inteligibilidade segundo o QuaREPE. Distribuição do corpus Os 237 textos do corpus do Instituto Camões foram divididos em dois grupos, sendo removido o nível de inteligibilidade originalmente atribuído a cada texto. Ao todo, participaram treze professores de línguas especialistas treinados na seleção e classificação de textos. Distribuição dos textos por grupos 15 16 Corpus: Instituto Camões - Reclassificação (2/4) Número de textos atribuídos a cada nível de inteligibilidade por cada anotador Corpus: Instituto Camões - Reclassificação (3/4) Concordância inter-anotador na remoção de 1 ou 2 anotadores Grupo 1 (0,188) Grupo 2 (0,164) Concordância Grupo 1 Grupo 2 7 anotadores 1 textos (0,8%) 2 textos (1,7%) 6 anotadores 14 textos (11,9%) 9 textos (7,6%) 4 anotadores 73 textos (61,9%) 81 textos (68,1%) 17 18

Corpus: Instituto Camões - Reclassificação (4/4) Corpus: Porto Editora Através dos resultados da reclassificação manual e dos textos do corpus do Instituto Camões, criamos um novo corpus. Corpus constituído por 47 livros escolares disponibilizados pela Porto Editora. Distribuição do corpus proveniente dos livros ecolares da Porto Editora Distribuição do corpus 19 20 Corpus: Exames nacionais Avaliação (1/6) Corpus constituído por 18 exames nacionais. Resultado da avaliação do módulo de análise para cada grupo de parâmetros extraídos Distribuição do corpus proveniente dos exames nacionais 21 22 Avaliação (2/6) Avaliação (3/6) Resultado do desempenho do módulo de análise de acordo com texto de diferentes tamanhos Escala de cinco níveis Contribuição dos parâmetros Escala de três níveis 23 24

Avaliação (4/6) Avaliação (5/6) Número de palavras diferentes Comprimento das cadeias verbais Classificador de inteligibilidade numa escala de 5 níveis (A1, A2, B1, B2 e C1) Algoritmo com melhores resultados: LogitBoost 25 26 Avaliação (6/6) Classificador de inteligibilidade numa escala de 3 níveis (A, B e C) Algoritmo com melhores resultados: J48 grafed (open source do algoritmo C4.5) (a) (b) (c) Conclusões, Contribuições e Trabalho futuro 27 28 Conclusões Contribuições Este trabalho apresenta: 1. Estudo sobre a dificuldade da tarefa de anotação de textos segundo a escala de cinco níveis de proficiência do português como segunda língua (QuaREPE) 2. Sistema para extrair diversas características linguísticas de textos 3. Desenvolvimento de seis classificadores automáticos para textos escritos em português europeu: Classificação de inteligibilidade baseada em 52 parâmetros, organizados em 7 grupos Os dois melhores classificadores desenvolvidos alcançaram bons resultados: Maioria dos erros têm uma distância de um nível de inteligibilidade do nível esperado Classificador de cinco níveis:» Exatidão de 75.11%» Exatidão adjacente de 91,98% Classificador de três níveis:» Exatidão de 81.44% Corpus anotado por treze profissionais de línguas quanto ao seu nível de inteligibilidade Comprovou-se a complexidade da tarefa de anotação de textos, quanto ao seu nível de inteligibilidade, e a baixa concordância entre profissionais de línguas Sistema de extração automática de características linguísticas de textos escritos em português europeu Análise das características linguísticas que mais contribuíram para distinguir textos de diferentes níveis de proficiência do português Sistemas de classificação automática de textos escritos em português Criação de uma interface web que disponibiliza os sistemas desenvolvidos para um público alargado 29 30

Trabalho futuro Exemplo de utilização dos sistemas Adicionar características linguísticas que possam melhorar os resultados dos classificadores automáticos de inteligibilidade Explorar técnicas de aprendizagem não supervisionada Extensão das capacidades da interface Backup 31 32 Bibliography Bibliography [1] Grosso, M. J., Soares, A., Sousa, F. de, & Pascoal, J. (2011a). QuaREPE - Quadro de Referência para o Ensino de Português no Estrangeiro. Documento Orientador. Lisboa: Ministério da Educação e Ciência/Direção Geral de Inovação e Desenvolvimento Curricular, http://www.dgidc.min-edu.pt/outrosprojetos/data/outrosprojectos/portugues/ Documentos/manual_quarepe_orientador_versao_final_janeiro_2012.pdf. [2] Flesch, R. (1948). A new readability yardstick. Journal of Applied Psychology, 32(3), 221 233. [3] Dale, E., & Chall, J. S. (1948). A formula for predicting readability. Educational research bulletin, 11 28. [4] Collins-Thompson, K., & Callan, J. (2004). Information Retrieval for Language Tutoring: An Overview of the REAP Project. In Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 04) (pp. 544 545). New York, NY, USA: ACM. [5] Pitler, E., & Nenkova, A. (2008). Revisiting readability: a unified framework for predicting text quality. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 08) (pp. 186 195). Stroudsburg, PA, USA: Association for Computational Linguistics. [6] Marujo, L. (2009). REAP.PT. Unpublishedmaster s dissertation, Instituto Superior Técnico Universidade Técnica de Lisboa, Lisboa. [7] Pellegrini, T., Ling, W., Silva, A., Correia, R., Trancoso, I., Baptista, J., & Mamede, N. (2012). Overview of Computer-assisted Language Learning for European Portuguese at L2F. In Proceedings of the 4 th International Conference on Computer Supported Education - CSEDU (pp. 538 543). Porto, Portugal. [8] Branco, A., Rodrigues, J., Costa, F., Silva, J., & Vaz, R. (2014). Rolling out Text Categorization for Language Learning Assessment Supported by Language Technology. In Proceedings of the 11th international Conference on Computational Processing of Portuguese (PROPOR 14) (Vol. 8775). São Carlos, Brazil. 33 34 technology L 2 F - Spoken Language Systems Laboratory 35