GUILHERME PASSERO DETECÇÃO DE FUGA AO TEMA EM REDAÇÕES NA LÍNGUA PORTUGUESA

Tamanho: px
Começar a partir da página:

Download "GUILHERME PASSERO DETECÇÃO DE FUGA AO TEMA EM REDAÇÕES NA LÍNGUA PORTUGUESA"

Transcrição

1 GUILHERME PASSERO DETECÇÃO DE FUGA AO TEMA EM REDAÇÕES NA LÍNGUA PORTUGUESA Itajaí (SC), março de 2018

2 UNIVERSIDADE DO VALE DO ITAJAÍ CURSO DE MESTRADO ACADÊMICO EM COMPUTAÇÃO APLICADA DETECÇÃO DE FUGA AO TEMA EM REDAÇÕES NA LÍNGUA PORTUGUESA por Guilherme Passero Dissertação apresentada como requisito parcial à obtenção do grau de Mestre em Computação Aplicada. Orientador: Rudimar Luís Scaranto Dazzi, Dr. Itajaí (SC), março de 2018

3

4 The analysis of student writing seems one of the major educational contributions which the computer is destined to make. Such essay analysis has always been an important job for the teacher, demanding his best dedication and intelligence. Therefore it is not surprising that mechanical "dedication" and artificial "intelligence" should assume some of the responsibility, in our increasingly computerized world. Ellis Page, 1968.

5 DETECÇÃO DE FUGA AO TEMA EM REDAÇÕES NA LÍNGUA PORTUGUESA Guilherme Passero Março / 2018 Orientador: Rudimar Luís Scaranto Dazzi, Dr. Área de Concentração: Computação Aplicada Linha de Pesquisa: Inteligência Aplicada Palavras-chave: Processamento de linguagem natural, Análise semântica, Classificação de textos, Avaliação automática de redações. Número de páginas: 106 RESUMO Os avanços alcançados nos últimos 60 anos em sistemas de correção automática de redações possibilitaram a sua aplicação em cenários reais, como salas de aula e exames de médio e grande porte. Uma das tarefas tratadas na correção automática de redações é a identificação de redações com fuga ao tema. A fuga ao tema acontece quando o aluno não desenvolve conceitos relacionados à proposta temática, por vezes de modo proposital, e causa a anulação da redação em alguns exames. Um mecanismo de detecção de fuga ao tema pode ser utilizado em paralelo ou embutido em um sistema de correção automática de redações para melhorar seu desempenho. Nesse contexto, esta pesquisa visa avaliar as abordagens existentes na literatura para detecção automática de redações com fuga ao tema. Uma revisão sistemática da literatura foi realizada para identificar as técnicas, recursos, métricas e corpora atualmente utilizados na tarefa de detecção de fuga ao tema. Os resultados dessa revisão mostraram algumas deficiências no estado da arte, entre elas: a baixa acurácia das abordagens existentes, o uso de conjuntos artificiais para validação e a ausência de trabalhos voltados à língua portuguesa. Nesta pesquisa, as abordagens identificadas na literatura, originalmente propostas para a língua inglesa, foram adaptadas para a língua portuguesa e comparadas em dois experimentos com um corpus público de redações relacionadas a 111 propostas temáticas. O primeiro experimento utilizou um conjunto próprio de exemplos reais de fuga ao tema identificados no corpus de pesquisa. Esse experimento não produziu resultados conclusivos devido a limitações no conjunto de exemplos reais utilizado. O segundo experimento utilizou um conjunto com exemplos artificiais de fuga ao tema e o algoritmo com melhor desempenho obteve acurácia superior à encontrada na literatura para a língua inglesa (96,76% contra 94,75%). Os resultados apresentados sugerem a aplicação de mecanismos de detecção de fuga ao tema em redações no contexto educacional brasileiro de modo a beneficiar o estudante, quando visada a geração de feedback, e as instituições educacionais, quando visada a automatização do processo de correção de redações. Algumas sugestões de trabalhos futuros são apresentadas, entre elas o tratamento da detecção de fuga ao tema em redações como um problema multiclasse e a reprodução do experimento em um corpus de redações com um conjunto maior e representativo de exemplos reais de fuga ao tema.

6 OFF-TOPIC ESSAY DETECTION FOR PORTUGUESE LANGUAGE Guilherme Passero March / 2018 Advisor: Rudimar Luís Scaranto Dazzi, Dr. Area of Concentration: Applied Computing Research Line: Applied Intelligence Keywords: Natural Language Processing, Semantic analysis, Text classification, Automated essay evaluation. Number of pages: 106 ABSTRACT Advances in automated essay grading over the last sixty years enabled its application in real scenarios, such as classrooms and medium- to large-scale tests. The recognition of off-topic essays is one of the tasks addressed in automated essay grading. An essay is regarded as off-topic when the student does not develop the expected prompt-related concepts, sometimes purposely. Off-topic essays may receive a zero score in high-stake tests. An off-topic essay detection mechanism may be used in parallel or embedded in an automated essay grading system to improve its performance. In this context, the main goal of this study is to evaluate the existing approaches for automated off-topic essay detection. A systematic review of the literature was performed to identify the techniques, resources, measures and corpora applied in the task of off-topic essay detection. The results of this review showed some deficiencies, including: the low accuracy of current approaches, the use of artificial validation sets, and the lack of studies focused on the Portuguese language. In this study, the approaches found in the literature, originally proposed for the English language, were adapted for the Portuguese language and compared in two experiments using a public corpus of 2164 essays related to 111 prompts. The first experiment used an own dataset of real off-topic examples found in the research corpus. This experiment did not yield conclusive results due to limitations in the set of real examples. The second experiment used a set of artificial off-topic examples, and the best performing algorithm achieved higher accuracy than that found in the literature for the English language (96.76% vs %). The results presented suggest the application of off-topic essay detection mechanisms in the Brazilian educational context in order to benefit the student, with computer generated feedback, and educational institutions, regarding automated essay grading. Some suggestions for future research are presented, including the need to address the task of off-topic essay detection as a multiclass problem, and to reproduce the experiment with a larger and more representative set of real off-topic essay examples.

7 LISTA DE ILUSTRAÇÕES Figura 1. Custo geral estimado da correção das redações do ENEM (custo por redação) Figura 2. Custo médio da correção das redações do ENEM por nível de correção Figura 3. Conceito cachorro e alguns de seus relacionamentos no WordNet Figura 4. Arquitetura das redes Word2Vec tipos CBOW e Skip-gram Figura 5. Hierarquia de aprendizado Figura 6. Indução de classificador em aprendizado supervisionado Figura 7. Exemplo de regressão linear para predição do grau de adequação ao tema Figura 8. Conjunto de treinamento binário e três diferentes hipóteses Figura 9. Exemplo da utilização de regressão linear e SVR para predição do grau de adequação ao tema em um conjunto com exemplos anômalos Quadro 1. Critérios avaliados na prova de redação do ENEM Quadro 2. Exemplos de analogias avaliadas por um modelo Word2Vec Skip-gram treinado em 783M de palavras com 300 dimensões Quadro 3. Relação de artigos selecionados na revisão sistemática da literatura Quadro 4. Técnicas de análise textual utilizadas nos trabalhos relacionados Quadro 5. Técnicas e recursos de análise semântica utilizados nos trabalhos relacionados Quadro 6. Composição do corpus de treino utilizado nos trabalhos relacionados Quadro 7. Tamanho dos corpora utilizados nos trabalhos relacionados Quadro 8. Métricas de desempenho utilizadas em pesquisas sobre detecção automática de fuga ao tema Quadro 9. Resultados alcançados em pesquisas sobre detecção automática de fuga ao tema Quadro 10. Identificação dos algoritmos implementados Quadro 11. Corpora utilizados pelos algoritmos Quadro 12. Exemplos de derivações, sinônimos e palavras associadas... 75

8 LISTA DE TABELAS Tabela 1. Exemplo de matriz de coocorrências Tabela 2. Índice de similaridade médio obtido pelo algoritmo KFG-A para temas diversos Tabela 3. Resultados obtidos usando conjuntos artificiais... 85

9 LISTA DE ABREVIATURAS E SIGLAS ASST CBOW CET CVA ENEM GRE GMAT LSA LDA MEC OpenWN-PT PEG PLN PMI RI TOEFL TF IDF SVD SVM SVR UNIVALI Análise de Similaridade Semântica Textual Continous Bag-of-Words College English Test Análise de Vetor de Conteúdo (Content Vector Analysis) Exame Nacional do Ensino Médio Graduate Record Examination Graduate Management Admission Test Análise de Semântica Latente (Latent Semantic Analysis) Latent Dirichlet Allocation Ministério da Educação OpenWordNet-PT, uma wordnet da língua portuguesa Project Essay Grader Processamento de Linguagem Natural Pointwise Mutual Information Random Indexing Teste de Inglês como uma Língua Estrangeira (Test of English as a Foreign Language) Term Frequency Inverse Document Frequency Decomposição em Valores Singulares (Singular Value Decomposition) Máquina de Vetores de Suporte (Support Vector Machine) Regressão por Vetores de Suporte (Support Vector Regression) Universidade do Vale do Itajaí

10 SUMÁRIO 1 INTRODUÇÃO PROBLEMA DE PESQUISA Solução Proposta Delimitação de Escopo Justificativa OBJETIVOS Objetivo Geral Objetivos Específicos METODOLOGIA Metodologia da Pesquisa Procedimentos Metodológicos ESTRUTURA DA DISSERTAÇÃO FUNDAMENTAÇÃO TEÓRICA A REDAÇÃO Adequação ao Tema Banco de Redações do Portal UOL Educação SIMILARIDADE SEMÂNTICA TEXTUAL Modelos Baseados em Tesauro Modelos Baseados em Corpus APRENDIZADO DE MÁQUINA Regressão Linear Máquinas de Vetores de Suporte Métricas de Avaliação ESTADO DA ARTE REVISÃO SISTEMÁTICA DA LITERATURA Higgins, Burstein e Attali (2006) Louis e Higgins (2010) Li e Yan (2012) Persing e Ng (2014) Chen e Zhang (2016) TRABALHOS SIMILARES Klebanov, Flor e Gyawali (2016) Rei e Cummins (2016) ANÁLISE COMPARATIVA CONSIDERAÇÕES DESENVOLVIMENTO COLETA DOS DADOS... 68

11 4.2 IMPLEMENTAÇÃO DOS ALGORITMOS MÉTODO DE VALIDAÇÃO CONSIDERAÇÕES RESULTADOS IDENTIFICAÇÃO DE REDAÇÕES COM FUGA AO TEMA EXPERIMENTO 1 EXEMPLOS REAIS DE FUGA AO TEMA EXPERIMENTO 2 EXEMPLOS ARTIFICIAIS DE FUGA AO TEMA CONSIDERAÇÕES CONCLUSÕES CONTRIBUIÇÕES DA DISSERTAÇÃO LIMITAÇÕES TRABALHOS FUTUROS REFERÊNCIAS APÊNDICE A Protocolo de Revisão Sistemática da Literatura APÊNDICE B Artigos Excluídos na Revisão Sistemática da Literatura APÊNDICE C Análise Comparativa do Estado da Arte APÊNDICE D Redações Identificadas como Casos Reais de Fuga ao Tema APÊNDICE E Comparação dos Resultados Obtidos no Experimento 2 com Experimentos Anteriores APÊNDICE F Publicações nas Áreas de Avaliação Automática de Escrita e Tecnologias Educacionais...105

12 11 1 INTRODUÇÃO A avaliação é parte fundamental do processo de ensino e aprendizagem, pois propicia um momento de reflexão sobre conquistas e dificuldades tanto do aluno quanto do professor. No contexto educacional, a redação é amplamente usada como instrumento de avaliação das habilidades e competências adquiridas pelo aluno. Em atividades avaliativas com redação, apresenta-se ao aluno um enunciado que o solicita elaborar uma resposta textual descritiva, narrativa ou dissertativa, cuja análise não é uma tarefa trivial. O processo de correção manual de redações costuma apresentar dificuldades relacionadas ao tempo, custo, confiabilidade e subjetividade do avaliador. Essas dificuldades motivaram pesquisas em busca de soluções para automatizar o processo de correção (DIKLI, 2006). A correção automática de redações não é uma novidade. Em 1966, Page apresentou a primeira abordagem para o problema, o PEG Project Essay Grader (HEARST, 2000). A proposta de Page utilizava características superficiais do texto (ex. número de palavras, de vírgulas, de preposições) com regressão linear múltipla e, em um estudo comparativo de 1968, conseguiu prever com precisão razoável a nota atribuída por humanos a redações (PAGE, 1968). Com os avanços na área de Inteligência Artificial, principalmente na linha de PLN Processamento de Linguagem Natural, novas ferramentas têm sido criadas para a análise automática da escrita. Entre as soluções disponíveis, Dikli (2006) destaca as mais usadas: Intelligent Essay Assessor TM, E-rater e Criterion SM, IntelliMetric TM, MY Assessor! e Bayesian Essay Test Scoring System TM. Algumas dessas ferramentas já são aplicadas em exames internacionais importantes, como o GMAT Graduate Management Admission Test, usado por muitas universidades como requisito de entrada em programas acadêmicos, inclusive cursos de MBA (HEARST, 2000). Apesar de muitas pesquisas estarem sendo desenvolvidas no campo de avaliação automática da escrita, na revisão da literatura realizada no decorrer desta pesquisa, assim como na revisão de Amorim e Veloso (2017), não foi encontrada nenhuma solução para correção automática de redações na língua portuguesa. Na revisão de Dikli (2006), o software IntelliMetric TM é o único descrito como apto a avaliar redações em português, mas em contato com a empresa fornecedora se obteve informação de que essa funcionalidade ainda não foi desenvolvida.

13 12 Um dos critérios utilizados na avaliação de redações é a pertinência ao tema (ou adequação ao tema). Para atender a esse critério, uma redação precisa desenvolver conceitos de várias áreas do conhecimento e que se relacionam à temática levantada na proposta de redação (BRASIL, 2017a). Redações que fogem ao tema proposto são comumente anuladas em exames de médio e grande porte, como vestibulares, concursos públicos e exames nacionais. Uma ferramenta de detecção automática de redações que fogem ao tema poderia reduzir o esforço humano empreendido na correção, além de gerar feedback útil ao aluno quando numa avaliação formativa. Dentro desse contexto, esta pesquisa realizou uma avaliação das abordagens existentes na literatura para detecção de fuga ao tema em redações, com enfoque na língua portuguesa. Para isso, foi realizado um estudo comparativo das abordagens existentes considerando um conjunto de redações extraídas do portal UOL Educação. Este trabalho visa apoiar o desenvolvimento de sistemas para a correção de redações tanto em exames de médio e grande porte, quanto em atividades avaliativas em sala de aula. 1.1 PROBLEMA DE PESQUISA Em exames de médio e grande porte que incluem a redação como meio de avaliação existe um grande custo envolvido com a capacitação e contratação de avaliadores (DIKLI, 2006). Normalmente, nesses exames, cada redação é avaliada por duas pessoas, que atribuem nota a algumas competências pré-definidas. Caso dois avaliadores discordem significativamente em uma competência ou na nota total da redação, essa é novamente verificada por um terceiro avaliador ou uma comissão avaliadora. No contexto brasileiro, vale citar o ENEM Exame Nacional do Ensino Médio, um exame de grande porte aplicado pelo MEC Ministério da Educação para verificar o domínio de competências e habilidades dos estudantes que concluíram o ensino médio. Na edição de 2016, o ENEM teve redações anuladas por algum dos seguintes motivos: fuga ao tema; cópia de texto motivador; texto insuficiente; não atendimento ao tipo textual; parte desconectada; e ofensa aos direitos humanos. A maior parte das anulações foi devido à fuga ao tema ( ou 55,6%) (BRASIL, 2017b). Outro cenário que demanda atenção quanto à avaliação da escrita são as escolas de educação básica, universidades e outras instituições de ensino presencial e à distância. As habilidades de escrita

14 13 são fundamentais ao estudante e, com isso, as estratégias de ensino devem enfatizar o desenvolvimento dessa competência (WILSON; ANDRADA, 2016). Um dos meios de incentivar o aperfeiçoamento da escrita é a realização de atividades em sala de aula que exijam do aluno a produção de redações. Na realização dessas atividades, além das tradicionais notas holísticas, é importante fornecer ao aluno uma análise criteriosa do seu texto (PERSING; NG, 2014). O uso do computador na geração desse feedback pode trazer melhorias significativas nas habilidades de escrita do aluno, como observado no estudo de Wilson e Andrada (2016). Nesse cenário, a adequação ao tema também é um dos critérios a serem considerados na geração de feedback sobre a redação do aluno. Apesar de já existirem trabalhos que tratam do problema de detecção de fuga ao tema, ainda existem algumas lacunas e deficiências. Entre elas, podem ser citadas: (i) as altas taxas de erros encontradas para as propostas existentes, com taxas de falsos positivos no intervalo de 1,39% a 7,03% e taxas de falsos negativos de 9,02% a 38%; (ii) o uso de conjuntos artificiais para validação; e (iii) a ausência de trabalhos aplicados a redações na língua portuguesa (PASSERO et al., 2017). Nesse contexto, este trabalho busca tratar o problema de detecção de fuga ao tema em redações escritas na língua portuguesa, tendo em vista as lacunas (ii) e (iii) encontradas na literatura. Pretendese responder à seguinte pergunta: as abordagens existentes na literatura para detecção de fuga ao tema em redações, originalmente desenvolvidas e aplicadas na língua inglesa, podem ser adaptadas e aplicadas à língua portuguesa? Solução Proposta Algumas abordagens para a detecção automática de fuga ao tema têm sido propostas na literatura, como as apresentadas em (HIGGINS; BURSTEIN; ATTALI, 2006; KLEBANOV; FLOR; GYAWALI, 2016; LOUIS; HIGGINS, 2010; PERSING; NG, 2014) Essas abordagens se baseiam principalmente na relação léxica e semântica entre o texto da redação e o enunciado (descrição da 1 A verificação da aplicabilidade das abordagens existentes será realizada nesta pesquisa adaptando as abordagens existentes para a língua portuguesa e à tarefa de classificação binária e verificando se os resultados de desempenho obtidos em um conjunto de redações experimental na língua portuguesa são equivalentes ou superiores aos observados na literatura para a língua inglesa considerando a medida de acurácia.

15 14 proposta temática); entre o texto da redação e outras redações do mesmo tema; e entre o texto da redação e um conjunto externo de redações de referência. Pretende-se com esta pesquisa avaliar abordagens para detecção de fuga ao tema considerando um conjunto de redações escritas na língua portuguesa. Para isso, uma revisão sistemática foi realizada com objetivo de identificar e caracterizar as abordagens existentes. As técnicas e recursos utilizados em trabalhos relacionados foram então adaptados à língua portuguesa e à tarefa de classificação binária tendo em vista viabilizar um estudo comparativo. O banco de redações do portal UOL Educação 2 foi usado na validação do desempenho das abordagens estudadas. Esse banco vem sendo periodicamente incrementado com novas redações desde 2007 e, em março de 2017, continha redações quase uniformemente distribuídas em 111 propostas temáticas, isto é, cerca de 20 redações por tema. Assim, esta pesquisa procura verificar a seguinte hipótese: É possível, considerando um conjunto de redações na língua portuguesa, detectar redações com fuga ao tema com acurácia equivalente ou superior à observada na literatura para a língua inglesa Delimitação de Escopo Neste trabalho pretende-se avaliar técnicas de detecção de fuga ao tema em redações escritas na língua portuguesa. A fuga ao tema pode ser total, quando todo o texto se desenvolve em desacordo com a proposta, ou parcial, quando apenas parte da redação desvia do tema proposto. Nesta pesquisa é tratada a fuga total ao tema, que costuma anular redações em exames de médio e grande porte como o ENEM. Não obstante, as abordagens discutidas podem apoiar também a detecção de fuga parcial ao tema e de partes deliberadamente desconexas (ex. inserção de excerto de música ou livro não pertinente ao tema) em trabalhos futuros. Além disso, o estudo comparativo contemplado nesta pesquisa trata um cenário onde o número de redações é reduzido (20 por tema). Esse número reduzido de exemplos de redação por tema representa um desafio para a detecção automática de fuga ao tema, pois uma amostra tão pequena pode não apresentar todos os conceitos e palavras pertinentes à proposta temática, o que é 2

16 15 desejável em uma abordagem que analisa a relação entre o texto da redação e outras redações do mesmo tema. Em situações com grande número de redações sobre um mesmo tema em um conjunto de treino, outras técnicas podem ser utilizadas para melhorar os resultados, por exemplo a priorização da presença de palavras e composições exatas (n-gramas) no lugar de conceitos matematicamente inferidos (ex. modelos de análise semântica distribucionais), como sugerido por Higgins, Burstein e Attali (2006) Justificativa Em 2015 o ENEM envolveu mais de 10 mil avaliadores e teve custo estimado de R$15,88 por redação corrigida. Esse valor engloba aparatos físicos e tecnológicos, capacitação de corretores, serviço de correção e outros custos relacionados ao processo de correção (G1, 2016) 3. Considerando o total de 6,54 milhões de redações submetidas em 2015 (G1, 2016), pode-se estimar um custo total de mais de 100 milhões de reais com a correção de redações. Tendo em conta o aumento no custo médio da correção observado nos últimos anos, como pode ser visto na Figura 1, o governo tem buscado meios de reduzir o custo do ENEM usando aparatos tecnológicos, como com a eliminação do boletim impresso, que passou a ser entregue exclusivamente por meio virtual. Além disso, uma das metas do MEC é realizar a prova do ENEM através da internet (MATOSO, 2015), o que facilitará a realização de futuras pesquisas para a correção automática das redações. 3 As informações sobre o custo geral da correção de redações no ENEM foram obtidas pelo portal de notícias G1 através da Lei de Acesso à Informação. Não foi possível encontrar essas informações em relatórios oficiais do MEC ou INEP.

17 16 Figura 1. Custo geral estimado da correção das redações do ENEM (custo por redação) Fonte: G1 (2016). A Figura 2 mostra o valor médio pago ao corretor de acordo com o nível da correção. A 1ª e a 2ª correção são realizadas para todas as redações, enquanto que a 3ª correção demanda mais tempo e é realizada apenas quando há divergência entre as notas atribuídas pelos dois primeiros corretores. A 4ª correção é realizada por uma banca avaliadora quando os três primeiros corretores divergem entre si. Pode-se observar na Figura 2 que o custo do corretor humano tem aumentado nos últimos anos. Ainda, considerando as informações apresentadas na Figura 1, pode-se constatar que o custo do corretor humano representa grande parte do custo total do processo de correção. Vale destacar que nas edições de 2014, 2015 e 2016 do ENEM, mais de 7 milhões das cerca de 15,5 milhões de redações corrigidas foram submetidas à terceira avaliação (45,87%), e 8,7% dessas foram submetidas à banca avaliadora ( )4. Esses dados evidenciam uma falta de padronização no processo atual de correção do ENEM e a subjetividade da correção humana. 4 Informações obtidas pelo autor através do pedido de informação nº / , registrado no Sistema Eletrônico do Serviço de Informação ao Cidadão (e-sic) do governo federal e em acordo com a Lei de Acesso à Informação.

18 17 R$3,84 1ª E 2ª CORREÇÃO R$4,18 R$4,47 R$5,02 3ª CORREÇÃO R$5,47 R$5,85 R$23,01 4ª CORREÇÃO R$25,09 R$26,84 R$- R$5,00 R$10,00 R$15,00 R$20,00 R$25,00 R$30, Figura 2. Custo médio da correção das redações do ENEM por nível de correção Fonte: Pedido de informação nº / , registrado no SIC INEP. Exames de médio e grande porte, como o ENEM, poderiam se beneficiar de uma ferramenta de detecção de fuga ao tema pela redução do esforço humano empregado na correção de redações. Para isso, redações com suspeita de fuga ao tema detectadas pelo computador seriam encaminhadas a um avaliador humano para confirmação. Confirmado o desvio, não haveria necessidade de contratação de um segundo avaliador humano para a correção. No caso de o computador ou avaliador humano não detectar fuga ao tema, a redação seria normalmente corrigida por um segundo avaliador humano. Essa sistemática já vem sendo adotada em outros cenários, como na correção automática de redações (DIKLI, 2006). Com base nas informações obtidas por meio do pedido de informação nº / , registrado no SIC INEP, pode-se verificar que a aplicação de uma ferramenta de detecção de redações com fuga ao tema com 100% de recall nas edições de 2014, 2015 e 2016 do ENEM, utilizando o procedimento descrito, permitiria ao governo federal economizar cerca de 1,2 milhões de reais, desconsiderando os custos de construção da ferramenta e migração das redações para o meio digital.

19 18 Em atividades avaliativas com redação realizadas em sala de aula, a geração automática e contínua de feedback pode apoiar o desenvolvimento das habilidades de escrita dos alunos, como observado no estudo de Wilson e Andrada (2016). Um mecanismo de detecção de fuga ao tema poderia ser usado nesse contexto a fim de auxiliar o aluno a focar em conceitos relacionados ao tema proposto pelo professor durante a elaboração de sua redação. Algumas soluções comerciais para correção automática de redações têm se apresentado viáveis para aplicação em exames de médio e grande porte. Em vários estudos, pôde-se observar correlação significativa entre as notas atribuídas pelo computador e pelos avaliadores humanos, como (ATTALI, 2007; RUDNER; GARCIA; WELCH, 2006). Apesar dos resultados promissores, os sistemas de correção automática de redação ainda são criticados pela comunidade científica, principalmente quanto à falta de interação humana, a vulnerabilidade a fraudes e a necessidade de um corpus grande de exemplos para treino (DIKLI, 2006; HIGGINS; HEILMAN, 2014). Visando minimizar a vulnerabilidade a fraudes, um mecanismo de detecção de fuga ao tema pode ser usado em paralelo ou embutido em um sistema de correção de redações para melhorar seu desempenho (CHEN; ZHANG, 2016; HIGGINS; BURSTEIN; ATTALI, 2006). Por fim, uma das contribuições desta pesquisa é a avaliação de técnicas de detecção de fuga ao tema em um cenário onde o número de redações no conjunto de treino é bastante limitado (20 redações). Outra contribuição desta pesquisa é uma revisão sistemática da literatura sobre o tema, apresentando as técnicas, recursos, métricas e corpora atualmente empregados na detecção de redações com fuga ao tema. Na revisão da literatura realizada durante esta pesquisa, não foi encontrado nenhum trabalho aplicado à detecção de fuga ao tema em redações na língua portuguesa. Com isso, no cenário brasileiro, esta pesquisa faz uma contribuição para o avanço das pesquisas em correção automática de redações, apresentando uma proposta de adaptação das abordagens existentes para detecção de fuga ao tema tendo em vista sua aplicação na língua portuguesa.

20 OBJETIVOS Esta seção formaliza os objetivos do trabalho, conforme descritos nas seções seguintes Objetivo Geral O objetivo geral desta pesquisa é avaliar as abordagens existentes para detecção automática de fuga ao tema em redações tendo em vista a língua portuguesa Objetivos Específicos Os objetivos específicos desta pesquisa são: 1. Compor um corpus público de redações escritas na língua portuguesa; 2. Criar um conjunto público de exemplos reais de redações com fuga ao tema; 3. Identificar na literatura as abordagens que são utilizadas na tarefa de detecção de fuga ao tema em redações; 4. Adaptar à língua portuguesa as abordagens existentes para detecção de fuga ao tema em redações; 5. Analisar o desempenho das abordagens existentes, com adaptações à língua portuguesa, tendo como conjunto de validação as redações obtidas do portal UOL Educação. 1.3 METODOLOGIA Nas seções seguintes a metodologia a ser utilizada nesta pesquisa é classificada e uma síntese dos procedimentos metodológicos utilizados é apresentada Metodologia da Pesquisa Neste projeto será aplicado o método hipotético-dedutivo. O método hipotético-dedutivo caracteriza-se pela presença de uma hipótese a respeito de um problema e o procedimento de coleta de dados para sua verificação. Esta pesquisa terá uma abordagem quantitativa. As pesquisas quantitativas usam ferramentas estatísticas para medir a relação existente entre variáveis. Esta pesquisa pretende verificar índices de

21 20 desempenho como a taxa de erros e acurácia na execução das técnicas de detecção de fuga ao tema avaliadas. Sob o ponto de vista da natureza da pesquisa, esta é uma pesquisa aplicada. A pesquisa aplicada objetiva gerar produtos e/ou processos com finalidades imediatas, a partir de conhecimentos prévios. Ainda, sob o ponto de vista do objetivo da pesquisa, esta é uma pesquisa exploratória. As pesquisas exploratórias examinam um conjunto de fenômenos, identificando padrões e anomalias, e, com isso, buscam criar fundamento para pesquisas mais aprofundadas. Nesse sentido, esta pesquisa visa aplicar conhecimentos e técnicas existentes através de estudos de caso, onde serão confirmadas ou refutadas as hipóteses formuladas Procedimentos Metodológicos Esta seção apresenta os procedimentos metodológicos adotados nesta pesquisa. Revisão bibliográfica: Esta etapa tem como objetivo proporcionar a fundamentação teórica necessária ao desenvolvimento da pesquisa. Revisão sistemática da literatura: Esta etapa tem como objetivo realizar uma revisão sistemática da literatura sobre o tema de pesquisa para identificar as técnicas de análise textual atualmente utilizadas na tarefa de detecção de fuga ao tema em redações. Preparação do corpus de pesquisa: Esta etapa tem como objetivo encapsular o corpus de pesquisa (banco de redações do portal UOL Educação) em um formato estruturado e criar conjuntos de redações de exemplos negativos (sem fuga ao tema) e de exemplos positivos (com fuga ao tema). Implementação dos algoritmos: Esta etapa tem como objetivo implementar modelos de detecção automática de fuga ao tema considerando as técnicas de análise textual encontradas na literatura, adaptando-as à língua portuguesa e à tarefa de classificação binária. Comparação de algoritmos: Esta etapa tem como objetivo comparar as soluções candidatas previamente implementadas em um estudo de caso utilizando o banco de redações do portal UOL Educação para verificação do desempenho. Análise dos resultados: Esta etapa tem como objetivo analisar os resultados obtidos no estudo comparativo, contrastando-os com os encontrados na literatura, reconhecendo e explanando

22 21 possíveis limitações relacionadas aos resultados e identificando os algoritmos com melhor desempenho considerando os possíveis contextos de aplicação (ex. presença de conjunto de treino). Conclusão: Esta etapa tem como objetivo analisar as contribuições da pesquisa e apresentar sugestões de trabalhos futuros relevantes. 1.4 ESTRUTURA DA DISSERTAÇÃO O trabalho está organizado em seis capítulos. O Capítulo 1, Introdução, apresenta uma contextualização do tema abordado, o problema a ser resolvido e os resultados esperados. Além disso, esse capítulo apresenta a justificativa, metodologia e a delimitação do escopo proposto. O Capítulo 2 apresenta a fundamentação teórica sobre (i) o uso da redação como instrumento de avaliação do aprendizado; (ii) análise de similaridade semântica textual; e (iii) aprendizado de máquina. No Capítulo 3 são apresentados trabalhos relacionados e o estado da arte sobre detecção de fuga ao tema em redações. O Capítulo 4 detalha a abordagem proposta para coleta de dados, implementação dos algoritmos, detalhando as adaptações ao contexto da pesquisa, e o método de validação dos algoritmos. O Capítulo 5 apresenta e discute os resultados obtidos no estudo comparativo realizado com o banco de redações do portal UOL Educação. Por fim, no Capítulo 6, são tecidas as conclusões do trabalho, relacionando os objetivos identificados inicialmente com os resultados alcançados. São ainda propostas possibilidades de continuação da pesquisa desenvolvida a partir das experiências adquiridas com a execução do trabalho.

23 22 2 FUNDAMENTAÇÃO TEÓRICA Este capítulo apresenta a fundamentação teórica sobre conceitos relevantes à tarefa de detecção automática de fuga ao tema, incluindo o uso educacional de redações, similaridade semântica textual e aprendizado de máquina, introduzidos respectivamente nas Seções 2.1, 2.2 e 2.3. Por fim, na Seção 2.4, são apresentadas as considerações finais sobre o capítulo. 2.1 A REDAÇÃO Segundo o Dicionário Aurélio, as duas definições mais comuns para a palavra redação são ato ou efeito de redigir e trabalho ou exercício escolar que versa sobre um assunto dado, ou de livre escolha, e se destina a ensinar o aluno a redigir corretamente, com seguimento lógico de ideias. Enquanto a primeira definição trata de uma visão mais genérica e abstrata do conceito de redação, a segunda definição aborda a redação como instrumento de ensino e avaliação no ambiente educacional. No escopo desta dissertação, ambas definições são oportunas, no entanto se destaca a segunda definição como mais pertinente. Segundo Lima (2011), redação é um nome genérico que pode ser atribuído a qualquer forma de escrita. A redação pode ser classificada em três tipos principais (LIMA, 2011): Descrição: quando o autor aponta características que compõem uma paisagem, um ambiente, um objeto ou um ser. Narração: quando o autor conta um fato ocorrido em determinado lugar e tempo. Dissertação: quando o autor apresenta ou discute uma ideia, expondo, explicando e argumentando a fim de comprovar o que se afirma. A habilidade de escrita é essencial para o sucesso escolar, acadêmico e profissional (WILSON; ANDRADA, 2016). A redação tem sido utilizada em sala de aula tanto para estimular as habilidades de interpretação e escrita, quanto como um instrumento robusto de avaliação. Apesar da importância do desenvolvimento das habilidades de escrita na educação básica, as instituições de ensino não têm conseguido estimular essa capacidade adequadamente, dado que nos últimos anos pôde-se observar uma grande deficiência na produção textual dos jovens. Essa deficiência é constatada e discutida no trabalho de Maria Thereza Fraga Rocco (2011) e nos levantamentos

24 23 realizados pelo órgão estadunidense de estatísticas educacionais (NATIONAL CENTER FOR EDUCATION STATISTICS, 2012) e no ENEM do Brasil (2017b), apresentados a seguir. Em um estudo brasileiro, Rocco (2011) analisou minuciosamente redações manuscritas submetidas a um vestibular em A autora constatou que apenas 116 casos (7,7% da amostra) não apresentavam os problemas de textualidade analisados, entre eles a coerência, a coesão e a correspondência ao tema. Vale destacar ainda que a autora procurou pela presença de linguagem criativa nas redações analisadas, que só encontrou em 40 casos (2,7% da amostra). Desses 40 casos, apenas quatro estavam providos de criatividade e originalidade no todo, segundo os critérios definidos pela autora. Tais resultados levaram a autora a concluir uma possível crise na linguagem, sobretudo marcada pela incapacidade dos estudantes brasileiros em produzir textos criativos, originais e que obedeçam aos princípios da textualidade. Em um estudo mais recente de 2011, realizou-se uma avaliação nacional da escrita dos estudantes estadunidenses, onde se pôde constatar que apenas um quarto desses estudantes atinge o nível de proficiência esperado para o seu ano escolar (NATIONAL CENTER FOR EDUCATION STATISTICS, 2012). No cenário brasileiro, vale citar também resultados recentes sobre a produção de redações por estudantes concluintes do ensino médio. No ENEM 2016, as redações submetidas receberam nota média de 543, onde apenas 77 de cerca de 6 milhões de redações atingiram a nota máxima (1000) e (menos de 1%) atingiram nota entre 901 e 999 (BRASIL, 2017b). Uma das questões de maior interesse da linguística textual é a discussão sobre o que faz de um texto um texto, isto é, em que consiste a essência de um texto e que propriedade distingue um texto de um não texto (VAL, 2009, p.17). Entre as características centrais para identificação da textualidade, Beaugrand e Dressler (1983 apud VAL, 2009) citam a coerência e coesão, a intencionalidade, a aceitabilidade, a situacionalidade, a informatividade e a intertextualidade. A avaliação de uma redação compreende a análise do atendimento aos princípios de textualidade, que incluem as características mencionadas por Beaugrand e Dressler. No Exame Nacional do Ensino Médio (ENEM), realizado anualmente no Brasil, o desempenho de um aluno na prova de redação é avaliado por professores de acordo com os critérios apresentados no Quadro 1. Uma nota entre 0 a 200 pontos é atribuída pelos avaliadores a cada um dos critérios, podendo a

25 24 redação receber, no máximo, 1000 pontos. Ainda, o avaliador atribui nota 0 à redação em algumas situações: fuga total ao tema; não atendimento do tipo textual; cópia do texto motivador; etc. Quadro 1. Critérios avaliados na prova de redação do ENEM Competência 1 Demonstrar domínio da modalidade escrita formal da Língua Portuguesa. Competência 2 Competência 3 Competência 4 Competência 5 Fonte: Brasil (2017a). Compreender a proposta de redação e aplicar conceitos das várias áreas de conhecimento para desenvolver o tema, dentro dos limites estruturais do texto dissertativo-argumentativo em prosa. Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e argumentos em defesa de um ponto de vista. Demonstrar conhecimento dos mecanismos linguísticos necessários para a construção da argumentação. Elaborar proposta de intervenção para o problema abordado, respeitando os direitos humanos. No contexto desta pesquisa, trata-se a adequação ao tema de um texto, um critério comumente utilizado na avaliação de redações. Em relação ao critério de adequação ao tema, destacam-se os princípios de Beaugrand e Dressler (1983 apud VAL, 2009) de aceitabilidade, isto é, o quanto o texto atende as expectativas do avaliador, e de situacionalidade, relacionado ao grau de pertinência e relevância do texto ao contexto de avaliação. Ainda, vale mencionar a relação existente entre o critério de adequação ao tema e a Competência 2 do ENEM, que abrange tanto o desenvolvimento do tema quanto o atendimento do tipo textual Adequação ao Tema A adequação ou pertinência ao tema se refere a quanto o conteúdo de uma redação está relacionado à proposta temática a qual a redação foi submetida. Uma redação com boa adequação ao tema mantém consistentemente o tema introduzido na proposta temática e está livre de disgressões irrelevantes (PERSING; NG, 2014). Segundo Klebanov, Flor e Gyawali (2016), a instrução de focar no tema frequentemente dada aos novos escritores parece problemática, pois ainda não se sabe exatamente qual a melhor forma de medir tal propriedade textual. Segundo os autores, um modo razoável de identificar a pertinência de uma palavra p a um tema T é verificar a ocorrência de p mais em textos do tema T que

26 25 em textos de outros temas. Logo, analisando-se cada palavra de uma redação, poder-se-ia estimar a sua adequação ao tema. Redações que não atendem ao critério de adequação ao tema são ditas como casos de fuga ao tema. Na correção de redações do ENEM, a fuga ao tema pode ser vista em dois níveis: (i) parcial, quando algumas partes da redação não abordam o tema de modo adequado ou quando a redação apenas tangencia o tema, limitando-se ao assunto mais amplo proposto; ou (ii) total, quando o autor não desenvolve o assunto relacionado ao tema, anulando a redação (BRASIL, 2017a). Higgins, Burstein e Attali (2006) apresentam a seguinte tipologia para classificação de redações com fuga ao tema: tema inesperado: redações possivelmente bem escritas que não desenvolvem o tema proposto: tentativa deliberada de fraude/má-fé: redações que na maior parte consistem de partes copiadas do enunciado ou trechos irrelevantes, tais como excertos de textos não relacionados ao tema e à própria redação. No escopo desta pesquisa, trata-se o caso das redações com fuga ao tema que se enquadram na classificação tema inesperado. A fuga ao tema em redações é um problema comum em processos avaliativos. No estudo de Maria Thereza Fraga Rocco (2011), 765 (51%) das redações avaliadas tinham algum problema quanto à correspondência ao tema. Dessas, 217 (14,6%) apresentavam falta de correspondência total ao tema e 548 (36,9%) falta parcial. No ENEM 2016, em relação ao total de redações submetidas, cerca de 6 milhões, a fuga total ao tema esteve presente em 0,8% delas (BRASIL, 2017b). Contudo, vale destacar que na edição de 2014 desse mesmo exame a taxa de anulação de redações por fuga ao tema foi significativamente superior, cerca de 4,5% 5. A grande diferença entre as estatísticas do ENEM e do estudo de Maria Thereza Fraga Rocco (2011) pode ser devido a diferenças no público alvo e no método de avaliação. 5 Informação obtida pelo autor através do pedido de informação nº / , registrado no Sistema Eletrônico do Serviço de Informação ao Cidadão (e-sic) do governo federal e em acordo com a Lei de Acesso à Informação.

27 26 Haja vista a grande deficiência na produção textual de jovens observada nos últimos anos, são necessárias iniciativas que auxiliem o desenvolvimento dessa capacidade no ambiente educacional. A geração de feedback para o aluno sobre suas produções textuais é importante e pode trazer melhorias nas suas habilidades de escrita (WILSON; ANDRADA, 2016). Com isso, algumas ferramentas para análise de escrita têm sido desenvolvidas tendo como objetivo apoiar o processo de avaliação da aprendizagem (DIKLI, 2006; PERSING; NG, 2014). Em um estudo comparativo de análise automática de escrita é necessário um corpus de pesquisa representativo do problema a ser estudado. De preferência, o corpus de pesquisa deve ser público, a fim de possibilitar a comparação com trabalhos paralelos, e estar disponível em meio digital. Em uma pesquisa na literatura realizada por Júnior, Spalenza e Oliveira (2017), foram encontradas plataformas privadas de correção de redações como forma de orientação de estudantes, como Redação Online 6, Mais Correções 7 e Imaginie 8. Nessas plataformas, o estudante pode obter feedback personalizado sobre a sua redação, fornecido por um ou mais avaliadores (humanos). Também foram encontradas duas plataformas públicas disponibilizadas pela UOL, o banco de redações do portal UOL Educação 9 e o banco de redações do portal Brasil Escola 10. Desses, o primeiro foi selecionado para compor o corpus desta pesquisa Banco de Redações do Portal UOL Educação O banco de redações do portal UOL Educação é um serviço online que tem como objetivo principal auxiliar estudantes a desenvolver habilidades de produção textual. A cada mês é apresentada uma nova proposta temática aos usuários do portal, que são convidados a submeterem suas redações. De todas as redações enviadas, 20 são selecionadas aleatoriamente para serem corrigidas e comentadas por especialistas da UOL com base nos critéiros adotados pelo MEC para o ENEM e que são amplamente usados em vestibulares, incluindo o domínio da norma culta do idioma, a compreensão do tema e a capacidade de redigir um texto de caráter argumentativo-dissertativo (UOL EDUCAÇÃO, 2017)

28 27 Os responsáveis pelo banco de redações esperam que esse serviço possa esclarecer aos estudantes o que é esperado de sua redação e evidenciar as características que levam um texto a ter bom conceito no Enem e nas provas de vestibular (UOL EDUCAÇÃO, 2017). O banco de redações da UOL começou em 2007 e contém atualmente mais de redações corrigidas e comentadas. Esse banco de redações foi selecionado para compor o corpus dessa pesquisa por estar disponível publicamente e ter um grande número de redações de variados temas. As informações do banco de redações foram extraídas com apoio de um web crawler, haja vista que, em contato com os responsáveis pelo banco, não foi possível obter os dados em um formato estruturado. Entre as técnicas aplicadas para a avaliação automática de redações no contexto de detecção de fuga ao tema, destaca-se a análise de similaridade semântica textual, descrita na seção seguinte. 2.2 SIMILARIDADE SEMÂNTICA TEXTUAL A semântica é um ramo da linguística que estuda o significado e a sua relação com o significante, tais como palavras, frases, sinais e símbolos. Enquanto a semântica lexical se preocupa com o significado de palavras individuais, a semântica composicional estuda o significado da composição de palavras na formação de sintagmas e frases (JURAFSKY; MARTIN, 2008). No contexto computacional, a análise de similaridade semântica textual (ASST) busca medir o grau de equivalência semântica entre textos, normalmente usando um intervalo de valores representativos da equivalência à total ausência de relação semântica (AGIRRE et al., 2016). Os estudos na linha de ASST auxiliam em diversas tarefas de PLN e compreensão textual, entre elas a tradução de textos, sumarização, geração de textos e sistemas de resposta automática (AGIRRE et al., 2016), além de tarefas de classificação de textos, como avaliação automática de redações e detecção de plágio (JURAFSKY; MARTIN, 2008). Jurafsky e Martin (2008) dividem os modelos de análise de similaridade entre palavras (semântica lexical) em duas classes: (i) baseados em tesauro e (ii) baseados em corpus (ou distribucionais). Nas seções a seguir são caracterizadas essas duas classes e apresentadas as técnicas de análise de similaridade textual pertinentes a esta pesquisa.

29 Modelos Baseados em Tesauro Os modelos de ASST baseados em tesauro usam a estrutura de um tesauro para medir a similaridade entre palavras. Segundo o Dicionário Priberam da Língua Portuguesa, a palavra tesauro significa, no contexto linguístico, uma compilação do léxico de uma língua ou de uma área do saber. Um tesauro é um tipo de dicionário onde palavras com significados semelhantes são organizadas em uma estrutura de conceitos ou ideias, por vezes considerando um domínio específico. Entre os tesauros disponíveis, destaca-se no contexto de análise de relações de sentido o WordNet (JURAFSKY; MARTIN, 2008). Nas seções seguintes são apresentados os tesauros PAPEL e WordNet, utilizados no contexto deste estudo. Enquanto o WordNet é explicitamente mencionado na descrição da abordagem de trabalhos similares, o tesauro PAPEL foi selecionado para representar exclusivamente o recurso lexical empregado na pesquisa de Louis e Higgins (2010), denominado normas de palavras associadas ( word association norms ). Uma das limitações do PAPEL é ter sido construído de modo automático, enquanto que o dicionário empregado por Louis e Higgins (2010) foi construído de modo manual e empírico, através de entrevistas com pessoas. Optamos por essa instância de dicionário de palavras associadas por não existir na língua portuguesa recurso equivalente ao mencionado no trabalho relacionado PAPEL O PAPEL Palavras Associadas Porto Editora - Linguateca é um recurso lexical para a língua portuguesa que contém palavras e as relações semânticas entre elas. Esse recurso foi construído através da extracção automática de relações semânticas presentes nas definições de palavras no Dicionário da Língua Portuguesa da Porto Editora (OLIVEIRA et al., 2008). Na última versão do PAPEL, a 3.5, atualizada em agosto de 2013, o recurso contava com itens lexicais e relações semânticas entre eles. Esse recurso foi selecionado para representar, na língua portuguesa, o dicionário de palavras associadas utilizado em (LOUIS; HIGGINS, 2010) para expansão de enunciados, na língua inglesa.

30 WordNet O WordNet começou com um projeto de pesquisa da Princeton University (FELLBAUM, 1998) e contempla uma base de conhecimento onde substantivos, verbos, advérbios e adjetivos são organizados por uma variedade de relações semânticas. As palavras do léxico são mantidas dentro de um ou mais conjuntos de sinônimos (synsets), que representam conceitos. Como um dicionário comum, o WordNet contém as definições de palavras, mas difere porque ao invés de ser organizado alfabeticamente, é organizado conceitualmente (LEACOCK; CHODOROW, 1998 apud PASSERO; HAENDCHEN FILHO; DAZZI, 2016). Alguns exemplos de relações semânticas usadas pelo WordNet são hipernímia/hiponímia (éum), meronímia (é-parte-de), sinonímia (similar a) e antonímia (contrário de). Essas relações são associadas com palavras para formar uma estrutura hierárquica, que é uma ferramenta útil para a linguística computacional e processamento de linguagem natural (MENG et al., 2013 apud PASSERO; HAENDCHEN FILHO; DAZZI, 2016). A Figura 1 apresenta o conceito cachorro (synset n) e alguns dos seus relacionamentos no WordNet. Figura 3. Conceito cachorro e alguns de seus relacionamentos no WordNet Fonte: Passero, Haendchen Filho e Dazzi (2016). Oliveira et al. (2015) apresentam uma comparação de sete wordnets disponíveis para a língua portuguesa. Segundo os autores, o OpenWN-PT OpenWordNet-PT se destaca pelo conteúdo livre e gratuito e por ter sido adotado como representante das wordnets da língua portuguesa pelos projetos FreeLing, Open Multilingual Wordnet e Google Translate.

31 30 O OpenWN-PT foi criado utilizando aprendizagem de máquina para construção de grafos com a relação entre informações a partir de versões em múltiplas línguas da Wikipédia e de dicionários eletrônicos abertos (OLIVEIRA et al., 2015). Atualmente essa wordnet é mantida com revisão manual colaborativa e três técnicas de enriquecimento do seu léxico: (i) tradução de materiais produzidos para outras línguas; (ii) extração de expressões idiomáticas a partir de corpora; e (iii) extração de palavras de dicionários (OLIVEIRA et al., 2015). Considerando não haver um método de avaliação preciso para determinar a melhor wordnet para um contexto, este estudo optou pela instância mais popular, o OpenWN-PT, descrito em (PAIVA; RADEMAKER; MELO, 2012). No contexto desta pesquisa, o OpenWN-PT foi utilizado para expandir enunciados através da adição de sinônimos, como proposto por Louis e Higgins (2010). Essa técnica é voltada principalmente para enunciados curtos, onde a adição de termos similares aumenta as chances do computador encontrar relações entre o texto do enunciado e o da redação, melhorando assim o desempenho de sistemas de detecção de redações com fuga ao tema. Os modelos de ASST baseados em tesauros têm várias limitações, entre elas a ausência de certas palavras no tesauro, especialmente as de domínio específico, e a dificuldade em comparar palavras de hierarquias diferentes, como verbos e substantivos. Um dos meios de contornar esses problemas é a criação de modelos que extraem palavras e suas relações semânticas de modo automático a partir de grandes conjuntos de textos, também chamados de modelos distribucionais ou baseados em corpus (JURAFSKY; MARTIN, 2008) Modelos Baseados em Corpus A premissa dos modelos de ASST baseados em corpus é que o significado de uma palavra pode ser representado pelo contexto onde ela costuma aparecer. A famosa frase de Firth (1957) You shall know a word by the company it keeps! 11 é citada na literatura como precursora dos modelos de análise semântica baseados em corpus (JURAFSKY; MARTIN, 2008). Os modelos distribucionais 11 Em português: Você conhecerá uma palavra pela sua companhia (tradução livre). No texto em que essa alegação é apresentada, Firth não se referia ao contexto de uma palavra, mas a palavras próximas que lhe conferem um novo significado, como o caso das colocações e coligações. Por exemplo, a palavra branco assume diferentes sentidos, dependendo da sua colocação, como nas frases: deu branco na prova e o branco do papel.

32 31 são provavelmente o conceito de maior sucesso para a representação o sentido de uma palavra no espaço vetorial (MIKOLOV et al., 2013). Lin (1998) apresenta um exemplo interessante de como o contexto de uma palavra pode auxiliar na representação do seu significado (adaptado de NIDA, 1975 apud LIN, 1998, tradução nossa): Há uma garrafa de tejuino na mesa. Todos gostam de tejuino. Tejuino deixa as pessoas bêbadas. Tejuino é feito de milho. A palavra "tejuino pode parecer estranha ao vocabulário do leitor brasileiro comum e do corretor ortográfico do Microsoft Word 2016, no entanto é uma palavra que de fato existe no vocabulário da língua portuguesa. O contexto acima permite inferir que tejuino é uma bebida alcoólica feita de milho. De modo similar, os modelos de ASST baseados em corpus inferem o sentido das palavras através das palavras que ocorrem no seu contexto (JURAFSKY; MARTIN, 2008). O contexto de uma palavra é normalmente capturado pelos modelos distribucionais através de uma matriz de coocorrências. Nessa matriz, as linhas representam as palavras do vocabulário e as colunas representam o contexto onde essas palavras ocorrem (palavras, sentenças ou documentos) (JURAFSKY; MARTIN, 2008). Por exemplo, dados os usos contextuais apresentados abaixo para o vocabulário {maçã, banana, comer, computador}, poder-se-ia obter a matriz de coocorrências apresentada na Tabela 1. Eu gosto de comer maçã e banana. Maçã e banana são frutas. Um computador pode processar dados. Tabela 1. Exemplo de matriz de coocorrências Palavra comer frutas processar dados maçã banana computador A partir da matriz de coocorrências apresentada na Tabela 1, pode-se inferir que maçã e banana possuem um grau maior de similaridade que maçã e computador, haja vista que o contexto

33 32 de maçã é mais similar ao contexto de banana. Na análise de similaridade textual com modelos distribucionais, palavras e documentos são representados através de vetores, que apontam o sentido do texto. O nível de similaridade entre duas palavras ou documentos pode ser mensurado comparando os dois vetores relacionados, sendo uma das medidas mais usadas o cosseno do ângulo. Considerando o exemplo da Tabela 1, o cosseno do ângulo entre as palavras maçã e banana seria 1.00, enquanto que para as palavras maçã e computador esse índice seria Grandes corpora de textos são usados na construção de modelos distribucionais com objetivo de construir representações de sentidos que abrangem grande parte do léxico de uma língua. Esses corpora são convertidos em uma matriz de coocorrências grande e esparsa, onde podem ser aplicadas funções de transformação como TF IDF (Term Frequency Inverse Document Frequency) e PMI (Pointwise Mutual Information), para atribuir peso maior às palavras mais relevantes a um contexto, e de compactação como a decomposição em valores singulares (SVD). Na literatura sobre detecção de redações com fuga ao tema, os modelos distribucionais atualmente utilizados são: LDA (Latent Dirichlet Allocation), RI (Random Indexing), Word2Vec e CVA. Essas abordagens consistem em converter um grande corpus de textos, por vezes representado através de uma matriz de coocorrências esparsa, em um modelo de análise semântica capaz de traduzir uma palavra ou texto para um vetor de números. Cada posição desse vetor representa o grau de pertinência da palavra/texto a um aspecto semântico. Com isso, unidades léxicas similares formarão vetores similares, sendo que tal similaridade é comumente mensurada através do cosseno do ângulo entre os vetores. Os modelos distribucionais atualmente utilizados na literatura sobre detecção de fuga ao tema são descritos nas seções seguintes LDA LDA é um modelo probabilístico para coleções de dados discretos, como corpora de textos. Esse modelo visa o processamento eficiente de grandes conjuntos de dados com preservação de relações estatísticas essenciais que são úteis a tarefas básicas de PLN, como classificação de documentos, detecção de novidades, sumarização e análise de similaridade e de relevância (BLEI et al., 2003). A ideia básica do LDA é a representação de documentos como mesclas aleatórias sobre tópicos latentes, onde cada tópico é caracterizado por uma distribuição sobre palavras (BLEI et al.,

34 ). Isto é, no processo de modelagem LDA, um documento é tratado como um conjunto de tópicos ou assuntos e o seu grau de participação no todo. As palavras do documento, por sua vez, também possuem uma distribuição de probabilidades sobre os tópicos. Uma das desvantagens do modelo LDA é que alguns parâmetros precisam ser previamente definidos, como o número de tópicos ou dimensões a serem utilizados. Além disso, esse modelo pode apresentar um custo computacional bastante elevado em conjuntos de dados muito grandes (MIKOLOV et al., 2013). No contexto de detecção automática de redações com fuga ao tema, o LDA pode ser utilizado a fim de estimar os tópicos ou assuntos abordados pelo enunciado da proposta temática e pela redação. Essa estimativa é representada através de vetores semânticos multidimensionais. Essa abordagem apresenta vantagens às técnicas de análise de similaridade textual que se baseiam exclusivamente na superfície textual, pois é capaz de reconhecer relações conceituais entre o enunciado e a redação (PERSING; NG, 2014). Persing e Ng (2014) apresentam um exemplo de situação que motiva o uso de modelos de análise semântica na detecção de fuga ao tema: Por exemplo, considere o enunciado Todos os exércitos devem ser totalmente compostos por soldados profissionais: não há valor em um sistema de serviço militar.. Uma redação que contenha termos como paz, patriotismo ou treinamento provavelmente não desrespeita a proposta temática, e, portanto, não devem ser penalizadas por discutir esses tipos.[...] Um modelo [LDA] pode nos dizer, por exemplo, que uma determinada redação na proposta do tema militar gasta 35% do tempo discutindo o tópico homem, militar, serviço, prestação e guerra e 65% do tempo discutindo um tópico cujas palavras mais importantes são totalmente, contar, comum, checo e dia. Como o último tópico é tão discutido na redação e não parece ter relação com o tema militar, essa redação provavelmente receberá uma nota ruim de adequação ao tema. (PERSING; NG, V., 2014, p. 1538) O RI é outro modelo distribucional comumente utilizado na tarefa de análise de similaridade textual. Esse modelo também foi utilizado por Persing e Ng (2014), como complemento ao LDA. Na seção seguinte é apresentada uma introdução ao RI e ao seu uso na detecção de redações com fuga ao tema.

35 RI Em resposta às limitações observadas em modelos distribucionais anteriores, podendo-se citar o LSA Análise de Semântica Latente ou Latent Semantic Analysis, principalmente em relação aos requisitos de memória e processamento, a abordagem Random Indexing (RI) surgiu como uma alternativa eficiente, escalável e incremental para representação de palavras em vetores (SAHLGREN, 2005). A técnica RI tem como ideia base acumular vetores de contexto baseados na ocorrências de palavras em um contexto e pode ser descrita em uma operação de duas etapas (SAHLGREN, 2005): Cada contexto (documento ou palavra) recebe uma representação única aleatória chamada de vetor de índice. Os vetores de índice são esparsos, com dimensionalidade na ordem dos milhares, e contém um conjunto de valores +1s, -1s e 0s aleatoriamente distribuídos. Os vetores de contexto são produzidos a partir dos textos do corpus. Cada vez que uma palavra ocorre em um contexto, o vetor de índice desse contexto é adicionado ao vetor de contexto da palavra em questão. Através dessa operação, palavras podem ser representadas através de um vetor. Sahlgren (2005) cita alguns estudos onde se pôde verificar a eficácia da técnica RI na análise semântica textual. Entre eles, vale mencionar o experimento de Karlgren e Sahlgren (2001), onde foi aplicado RI para resolver questões aplicadas no TOEFL 12 Teste de Inglês como Língua Estrangeira que tratavam de encontrar sinônimos. Os resultados alcançados foram promissores, haja vista que a taxa de acerto do computador (72%) foi maior que a dos falantes não nativos, estudantes candidatos a universidades dos EUA (64,5%). De modo similar a outros modelos distribucionais de análise semântica, o RI pode ser utilizado na tarefa de detecção de redações com fuga ao tema como meio de verificação da proximidade entre o enunciado e a redação. Adicionalmente, o RI pode ser utilizado para detectar os conceitos esperados em uma redação através de grupos de palavras-chave que representem esses conceitos, como proposto por Persing e Ng (2014). Na seção seguinte é apresentado o Word2Vec, um outro modelo de análise semântica encontrado na literatura sobre detecção de redações com fuga ao tema. O Word2Vec é o 12 O TOEFL é um exame internacional que visa avaliar a capacidade de usar e compreender o inglês em nível universitário.

36 35 mais recente entre os três modelos distribucionais encontrados e tem apresentado resultados promissores na análise semântica textual Word2Vec Word2Vec é uma abordagem para modelagem de palavras em vetores através de redes neurais com aprendizado não supervisionado (MIKOLOV et al., 2013). Um modelo Word2Vec treinado em um grande corpus permite realizar operações algébricas em vetores de palavras, como no famoso exemplo vetor( rei ) vetor( homem ) + vetor( mulher ) ~= vetor( rainha ). O Quadro 2 apresenta alguns exemplos de analogias que podem ser inferidas de modo automático por um modelo Word2Vec onde, dado o relacionamento apresentado na primeira coluna, pode-se inferir as palavras à direita nas colunas seguintes. Por exemplo, as duas primeiras linhas e colunas podem ser interpretadas da seguinte forma: França está para Paris, assim como Itália está para Roma ; e Cobre está para Cu, assim como zinco está para Au. Quadro 2. Exemplos de analogias avaliadas por um modelo Word2Vec Skip-gram treinado em 783M de palavras com 300 dimensões Relação Exemplo 1 Exemplo 2 Exemplo 3 França Paris Itália: Roma Japão: Tóquio Florida: Tallahassee cobre Cu zinco: Zn ouro: Au urânio: plutônio Miami Florida Baltimore: Maryland Dallas: Texas Kona: Havaí Einstein cientista Messi: meio campo Mozart: violinista Picasso: pintor Sarkozy França Berlusconi: Itália Merkel: Alemanha Koizumi: Japão Berlusconi Silvio Sarkozy: Nikolas Putin: Medvedev Obama: Barack Microsoft Windows Google: Android IBM: Linux Apple: iphone Microsoft Ballmer Google: Yahoo IBM: McNealy Apple: Jobs Japão sushi Alemanha: bratwurst França: tapas EUA: pizza Fonte: Adaptado de Mikolov et al. (2013). As redes Word2Vec se dividem em dois tipos principais, o modelo CBOW (Continous Bagof-Words) e o modelo Skip-gram. Os dois modelos são similares, exceto que o primeiro visa predizer uma palavra dado um contexto, enquanto que o segundo visa estimar o contexto de uma palavra. O contexto ou janela (C) é um dos hiperparâmetros de uma rede Word2Vec. Por exemplo, caso seja definida a constante C = 5, para cada palavra de um corpus de treino poderão ser consideradas para alimentação da rede as cinco palavras imediatamente anteriores e as cinco palavras subsequentes. A Figura 4 apresenta um esquema das arquiteturas CBOW e Skip-gram.

37 36 Levy e Goldberg (2014) mostraram que as redes Word2Vec implicitamente criam uma versão fatorada de uma matriz palavra contexto, cujas células representam a medida de associação Pointwise Mutual Information (PMI). A medida PMI quantifica a discrepância entre a probabilidade de coincidência de duas variáveis, dada a sua distribuição de probabilidade conjunta e a sua distribuição individual. Figura 4. Arquitetura das redes Word2Vec tipos CBOW e Skip-gram Fonte: Mikolov et al. (2013). As redes neurais Word2Vec podem apoiar a detecção de redações com fuga ao tema. Para isso, são geradas representações vetoriais para o texto de uma redação e para o enunciado da proposta temática. Comparando-se os vetores (por exemplo, utilizando o cosseno do ângulo), pode-se verificar a aderência de uma redação ao tema (REI; CUMMINS, 2016). No estudo de Rei e Cummins (2016), a variante CBOW foi utilizada para tratar a tarefa de estimar a aderência ao tema de redações ao nível de sentença. Apesar da rede estar preparada para converter uma palavra em uma representação vetorial, a conversão de sentenças inteiras exige maior complexidade. Uma abordagem simples para conversão de sentenças em vetores semânticos com uma rede Word2Vec é obter a soma dos vetores de todas as palavras da sentença, no entanto esse método

38 37 não respeita a relevância de cada palavra no contexto. Uma forma de resolver esse problema pode ser a combinação de Word2Vec ao esquema de pesos TF IDF (REI; CUMMINS, 2016). Na seção seguinte é apresentada a quarta e última técnica de análise de similaridade textual baseada em corpus CVA Análise de Vetor de Conteúdo (CVA Content Vector Analysis) é um método da área de Recuperação de Informação (RI) para quantificar a similaridade de vocabulário entre dois textos (HIGGINS; BURSTEIN; ATTALI, 2006). Através desse método simples os textos são representados por um vetor, onde cada posição contém a frequência de uma palavra com peso. O peso das palavras normalmente é calculado com a métrica TF IDF, que consiste na multiplicação da frequência do termo pelo inverso da frequência desse termo nos documentos de um corpus. Desse modo, aplicandose a métrica TF IDF, os termos que aparecem com frequência em um documento, mas com pouca frequência em outros, são considerados relevantes e recebem um peso maior. Consequentemente, palavras comuns no uso da língua, como os artigos um, uma, o e a, recebem um peso bastante baixo. Uma das principais limitações de CVA na tarefa de detecção de fuga ao tema é a restrição à superfície textual, em outras palavras, o fato dessa técnica exigir que os dois textos compartilhem exatamente as mesmas palavras para serem considerados similares (REI; CUMMINS, 2016). Uma forma de reduzir essa limitação é remover palavras vazias (stopwords) 13 e aplicar alguma técnica de normalização morfológica das palavras, como extração de radical (stemming) ou lematização 14. Ao mesmo tema, em alguns cenários, como na detecção de fuga ao tema em grandes conjuntos de redações, a exigência da ocorrência de palavras exatas na redação pode ser vista como uma vantagem dessa técnica (HIGGINS; BURSTEIN; ATTALI, 2006). 13 A expressão palavras vazias ou stopwords é comumente utilizada para se referir a palavras auxiliares com pouco ou nenhum significado próprio em um texto, muitas vezes removidas durante a etapa de pré-processamento de um sistema de processamento de linguagem natural (ex. o, a, do, em ). 14 A lematização é um processo que consiste em deflexionar uma palavra de modo que se obtenha seu lema. Com isso, verbos são comumente reduzidos à forma infinitiva e substantivos e adjetivos ao masculino singular.

39 APRENDIZADO DE MÁQUINA O aprendizado de máquina é uma área de pesquisa da computação que busca a criação de programas de computador capazes de aprender, isto é, capazes de melhorar o desempenho na realização de alguma tarefa por meio da experiência (MITCHELL, 1997, p. 2, tradução nossa). Faceli et al. (2011) apresentam uma descrição sobre o aprendizado de máquina considerando o seu contexto histórico: Nas últimas décadas, com a crescente complexidade dos problemas a serem tratados computacionalmente e do volume de dados gerados por diferentes setores, tornou-se clara a necessidade de ferramentas computacionais mais sofisticadas, que fossem mais autônomas, reduzindo a necessidade de intervenção humana e dependência de especialistas. Para isso, essas técnicas deveriam ser capazes de criar por si próprias, a partir da experiência passada, uma hipótese, ou função, capaz de resolve o problema que se deseja tratar. [...] A esse processo de indução de uma hipótese (ou aproximação de função) a partir da experiência passada dá-se o nome Aprendizado de Máquina (AM). (FACELI et al., 2011, p. 2) Mitchell (1997) apresenta uma definição mais formal sobre aprendizado de máquina: Diz-se que um programa de computador aprende a partir da experiência E, considerando a algum tipo de tarefa T e medida de desempenho P, se seu desempenho na tarefas T, como medido por P, melhora com a experiência E. (MITCHELL, 1997, p. 2, tradução nossa) As pesquisas na área de aprendizado de máquina envolvem várias áreas da ciência, incluindo Inteligência Artificial, Probabilidade e Estatística, Teoria da Computação, Neurociência, Teoria da Informação e outras (FACELI et al., 2011). Entre diversas soluções de software bem-sucedidas que aplicam técnicas de aprendizado de máquina, podem ser citadas: reconhecimento de voz, predição de taxa de cura de pessoas doentes, detecção de fraudes, automóveis autônomos e classificação de estruturas astronômicas (FACELI et al., 2011; MITCHELL, 1997). As tarefas de aprendizado podem ser preditivas (supervisionado) ou descritivas (não supervisionado). As tarefas preditivas buscam aproximar uma função ou hipótese que permita prever uma classe ou valor para um exemplo, com base em um conjunto de experiências passadas, normalmente chamado de conjunto de treinamento. Por outro lado, as tarefas descritivas auxiliam a explorar e descrever um conjunto de dados, utilizando técnicas de agrupamento de objetos semelhantes e reconhecimento de associações entre variáveis (FACELI et al., 2011). A Figura 5 apresenta uma hierarquia de aprendizado contemplando as categorias descritas.

40 39 No contexto desta pesquisa, destacam-se as tarefas de aprendizado supervisionado, em especial a tarefa de classificação. A detecção de redações com fuga ao tema pode ser vista como uma tarefa de classificação binária, onde busca-se encontrar uma função capaz de identificar se uma redação pertence à classe sem fuga ao tema ou com fuga ao tema. Por outro lado, em estudos que tentam estimar o grau de aderência ao tema de uma redação, os métodos de regressão podem ser mais adequados, pois têm como saída um valor contínuo. Figura 5. Hierarquia de aprendizado Fonte: Adaptado de Faceli et al. (2011, p. 6). Existem diversos algoritmos de classificação e regressão na literatura, entre eles o algoritmo k-nn (k-vizinhos mais próximos), Naive Bayes, árvores de decisão e regressão, redes neurais artificiais e máquinas de vetores de suporte (FACELI et al., 2011). Esses algoritmos buscam aproximar uma função capaz de classificar ou estimar um valor a partir de um conjunto de exemplos. A Figura 6 ilustra a rotina de aprendizado, onde dado um conjunto de exemplos, em que cada exemplo é representado por um conjunto de atributos (x 1..m ) e a sua classe (y), aplicam-se técnicas de aprendizado de máquina a fim de se obter um classificador f(x).

41 40 Figura 6. Indução de classificador em aprendizado supervisionado Fonte: Lorena e Carvalho (2007, p. 45). Na literatura existente sobre detecção de redações com fuga ao tema, as técnicas de aprendizado de máquina utilizadas para predição são regressão linear e regressão por vetores de suporte. Essas técnica foram aplicada nas pesquisas de Klebanov, Flor e Gyawali (2016), Chen e Zhang (2016) e Persing e Ng (2014). Na pesquisa de Higgins, Burstein e Attali (2006) foram aplicadas máquinas de vetores de suporte como um classificador binário, contudo tendo em vista classificar redações com tentativa deliberada de fraude/má-fé. Na seção seguinte é apresentada uma descrição sobre regressão linear e máquinas de vetores de suporte e a sua aplicação na detecção de redações com fuga ao tema Regressão Linear A regressão linear é uma equação usada para estimar um valor esperado, ou variável dependente (y), através do valor de uma ou mais variáveis independentes (x). Em vários problemas, há uma ou mais variáveis estão relacionadas, e pode ser importante e útil modelar esse relacionamento (MONTGOMERY; PECK; VINING, 2015). A fórmula geral de regressão linear é y = α 0 + α 1 X 1 + α 2 X α n X n (1) onde y é a variável a ser explicada, ou seja, o valor que se deseja estimar. O alpha zero (α0) é uma constante, que representa a interceptação da linha no eixo vertical. As variáveis explanatórias são representadas por X, e são ponderadas por α1 αn.

42 41 Na tarefa de estimar a adequação ao tema de uma redação, a variável dependente y normalmente é tratada como o grau de adequação ao tema e as variáveis independentes X1 Xn são as características relevantes a essa tarefa, extraídas da redação utilizando técnicas de processamento de linguagem natural, análise semântica, análise probabilística e outras. Na Figura 7 é apresentado um exemplo de regressão linear onde o número de palavras do enunciado presentes na redação foi utilizado para aproximar uma função de estimativa do valor de adequação ao tema, que nesse exemplo fictício é contínuo e está no intervalo [0, 4]. Figura 7. Exemplo de regressão linear para predição do grau de adequação ao tema Os pontos pretos na Figura 7 representam instâncias de redações de um conjunto de treino e a função y hat é a hipótese induzida através do método dos mínimos quadrados e está representada pela linha vermelha. O método dos mínimos quadrados é comumente utilizado na regressão linear para encontrar a função com melhor ajuste a um conjunto de dados através da minimização da soma das diferenças ao quadrado entre o valor previsto e o real (MONTGOMERY; PECK; VINING, 2015). No exemplo da Figura 7, pode-se interpretar os coeficientes da função aproximada do seguinte modo: para uma redação que não contém nenhuma palavra do enunciado, pode-se deduzir um índice de adequação ao tema de (α0); para redações que contenham alguma palavra do enunciado, o índice de adequação ao tema pode ser deduzido somando a constante (α0) ao número de palavras do enunciado presentes multiplicado por 0.07 (α1). Assim, pode-se inferir que uma redação precisaria

43 42 conter ao menos 58 palavras para atingir o índice máximo 4, e ao menos 5 palavras para obter um índice maior que zero. Ainda não se pode garantir que os valores previstos no exemplo sejam precisamente o índice que um avaliador humano atribuiria à redação. Na Figura 7 pode-se visualizar que os pontos, apesar de próximos do previsto pelo modelo (linha vermelha), dificilmente correspondem exatamente à estimativa. Apesar do exemplo discutido apresentar uma boa capacidade explicativa, com correlação linear > 0.95, em um cenário real esse modelo provavelmente seria falho, pois aborda o problema sem considerar diversas outras variáveis relevantes Máquinas de Vetores de Suporte A máquina de vetores de suporte (support vector machine SVM) é uma técnica de aprendizado supervisionado, embasada pela teoria de aprendizado estatístico, e tem sido aplicada com sucesso em diversos domínios, como categorização de textos e em Bioinformática (FACELI et al., 2011). A teoria do aprendizado estatístico foi desenvolvida por Vapnik (1995 apud FACELI et al., 2011) e estabelece princípios para obtenção de classificações com boa generalização, ou seja, com capacidade de prever corretamente a classe de novos dados do mesmo domínio em que o aprendizado ou treino ocorreu (LORENA; CARVALHO, 2007). Segundo a teoria do aprendizado estatístico, dado o conjunto de todos os classificadores que um algoritmo de aprendizado de máquina pode gerar, aplicando-se um conjunto de treinamento, composto por atributos e classes de instâncias do problema, pode-se aproximar o classificador ideal (LORENA; CARVALHO, 2007). A Figura 8 apresenta um exemplo de conjunto de treinamento onde a classe das instâncias é representada por círculos e triângulos e a hipótese induzida por um classificador é representada através de uma linha.

44 43 Figura 8. Conjunto de treinamento binário e três diferentes hipóteses Fonte: Lorena e Carvalho (2007, p. 46). Na Figura 8, pode-se verificar que a hipótese (a) está muito específica ou sobreajustada ao conjunto de treinamento, por outro lado a hipótese (c) não está bem ajustada ao conjunto. Em ambos os casos, o modelo apresenta grandes chances de cometer erros ao classificar novos dados. A hipótese (b), por outro lado, parece se ajustar bem ao conjunto de treinamento e não foi afetada pelos exemplos anômalos (outliers). Entre as três hipóteses, provavelmente a hipótese (b) teria maior sucesso ao classificar novos exemplos. A técnica de SVM pode ser aplicada em problemas lineares e não lineares, de classificação e de regressão. Na literatura sobre detecção de redações com fuga ao tema, a técnica de SVM tem sido aplicada na variante de regressão linear, também chamada de regressão por vetores de suporte (support vector regression SVR) Regressão por Vetores de Suporte Na regressão por vetores de suporte, o objetivo é encontrar uma função f(x) que tenha no máximo ε de desvio dos valores y i do conjunto de treino, e ao mesmo tempo tão plana quanto possível (SMOLA; SCHÖLKOPF, 2004). A função linear f(x) pode ser descrita pela equação (2). f(x) = w x + b onde w X, b R (2)

45 44 A regularização do vetor de suporte w faz parte do algoritmo SVR e consiste na minimização do módulo w, como apresentado em (3). O treinamento do regressor também se submete às restrições da equação (4), relacionadas ao desvio aceitável definido no parâmetro ε. minimizar 1 2 w ² (3) com as restrições { y i w x b ε w x b y i ε (4) Modelos de SVR podem ser construídos utilizando as variáveis de folga ξ e ξ a fim de lidar com ruídos e exemplos anômalos. Nesse caso, utilizam-se a variante do modelo acima como definido por Vapnik (1995 apud FACELI et al., 2011). minimizar 1 2 w 2 + C (ξ i + ξ i ) l i=1 (5) y i w x b ε + ξ i com as restrições { w x b y i ε + ξ i ξ i, ξ i 0 (6) No caso do exemplo apresentado na Figura 7, onde foi demonstrada a aplicação de regressão linear para estimar a adequação ao tema de redações, há pouco ruído no conjunto de treinamento. A alteração da técnica de aprendizado de máquina de regressão linear para SVR naquele exemplo produzir uma hipótese similar ou equivalente. A fim de exemplificação do funcionamento, foram adicionados alguns exemplos anômalos na amostragem da Figura 7 para contrastar o comportamento de regressão linear e SVR. A Figura 9 apresenta a adaptação do exemplo utilizando a implementação de SVR da biblioteca scikit-learn, kernel linear e demais parâmetros com valor padrão.

46 45 Figura 9. Exemplo da utilização de regressão linear e SVR para predição do grau de adequação ao tema em um conjunto com exemplos anômalos Pode-se observar na Figura 9 que, como esperado, o método de regressão linear se comporta diferente do método de SVR. Ao contrário da regressão linear, o modelo de SVR induzido foi pouco afetado pelos exemplos anômalos (pontos vermelhos), o que pode ser constatado na nova fórmula de regressão. O ponto de interceptação em y teve uma pequena variação em comparação ao modelo de regressão linear sem outliers apresentado na Figura 5, enquanto que o fator de multiplicação de x se manteve em 0.07 (número arredondado) Métricas de Avaliação Durante o desenvolvimento de modelos de aprendizado de máquina é importante medir o desempenho do modelo ao realizar a tarefa visada. Existem diversas funções matemáticas para avaliar o desempenho de modelos de classificação de textos, as quais podem ser chamadas de métricas de avaliação. Para a tarefa de classificação binária, foco desta pesquisa, encontram-se na literatura diversas métricas, incluindo: acurácia, precisão, recall ou sensibilidade, valor-f (F-score), especificidade e área abaixo da curva ROC (AUC) (SOKOLOVA; LAPALME, 2009). Na revisão da literatura sobre detecção de fuga ao tema foram encontradas as métricas de acurácia, precisão, recall, valor-f, taxa de falsos positivos e taxa de falsos negativos. Essas métricas podem ser extraídas a partir de uma matriz de confusão, composta pelos seguintes indicadores:

Aula 1: Apresentação

Aula 1: Apresentação Aula 1: Apresentação O que é a redação? Esse substantivo é derivado do verbo redigir; de acordo com o dicionário Aurélio, o vocábulo redigir vem do latim redigere e significa, entre outras especificações,

Leia mais

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words

Leia mais

A REDAÇÃO NO ENEM INSTITUTO SANTA LUZIA COMPONENTE CURRICULAR: REDAÇÃO PROFESSOR: EDUARDO BELMONTE 2º ANO ENSINO MÉDIO

A REDAÇÃO NO ENEM INSTITUTO SANTA LUZIA COMPONENTE CURRICULAR: REDAÇÃO PROFESSOR: EDUARDO BELMONTE 2º ANO ENSINO MÉDIO A REDAÇÃO NO ENEM INSTITUTO SANTA LUZIA COMPONENTE CURRICULAR: REDAÇÃO PROFESSOR: EDUARDO BELMONTE 2º ANO ENSINO MÉDIO FATOS SOBRE A PROVA DE REDAÇÃO Todas as redações desenvolvidas no ENEM são avaliadas;

Leia mais

CONCURSO DE TEXTO DISSERTATIVO-ARGUMENTATIVO: MODELO ENEM

CONCURSO DE TEXTO DISSERTATIVO-ARGUMENTATIVO: MODELO ENEM CONCURSO DE TEXTO DISSERTATIVO-ARGUMENTATIVO: MODELO ENEM 1 ESCLARECIMENTOS GERAIS 1.1 DEFINIÇÃO E FINALIDADE O Concurso de texto dissertativo-argumentativo: modelo ENEM definese como uma simulação da

Leia mais

Revisão/Mapeamento Sistemático

Revisão/Mapeamento Sistemático Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação SSC0572 - Computadores, Sociedade e Ética Profissional Revisão/Mapeamento Sistemático Prof. Dr. José Carlos Maldonado PAE: Pedro

Leia mais

PROGRAMA DUAL STUDY. PROCESSO SELETIVO MANUAL DO CANDIDATO nº 01/2019

PROGRAMA DUAL STUDY. PROCESSO SELETIVO MANUAL DO CANDIDATO nº 01/2019 PROGRAMA DUAL STUDY PROCESSO SELETIVO - 2019 MANUAL DO CANDIDATO nº 01/2019 O Diretor das FACULDADES DE CIÊNCIAS ECONÔMICAS, ADMINISTRATIVAS E DA COMPUTAÇÃO DOM BOSCO (FCEACDB), mantidas pela ASSOCIAÇÃO

Leia mais

REDAÇÃO 3º SIMULADO MODELO ENEM ª SÉRIE e PRÉ-VESTIBULAR 2º NOTA: Nome completo: Matrícula: Unidade: Turma: Corretor:

REDAÇÃO 3º SIMULADO MODELO ENEM ª SÉRIE e PRÉ-VESTIBULAR 2º NOTA: Nome completo: Matrícula: Unidade: Turma: Corretor: 3º SIMULADO MODELO ENEM - 2015 3ª SÉRIE e PRÉ-VESTIBULAR 2º DIA REDAÇÃO EXAME NACIONAL DO ENSINO MÉDIO NOTA: Nome completo: Matrícula: Unidade: Turma: Corretor: INSTRUÇÕES 1. A REDAÇÃO SERÁ AVALIADA DE

Leia mais

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS 7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução

Leia mais

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a 1 Introdução 1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a partir de dados. Existem diversas aplicações

Leia mais

PALESTRA SOBRE REDAÇÃO DO ENEM

PALESTRA SOBRE REDAÇÃO DO ENEM PALESTRA SOBRE REDAÇÃO DO ENEM Profa. Íris Cristine Odízio - O EXAME NACIONAL DO ENSINO MÉDIO. - REDAÇÃO. HISTÓRIA DO EXAME NACIONAL DO ENSINO MÉDIO. O Exame Nacional do Ensino Médio (Enem) foi criado

Leia mais

Redação Profa. Raquel

Redação Profa. Raquel Aula Enem 2016 Redação Profa. Raquel O que sua dissertação deve apresentar: DISSERTAÇÃO Como você que será avaliado(a)? Competência 1 NORMA Demonstrar CULTA domínio da modalidade escrita formal da Língua

Leia mais

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin.

Leia mais

Não considerada: 0 pontos Precário: 40 pontos Insuficiente: 80 pontos Mediano: 120 pontos Bom: 160 pontos Ótimo: 200 pontos

Não considerada: 0 pontos Precário: 40 pontos Insuficiente: 80 pontos Mediano: 120 pontos Bom: 160 pontos Ótimo: 200 pontos Competências ENEM Antes de relacionarmos as cinco competências do ENEM, esclarecemos que a prova de redação vale 1000 pontos no total (dividindo esse valor entre os 5 aspectos, cada um deles tem peso de

Leia mais

Mineração de Textos. Mineração de Textos

Mineração de Textos. Mineração de Textos Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados

Leia mais

Apresentação. Geek Educacional

Apresentação. Geek Educacional Apresentação Geek Educacional Geek Educacional 02 Geek Educacional 03 Geek Educacional A Geek Educacional é uma empresa especializada em pesquisas e desenvolvimento de soluções, que viabilizam um melhor

Leia mais

8.1 Principais Resultados

8.1 Principais Resultados 8 Conclusões Nesta dissertação, descrevemos um sistema multi-agente para negociação em leilões simultâneos de bens relacionados. Quando falamos de agentes de negociação nos referimos ao software que negocia

Leia mais

Edital DESAFIO UCEFF / Edição 2019

Edital DESAFIO UCEFF / Edição 2019 Edital DESAFIO UCEFF / Edição 2019 1 DO CONCURSO 1.1. O Desafio UCEFF tem caráter educativo, sendo a participação voluntária e gratuita. 1.2. Não envolve qualquer modalidade de sorteio ou pagamento, nem

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+ Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

PROJETO DE PESQUISA FISA/2018

PROJETO DE PESQUISA FISA/2018 PROJETO DE PESQUISA FISA/2018 Prof. Alan Nicolaev (Metodologia Científica) Prof.a Lilian Onuki (Produção Textual) Elementos de um PROJETO DE PESQUISA 1. Capa Nome do autor; Título; Local de publicação;

Leia mais

Universidade Federal do Rio Grande FURG Instituto de Ciências Humanas e da Informação ICHI. Curso de Psicologia

Universidade Federal do Rio Grande FURG Instituto de Ciências Humanas e da Informação ICHI. Curso de Psicologia Normas para o TCC Psicologia Furg - 1 Universidade Federal do Rio Grande FURG Instituto de Ciências Humanas e da Informação ICHI Curso de Psicologia Trabalho Monográfico de Conclusão de Curso (TCC) 1.

Leia mais

5º SIMULADO MODELO ENEM

5º SIMULADO MODELO ENEM 5º SIMULADO MODELO ENEM - 2016 3ª SÉRIE e PRÉ-VESTIBULAR REDAÇÃO 2º A DI NOTA: Nome completo: Matrícula: Unidade: Turma: Corretor: Exame Nacional do Ensino Médio EDUCANDO PARA SEMPRE INSTRUÇÕES INSTRUÇÕES

Leia mais

Laboratório de Redação

Laboratório de Redação Laboratório de Redação COLÉGIO O BOM PASTOR LABORATÓRIO DE REDAÇÃO II CONCURSO DE REDAÇÃO O Colégio O Bom Pastor, por meio do Laboratório de Redação, promove o II Concurso de Redação, com o objetivo de

Leia mais

Resolução da Questão 1 (Texto Definitivo)

Resolução da Questão 1 (Texto Definitivo) Questão Um dos conceitos principais da teoria estatística é o chamado teste de hipóteses, que consiste em testar uma hipótese a respeito de um parâmetro da distribuição de uma variável de interesse. Nesse

Leia mais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente

Leia mais

MINISTÉRIO DA EDUCAÇÃO SECRETARIA DA EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA INSTITUTO FEDERAL GOIANO - CAMPUS TRINDADE

MINISTÉRIO DA EDUCAÇÃO SECRETARIA DA EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA INSTITUTO FEDERAL GOIANO - CAMPUS TRINDADE 1. Identificação Instituição Docente Curso Unidade Curricular Instituto Federal de Educação, Ciência e Tecnologia Goiano - Campus Trindade Rosana Alves Simão dos Santos Técnico Integrado em Edificações

Leia mais

Detecção de Posicionamento no contexto de Fake News

Detecção de Posicionamento no contexto de Fake News Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Detecção de Posicionamento no contexto de Fake News Larissa Navarro Passos de Araujo Proposta de Trabalho de

Leia mais

2 Reconhecimento Facial

2 Reconhecimento Facial 2 Reconhecimento Facial Em termos gerais, o reconhecimento facial é o processo pelo qual se mede o grau de similaridade entre duas imagens faciais com o proposito de identificar a um indivíduo ou de verificar

Leia mais

PRÁTICA DE ENSINO SUPERVISIONADA PLANIFICAÇÃO A MÉDIO PRAZO. Ano Letivo 2012/2013. Disciplina de Língua Portuguesa-8ºano-Turma 1

PRÁTICA DE ENSINO SUPERVISIONADA PLANIFICAÇÃO A MÉDIO PRAZO. Ano Letivo 2012/2013. Disciplina de Língua Portuguesa-8ºano-Turma 1 PRÁTICA DE ENSINO SUPERVISIONADA PLANIFICAÇÃO A MÉDIO PRAZO Ano Letivo 2012/2013 Disciplina de Língua Portuguesa-8ºano-Turma 1 C UNIDADE: TEXTOS NARRATIVOS DOMÍNIOS OUVIR/FALAR: Participar em situações

Leia mais

Manual para elaboração do Trabalho de Conclusão de Curso

Manual para elaboração do Trabalho de Conclusão de Curso Manual para elaboração do Trabalho de Conclusão de Curso 1 2 Manual para elaboração do Trabalho de Conclusão de Curso UNIVERSIDADE FEDERAL DO MARANHÃO PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO UNIVERSIDADE

Leia mais

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin.

Leia mais

Metodologia Científica. Aula 8 Estrutura de Artigos Científicos

Metodologia Científica. Aula 8 Estrutura de Artigos Científicos Metodologia Científica Aula 8 Estrutura de Artigos Científicos Profa. Ms. Daniela Cartoni daniela_cartoni@yahoo.com.br Artigos científicos De acordo com a ABNT (NBR 6022, 2003): Artigo científico é parte

Leia mais

FORMAÇÃO DE PROFESSORES: CRIAÇÃO DE MATERIAL EDUCACIONAL PARA AMBIENTE VIRTUAL DE APRENDIZAGEM

FORMAÇÃO DE PROFESSORES: CRIAÇÃO DE MATERIAL EDUCACIONAL PARA AMBIENTE VIRTUAL DE APRENDIZAGEM Universidade Federal do Rio Grande FURG Secretaria de Educação a Distância SEaD FORMAÇÃO DE PROFESSORES: CRIAÇÃO DE MATERIAL EDUCACIONAL PARA AMBIENTE VIRTUAL DE APRENDIZAGEM Planejamento Pedagógico Contexto

Leia mais

CURSO DE ENGENHARIA DA PRODUÇÃO

CURSO DE ENGENHARIA DA PRODUÇÃO CURSO DE ENGENHARIA DA PRODUÇÃO REGULAMENTO DE TRABALHO DE CURSO I O presente documento destina-se a reger as atividades de Trabalho de Curso I, modalidade Projeto de Pesquisa, do Curso de Engenharia da

Leia mais

Anexo I Modelo de Proposta Estruturado

Anexo I Modelo de Proposta Estruturado Anexo I Modelo de Proposta Estruturado 1 Conforme estabelecido no item 6.6 da Chamada, as propostas deverão incluir um arquivo anexo, seguindo obrigatoriamente o seguinte modelo: 1.1 Título do Projeto:

Leia mais

E-prova: Sistema para Elaboração de Avaliações no Padrão Enade

E-prova: Sistema para Elaboração de Avaliações no Padrão Enade E-prova: Sistema para Elaboração de Avaliações no Padrão Enade Perycles Jannser Lopes Santos 1, José Hélio Luna Neto 1, Noberto Carvalho Rocha Filho 1, José Arthur Oliveira Ávila 1, Lívia Maria Omena da

Leia mais

Informação - Prova de Equivalência à Frequência

Informação - Prova de Equivalência à Frequência Direção de Serviços da Região Norte Informação - Prova de Equivalência à Frequência 11º Ano de Escolaridade [Dec.Lei nº 139/2012] Cursos Científico-Humanísticos Prova 367 2013 Inglês (Continuação bienal)

Leia mais

Mineração de Textos na Web

Mineração de Textos na Web Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na

Leia mais

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL Pedro Henrique Bragioni Las Casas Pedro.lascasas@dcc.ufmg.br Apresentação baseada nos slides originais de Jussara Almeida e Virgílio Almeida

Leia mais

Colégio Santa Dorotéia de Porto Alegre

Colégio Santa Dorotéia de Porto Alegre Art. 1 Apresentação Com o objetivo de estimular em seus alunos o prazer e o hábito da escrita, além de proporcionar espaço para a revelação de jovens talentos, o Colégio Santa Doroteia de Porto Alegre

Leia mais

MCZA Processamento de Linguagem Natural Classificação de textos

MCZA Processamento de Linguagem Natural Classificação de textos MCZA017-13 Processamento de Linguagem Natural Classificação de textos Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing:

Leia mais

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução Diversidade de textos não padronizados; Emails, artigos,

Leia mais

Informação Prova de Equivalência à Frequência INGLÊS PROVA ESCRITA E PROVA ORAL Prova 21

Informação Prova de Equivalência à Frequência INGLÊS PROVA ESCRITA E PROVA ORAL Prova 21 Informação Prova de Equivalência à Frequência INGLÊS PROVA ESCRITA E PROVA ORAL 2017 Prova 21 3º Ciclo do Ensino Básico (Decreto-Lei n.º 139/2012, de 5 de julho) O presente documento visa divulgar as caraterísticas

Leia mais

Revisão Sistemática da Literatura. M. Eng. Sérgio A. Loureiro

Revisão Sistemática da Literatura. M. Eng. Sérgio A. Loureiro Revisão Sistemática da Literatura M. Eng. Sérgio A. Loureiro Revisão Sistemática A revisão sistemática responde a uma pergunta claramente formulada utilizando métodos sistemáticos e explícitos para identificar,

Leia mais

Colégio O Bom Pastor. Laboratório de Redação III CONCURSO DE REDAÇÃO

Colégio O Bom Pastor. Laboratório de Redação III CONCURSO DE REDAÇÃO Colégio O Bom Pastor Laboratório de Redação III CONCURSO DE REDAÇÃO O Colégio O Bom Pastor, por meio do Laboratório de Redação, promove o III Concurso de Redação, com o objetivo de estimular a produção

Leia mais

Informação sobre Exame de Equivalência à Frequência. Prova de Inglês 367 Ensino Secundário) Duração da Prova: 90 minutos (escrita) 25 minutos (oral)

Informação sobre Exame de Equivalência à Frequência. Prova de Inglês 367 Ensino Secundário) Duração da Prova: 90 minutos (escrita) 25 minutos (oral) Informação sobre Exame de Equivalência à Frequência Prova de Inglês 367 Ensino Secundário) Duração da Prova: 90 minutos (escrita) 25 minutos (oral) 1. Objeto de avaliação A prova a que esta informação

Leia mais

Atividade externa Resenha. MÁTTAR NETO, João Augusto. Metodologia científica na era da informática. São Paulo: Saraiva, p.

Atividade externa Resenha. MÁTTAR NETO, João Augusto. Metodologia científica na era da informática. São Paulo: Saraiva, p. 1 Universidade de São Paulo ECA Depto. de Biblioteconomia e Documentação Disciplina: CBD0100 - Orientação à Pesquisa Bibliográfica Matutino Responsável: Profa. Dra. Brasilina Passarelli Aluna: Rita de

Leia mais

tese tema argumentos TEMA TESE ARGUMENTOS

tese tema argumentos TEMA TESE ARGUMENTOS Defesa de uma tese, de uma opinião a respeito do tema proposto, apoiada em argumentos consistentes estruturados de forma coerente e coesa, de modo a formar uma unidade textual. Seu texto deverá ser redigido

Leia mais

Currículo das Áreas Disciplinares/Critérios de Avaliação 7º Ano Disciplina: Português Metas Curriculares: Domínios/Objetivos / Descritores

Currículo das Áreas Disciplinares/Critérios de Avaliação 7º Ano Disciplina: Português Metas Curriculares: Domínios/Objetivos / Descritores Currículo das Áreas Disciplinares/Critérios de Avaliação 7º Ano Disciplina: Português Metas Curriculares: Domínios/Objetivos / Descritores Conteúdos Programáticos Critérios de Avaliação Instrumentos de

Leia mais

Plano de Trabalho Docente 2017 Ensino Técnico

Plano de Trabalho Docente 2017 Ensino Técnico Plano de Trabalho Docente 2017 Ensino Técnico Plano de Curso nº 160 aprovado pela portaria Cetec nº 138 de 04/10/2012 Etec Sylvio de Mattos Carvalho Código: 103 Município: Matão Eixo Tecnológico: Informação

Leia mais

detecção de voz cantada em sinais de áudio polifônicos

detecção de voz cantada em sinais de áudio polifônicos detecção de voz cantada em sinais de áudio polifônicos Aplicações, Abordagens e Desafios Shayenne Moura 23. April 2018 Instituto de Matemática e Estatística Universidade de São Paulo o problema Detecção

Leia mais

Objetivo do curso: Público Alvo: Critérios de admissão para o curso:

Objetivo do curso: Público Alvo: Critérios de admissão para o curso: A Faculdade AIEC, mantida pela Associação Internacional de Educação Continuada AIEC, iniciou, em 2002, o curso de Bacharelado em Administração, na metodologia semipresencial. Foi pioneira e até hoje é

Leia mais

Métodos e Técnicas de Pesquisas ARTIGO CIENTÍFICO. Professor Adm. Walter Martins Júnior CRA-PR

Métodos e Técnicas de Pesquisas ARTIGO CIENTÍFICO. Professor Adm. Walter Martins Júnior CRA-PR Métodos e Técnicas de Pesquisas ARTIGO CIENTÍFICO Professor Adm. Walter Martins Júnior CRA-PR 15.063 ALGUMAS REGRAS 2 não deixe para a última hora escreva leia alguns relatórios ou resumos faça um esboço

Leia mais

CAPÍTULO III- DOS PROCEDIMENTOS PARA INSCRIÇÃO 6. No ato da inscrição o candidato deverá entregar os seguintes documentos:

CAPÍTULO III- DOS PROCEDIMENTOS PARA INSCRIÇÃO 6. No ato da inscrição o candidato deverá entregar os seguintes documentos: UNIVERSIDADE ESTADUAL DE GOIÁS- UEG CAMPUS PORANGATU PRÓ-REITORIA DE PESQUISA DA UEG PÓS-GRADUAÇÃO (LATO SENSU) EM EDUCAÇÃO E LINGUAGENS Turma 2017/01 CAPÍTULO I- DA ABERTURA DAS INSCRIÇÕES A Universidade

Leia mais

INFORMAÇÕES SOBRE O PROJETO TERMO DE REFERÊNCIA SUGERIDO PESQUISA DE OBSERVAÇÃO DE PRÁTICAS PEDAGÓGICAS - STALLINGS

INFORMAÇÕES SOBRE O PROJETO TERMO DE REFERÊNCIA SUGERIDO PESQUISA DE OBSERVAÇÃO DE PRÁTICAS PEDAGÓGICAS - STALLINGS INFORMAÇÕES SOBRE O PROJETO TERMO DE REFERÊNCIA SUGERIDO PESQUISA DE OBSERVAÇÃO DE PRÁTICAS PEDAGÓGICAS - STALLINGS Objetivos Gerais do Trabalho Contratação de empresa especializada para realizar a Pesquisa

Leia mais

Noções Gerais Sobre Pesquisa

Noções Gerais Sobre Pesquisa 23 Noções Gerais Sobre Pesquisa Nossas possibilidades de conhecimento são muito, e até tragicamente, pequenas. Sabemos pouquíssimo, e aquilo que sabemos, sabemo-lo muitas vezes superficialmente, sem grande

Leia mais

SER PROTAGONISTA DO SEU TEMPO, DESAFIO DA BNCC PARA O ENSINO MÉDIO

SER PROTAGONISTA DO SEU TEMPO, DESAFIO DA BNCC PARA O ENSINO MÉDIO SER PROTAGONISTA DO SEU TEMPO, DESAFIO DA BNCC PARA O ENSINO MÉDIO Na BNCC Base Nacional Comum Curricular do Ensino Médio, competência é definida como a mobilização de conhecimentos (conceitos e procedimentos),

Leia mais

MATRIZ DE REFERÊNCIA PARA REDAÇÃO DETALHAMENTO POR COMPETÊNCIA

MATRIZ DE REFERÊNCIA PARA REDAÇÃO DETALHAMENTO POR COMPETÊNCIA MATRIZ DE REFERÊNCIA PARA REDAÇÃO DETALHAMENTO POR COMPETÊNCIA COMPETÊNCIA 1: Demonstrar domínio da modalidade escrita formal da Língua Portuguesa 200 160 120 GRADE DE CORREÇÃO DO ENEM Demonstra excelente

Leia mais

4 Caso de Uso no Ambiente Oracle

4 Caso de Uso no Ambiente Oracle 4 Caso de Uso no Ambiente Oracle No capítulo anterior foi definido o processo para definição de uma estratégia de rastreabilidade. Neste capítulo será realizada uma instanciação do processo em um ambiente

Leia mais

AGRUPAMENTO DE ESCOLAS VIEIRA DE ARAÚJO

AGRUPAMENTO DE ESCOLAS VIEIRA DE ARAÚJO AGRUPAMENTO DE ESCOLAS VIEIRA DE ARAÚJO ESCOLA B/S VIEIRA DE ARAÚJO - VIEIRA DO MINHO INFORMAÇÃO PROVA PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Disciplina: Inglês (cód. 367) 1ª e 2ª Fases Ensino Secundário Ano

Leia mais

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão DATA MINING & MACHINE LEARNING (I) Thiago Marzagão problema de trabalhar c/ textos: dimensionalidade A quantidade de colunas cresce rapidamente com a quantidade de documentos problema de trabalhar c/ textos:

Leia mais

CIÊNCIA DA COMPUTAÇÃO

CIÊNCIA DA COMPUTAÇÃO CURSO G R A D E C U R R I C U L A R HÍBRIDO + CIÊNCIA DA COMPUTAÇÃO 1 OBJETIVOS DO CURSO Ciência da Computação Você aprende junto a pesquisadores e próximo do mercado de trabalho. As empresas participam

Leia mais

Informação-Prova de Equivalência à Frequência

Informação-Prova de Equivalência à Frequência Informação-Prova de Equivalência à Frequência 2º Ciclo do Ensino Básico Prova de Equivalência à Frequência de Língua Estrangeira I Inglês Escrita e Oral Prova 06 Despacho normativo nº 1-G/ 2016, de 6 de

Leia mais

MANUAL TCC ELABORAÇÃO DO TRABALHO DE CONCLUSÃO DE CURSO

MANUAL TCC ELABORAÇÃO DO TRABALHO DE CONCLUSÃO DE CURSO MANUAL TCC ELABORAÇÃO DO TRABALHO DE CONCLUSÃO DE CURSO 1 ÍNDICE MANUAL TCC ELABORAÇÃO DO TRABALHO DE CONCLUSÃO DE CURSO Manual TCC - Elaboração do Trabalho de Conclusão de Curso 3 Apresentação 3 Qual

Leia mais

3º SIMULADO MODELO ENEM

3º SIMULADO MODELO ENEM 3º SIMULADO MODELO ENEM - 2016 3ª SÉRIE e PRÉ-VESTIBULAR REDAÇÃO 2º DIA NOTA: Nome completo: Matrícula: Unidade: Turma: Corretor: Exame Nacional do Ensino Médio EDUCANDO PARA SEMPRE INSTRUÇÕES 1. A REDAÇÃO

Leia mais

Informação Prova de Equivalência à Frequência. Ano letivo de

Informação Prova de Equivalência à Frequência. Ano letivo de Informação Prova de Equivalência à Frequência (Despacho n.º 3 A/2019, de 26 de fevereiro) Ano letivo de 2018 2019 Disciplina: Inglês Ano de escolaridade: 9.º ano Tipo de Prova/código: Escrita (Ponderação:

Leia mais

Tabela Hash: Índice remissivo

Tabela Hash: Índice remissivo Capítulo 3 Tabela Hash: Índice remissivo Um índice remissivo lista os termos e tópicos que são abordados em um documento juntamente com páginas em que aparecem. É bastante comum encontrar tais índices

Leia mais

Classificação Automática de Gêneros Musicais

Classificação Automática de Gêneros Musicais Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação

Leia mais

EDITAL Nº 01/2014. SEMANA DE ARTE, CULTURA, CIÊNCIA, TECNOLOGIA e INOVAÇÃO

EDITAL Nº 01/2014. SEMANA DE ARTE, CULTURA, CIÊNCIA, TECNOLOGIA e INOVAÇÃO EDITAL Nº 01/2014 SEMANA DE ARTE, CULTURA, CIÊNCIA, TECNOLOGIA e INOVAÇÃO O Instituto Federal de Educação, Ciência e Tecnologia da Bahia Campus Simões Filho torna público o presente edital para o desenvolvimento

Leia mais

Informação-Prova de Equivalência à Frequência

Informação-Prova de Equivalência à Frequência Informação-Prova de Equivalência à Frequência 2º Ciclo do Ensino Básico Prova de Equivalência à Frequência de Língua Estrangeira I Inglês Escrita e Oral Prova 06/ 2017 (Despacho normativo n.º 1-A/2017,

Leia mais

Prova de Equivalência à Frequência 2011/2012 Escola Secundária da Ramada

Prova de Equivalência à Frequência 2011/2012 Escola Secundária da Ramada Prova de Equivalência à Frequência 2011/2012 Escola Secundária da Ramada Ensino Secundário INGLÊS (Código 367) INFORMAÇÃO-PROVA Curso Científico-Humanístico Formação Geral Ano 11ºANO (Continuação) Legislação

Leia mais

Os critérios do ENEM Competências

Os critérios do ENEM Competências Os critérios do ENEM Competências PROFESSORA: VANESSA MENEZES Vocês sabem o que cada competência avalia? Competência 1 Demonstrar domínio da norma padrão da língua escrita. Requisitos básicos do texto

Leia mais

CURSO AVANÇADO ANÁLISE QUALITATIVA COM O APOIO DO SOFTWARE WEBQDA

CURSO AVANÇADO ANÁLISE QUALITATIVA COM O APOIO DO SOFTWARE WEBQDA CURSO AVANÇADO ANÁLISE QUALITATIVA COM O APOIO DO SOFTWARE WEBQDA Introdução Geral Este curso pretende discutir em profundidade alguns dos pressupostos subjacentes ao trabalho de investigação aplicado

Leia mais

6 Atributos. A dívida da empresa subiu.

6 Atributos. A dívida da empresa subiu. 6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,

Leia mais

Plano de Trabalho Docente Ensino Técnico

Plano de Trabalho Docente Ensino Técnico Plano de Trabalho Docente 2017 Ensino Técnico Plano de Curso nº 294 aprovado pela portaria CETEC - 774, de 24/09/2015 (atualizado 2º semestre/2016) Etec Professora Maria Cristina Medeiros Código: 141 Município:

Leia mais

ESPANHOL 1ª e 2ª fase de 2014

ESPANHOL 1ª e 2ª fase de 2014 INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA ESPANHOL 1ª e 2ª fase de 2014 Prova 15 2014 9ºano de Escolaridade - 3.º Ciclo do Ensino Básico PROVA ESCRITA 50% 1. Objeto de avaliação, características e

Leia mais

Cursos Científico-humanísticos de Ciências e Tecnologias e de Línguas e Humanidades. PORTUGUÊS 11.º Ano Matriz do teste Comum

Cursos Científico-humanísticos de Ciências e Tecnologias e de Línguas e Humanidades. PORTUGUÊS 11.º Ano Matriz do teste Comum Direção de Serviços da Região Norte Cursos Científico-humanísticos de Ciências e Tecnologias e de Línguas e Humanidades PORTUGUÊS 11.º Ano Matriz do teste Comum 1. Informação O presente documento visa

Leia mais

O Projeto deve conter no máximo 10 laudas a partir da Introdução até Contribuição, Produtos e Benefícios.

O Projeto deve conter no máximo 10 laudas a partir da Introdução até Contribuição, Produtos e Benefícios. CTIC COMISSÃO TÉCNICA DE INICIAÇÃO CIENTÍFICA PROCESSO SELETIVO 2016/2017 INSTRUÇÕES PARA ELABORAÇÃO PROJETO INICIAÇÃO CIENTÍFICA PROTOCOLO PROAC No /2016 O Projeto deve conter no máximo 10 laudas a partir

Leia mais

Informação-Prova de Equivalência à Frequência

Informação-Prova de Equivalência à Frequência Informação-Prova de Equivalência à Frequência 3º Ciclo do Ensino Básico Prova de Equivalência à Frequência de Francês LEII código 16 ( Desp. Normativo nº1- A/2017) Ano letivo 2016/2017 PROVA ESCRITA e

Leia mais

INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA

INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Ano Letivo 2014/2015 INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Decreto-Lei n.º 139/2012, de 5 de julho Disciplina: Português Prova/Código: 139 Ano(s) de Escolaridade: 12º Ano 1. Introdução O presente

Leia mais

EMENTAS BIBLIOTECONOMIA INGRESSANTES 2016/1 E 2016/2

EMENTAS BIBLIOTECONOMIA INGRESSANTES 2016/1 E 2016/2 EMENTAS BIBLIOTECONOMIA INGRESSANTES 2016/1 E 2016/2 EMENTAS COMUNS ÀS MATRIZES LEITURA E PRODUÇÃO DE TEXTOS Produção de textos (orais e escritos), leitura e análise linguística de textos em diferentes

Leia mais

Uma Proposta de Sistema de Dependência a Distância Usando a Plataforma Moodle

Uma Proposta de Sistema de Dependência a Distância Usando a Plataforma Moodle Bruno Hirle Nunes Uma Proposta de Sistema de Dependência a Distância Usando a Plataforma Moodle Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo

Leia mais

MATRIZ DE REFERÊNCIA LÍNGUA PORTUGUESA SADEAM 3º ANO DO ENSINO FUNDAMENTAL

MATRIZ DE REFERÊNCIA LÍNGUA PORTUGUESA SADEAM 3º ANO DO ENSINO FUNDAMENTAL MATRIZ DE REFERÊNCIA LÍNGUA PORTUGUESA SADEAM 3º ANO DO ENSINO FUNDAMENTAL DOMÍNIOS COMPETÊNCIAS DESCRITORES D01 Distinguir letras de outros sinais gráficos. Reconhecer as convenções da escrita. D02 Reconhecer

Leia mais

REGULAMENTO DO TRABALHO DE CONCLUSÃO DE CURSO (TCC) CURSO DE RELAÇÕES INTERNACIONAIS CAPÍTULO I DA DEFINIÇÃO

REGULAMENTO DO TRABALHO DE CONCLUSÃO DE CURSO (TCC) CURSO DE RELAÇÕES INTERNACIONAIS CAPÍTULO I DA DEFINIÇÃO REGULAMENTO DO TRABALHO DE CONCLUSÃO DE CURSO (TCC) CURSO DE RELAÇÕES INTERNACIONAIS CAPÍTULO I DA DEFINIÇÃO Art. 1º O Trabalho de Conclusão de Curso (TCC) é uma atividade curricular obrigatória para todos

Leia mais

Leia os trechos abaixo, retirados de diferentes fontes, para refletir sobre as perspectivas daqueles que cursam o ensino superior no Brasil:

Leia os trechos abaixo, retirados de diferentes fontes, para refletir sobre as perspectivas daqueles que cursam o ensino superior no Brasil: Leia os trechos abaixo, retirados de diferentes fontes, para refletir sobre as perspectivas daqueles que cursam o ensino superior no Brasil: O contexto sociocultural e institucional media a relação do

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA MECÂNICA - PPGEM

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA MECÂNICA - PPGEM PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA MECÂNICA - PPGEM OBSERVAÇÕES RELEVANTES PARA A EXECUÇÃO / APRESENTAÇÃO DE DISSERTAÇÕES DE MESTRADO NO PPGEM-PUC

Leia mais

Para que vocês encontrem mais detalhes sobre o tema Pesquisa sugerimos a leitura do seguinte texto complementar. Boa leitura!

Para que vocês encontrem mais detalhes sobre o tema Pesquisa sugerimos a leitura do seguinte texto complementar. Boa leitura! UNIDADE V - LEITURA COMPLEMENTAR I Alunos (as), Para que vocês encontrem mais detalhes sobre o tema Pesquisa sugerimos a leitura do seguinte texto complementar. Boa leitura! PESQUISA A pesquisa é desenvolvida

Leia mais

Aula 2: Planejamento da RS

Aula 2: Planejamento da RS Universidade de São Paulo Instituto de Ciências Matemática e de Computação SSC 5905 - Revisão Sistemática Aula 2: da RS Profa. Dra. Elisa Yumi Nakagawa 1. Semestre de 2013 Processo de Revisão Sistemática

Leia mais

Resolução da Questão 1 (Texto Definitivo)

Resolução da Questão 1 (Texto Definitivo) Questão Discorra sobre a etimologia do termo psicologia e sobre a Psicologia como ciência [valor: 0,0 ponto], abordando, necessariamente, em seu texto, a dispersão do campo de estudos psicológicos [valor:

Leia mais

Informática Parte 19 Prof. Márcio Hunecke

Informática Parte 19 Prof. Márcio Hunecke Escriturário Informática Parte 19 Prof. Márcio Hunecke Informática NOÇÕES DE ALGORITMOS DE APRENDIZADO O aprendizado automático, aprendizado de máquina (em inglês: "machine learning") ou aprendizagem

Leia mais

MATRIZ DE REFERÊNCIA PARA REDAÇÃO DETALHAMENTO POR COMPETÊNCIA

MATRIZ DE REFERÊNCIA PARA REDAÇÃO DETALHAMENTO POR COMPETÊNCIA MATRIZ DE REFERÊNCIA PARA REDAÇÃO DETALHAMENTO POR COMPETÊNCIA Motivos para atribuir nota zero à redação: Fuga total ao tema; Não obediência à estrutura dissertativo-argumentativa; Texto com até 7 (sete)

Leia mais

TEMPO DE DURAÇÃO: 1h. Obrigatória entrega no final da aula. PROPOSTA DE REDAÇÃO

TEMPO DE DURAÇÃO: 1h. Obrigatória entrega no final da aula. PROPOSTA DE REDAÇÃO SIMULADO PRESENCIAL ENEM 2010 TEMPO DE DURAÇÃO: 1h. Obrigatória entrega no final da aula. PROPOSTA DE REDAÇÃO Com base na leitura dos textos motivadores e nos conhecimentos construídos ao longo de sua

Leia mais

TERMOS DE REFERÊNCIA PARA CONSULTORIA INDIVIDUAL. Categoria: Pesquisador Assistente

TERMOS DE REFERÊNCIA PARA CONSULTORIA INDIVIDUAL. Categoria: Pesquisador Assistente TERMOS DE REFERÊNCIA PARA CONSULTORIA INDIVIDUAL Censo (demográfico e de trajetória profissional) de servidores públicos federais membros das carreiras de Especialista em Políticas Públicas e Gestão Governamental

Leia mais

Sumário. Apresentação da coleção Prefácio Nota da autora Capítulo II

Sumário. Apresentação da coleção Prefácio Nota da autora Capítulo II Sumário Sumário Apresentação da coleção... 17 Prefácio... 19 Nota da autora... 21 Capítulo I Fatores importantes para produzir um texto... 23 1. A importância da leitura para produção textual... 23 2.

Leia mais

Informação - Prova de Equivalência à Frequência

Informação - Prova de Equivalência à Frequência Informação - Prova de Equivalência à Frequência 12º Ano de Escolaridade [Dec.Lei nº 139/2012] Cursos Científico-Humanísticos Prova 358 / 2016 Inglês (Continuação anual) 1ª e 2ª Fases A prova é composta

Leia mais

Pós-Graduação em Neurociência e Cognição

Pós-Graduação em Neurociência e Cognição Pós-Graduação em Neurociência e Cognição EDITAL Nº 003/2012 Processo Seletivo para Mestrado em Neurociência e Cognição Quadrimestre 2012.3 (ano e quadrimestre) O curso de Pós-graduação em Neurociência

Leia mais

REDAÇÃO NO ENEM. Edson Munck Jr

REDAÇÃO NO ENEM. Edson Munck Jr REDAÇÃO NO ENEM Edson Munck Jr REDAÇÃO: CRITÉRIO DECISIVO NO SISU E NA VIDA A nota da redação no Enem é fundamental para a conquista da vaga no vestibular e, certamente, faz toda a diferença; O uso da

Leia mais

3º ANO DO ENSINO MÉDIO 30 de abril de 2010

3º ANO DO ENSINO MÉDIO 30 de abril de 2010 3º ANO DO ENSINO MÉDIO 30 de abril de 2010 O ENEM (Exame Nacional do Ensino Médio) é uma avaliação aplicada anualmente pelo MEC (Ministério da Educação e Cultura) desde 1998. A partir de 2009 o MEC aplicou

Leia mais