Identificação de Padrões para a Análise da Evasão Usando Mineração de Dados Educacionais

Transcrição

1 1. Objetivo Identificação de Padrões para a Análise da Evasão Usando Mineração de Dados Educacionais José Gonçalves de Oliveira Júnior 1 1 Universidade Tecnológica Federal do Paraná (UTFPR) CEP Curitiba - PR - Brasil josjun@alunos.utfpr.edu.br Trabalho da Disciplina de Mineração de Dados - PPGCA 2014 Professor: Celso Antonio Alves Kaestner Nos últimos anos têm surgido um crescente interesse e preocupação em identificar as causas do insucesso escolar e a identificação de padrões de comportamento dos alunos. Uma alternativa de busca de informação muito promissora para atingir esse objetivo é o uso de descoberta de conhecimento em bases de dados e uso de técnicas de mineração de dados na educação, chamada Mineração de Dados Educacionais (Educational Data Mining - EDM) [Márquez-Vera et al. 2013]. Coordenadores de curso e gestores educacionais poderiam utilizar esses tipos de informação para definir estratégias com a finalidade de reduzir os números de casos de insucesso escolar. O objetivo deste trabalho é aplicar técnicas de mineração de dados com o objetivo de identificar padrões para análise da evasão escolar em cursos presenciais de graduação de alunos da UTFPR, utilizando o software R. 2. Descrição da Base Utilizada Para a obtenção dos atributos necessários à mineração de dados foi criado um dataset com informações oriundas do banco de dados do Sistema Acadêmico da UTFPR. Os atributos selecionados para esta pesquisa estão descritos na Tabela 1 e possuem o seguinte escopo: - Alunos de cursos de graduação, com oferta semestral, que ingressaram na UTFPR no segundo semestre de 2012; - Foram selecionados apenas os dados de quatro semestres (de 2012/2 a 2014/1). - Com este escopo foram selecionados alunos. A mineração de dados educacionais possuem algumas especificidades. Os problemas mais comuns são: dados desbalanceados, valores discrepantes, sobreajuste e a alta dimensionalidade dos dados. O problema com dados desbalanceados acontece porque os algoritmos de aprendizagem tendem a ignorar as classes menos frequentes (minoritárias) e só prestar atenção nas mais frequentes (classes majoritárias). Como resultado, o classificador não é capaz de classificar corretamente as instâncias de dados correspondentes a classes pouco representadas [Márquez-Vera et al. 2013].

2 Página 2 Tabela 1. Atributos e origem dos dados Fonte Atributos Valores [1] Grau acadêmico do aluno bacharelado, licentiatura, tecnologia ou engenharia [2] Idade do aluno no final do semestre [ ] [3] Gênero do aluno Masculino ou feminino [4] Coeficiente de rendimento do aluno [ ] [5] Possui reentrada no mesmo curso sim/não Sistema [6] Oriundo de outro curso de graduação sim/não Acadêmico [7] % de aprovação nas disciplinas [ ] da UTFPR [8] Forma de ingresso na instituição sisu, transferência, aproveitamento de curso, mudança de curso, processo alternativo, ex-officio ou convênio PEC-G [9] Tipo de escola anterior pública ou privada [10] Situação do aluno ativo ou inativo [11] Escore geral [ ] [12] Escore em Linguagem e seus Códigos [ ] [13] Escore em Ciências Naturais [ ] [14] Escore em Ciências Humanas [ ] ENEM [15] Escore em Matemática [ ] [16] Escore em Redação [ ] [17] Micro região de origem (IBGE) nominal [18] Meso região de origem (IBGE) nominal [19] Região de origem (IBGE) nominal [20] Renda familiar nominal [21] Habitação nominal [22] Tipo de residência nominal [23] Trabalha nominal [24] Estado civil nominal [25] Necessidade de trabalhar durante o curso nominal Questionário [26] Importância econômica na família nominal específico [27] Escolaridade do pai nominal [28] Escolaridade da mãe nominal [29] Fez cursinho preparatório nominal [30] Razão de escolha do curso nominal

3 Página 3 No dataset utilizado o atributo alvo (tipo de situação do alunos: ativo ou inativo) está desbalanceado (66% de alunos ativos e 34% de alunos inativos), conforme visualizado na Figura 1, gerada pelo software R com o comando abaixo. > slices c(sum(mydata$tipo situacao == Ativo ), sum(mydata$tipo situacao == Inativo )) > lbls c( Ativo, Inativo ) > pct round(slices/sum(slices) 100) > lbls paste(lbls, pct) > lbls paste(lbls, %, sep =) > pie(slices, labels = lbls, col = rainbow(length(lbls))) Figura 1. Distribuição de classe do atributo alvo Uma maneira de resolver esse problema é agir durante o pré-processamento dos dados através da realização de uma amostragem ou balanceamento de distribuição das classes [Márquez-Vera et al. 2013]. Uma abordagem amplamente utilizada é o algoritmo SMOTE (Synthetic Minority Oversampling Technique) [Márquez-Vera et al. 2013]. Esse algoritmo ajusta a frequência relativa entre classes majoritárias e minoritárias. Em linhas gerais, o algoritmo SMOTE introduz sinteticamente instâncias de classes minoritárias, considerando a técnica de agrupamento k-nn [Witten et al. 2011]. O algoritmo SMOTE está disponível, no software R, na package DMwR - Data Mining with R [Torgo 2003]. Segue abaixo os comandos para fazer o balanceamento de classes do atributo alvo com o algoritmo SMOTE. Importando dados de um arquivo CSV > mydata = read.csv( experimento.csv ) Instalando a package DMwR > install.packages( DM wr ) Carregando a package DMwR > library(dm wr) Aplicando o algoritmo SMOTE > mybalanceddata SMOT E(tipo situacao., mydata, perc.over = 100)

4 Página 4 Com a aplicação do algoritmo foram criadas instâncias sintéticas, equilibrando as classes do atributo alvo, conforme mostrado na Tabela 2. Tabela 2. Balanceamento de classes do atributo alvo Classe N de instâncias N de instâncias N de instâncias originais criadas sinteticamente final Ativo Inativo Total Aplicação dos Algoritmos 3.1. Classificação A classificação é um dos problemas mais frequentemente estudados por pesquisadores em data mining e machine learning. Ela consiste em prever o valor de um atributo com base nos valores de outros atributos (os atributos de predição) [Romero et al. 2008]. A ideia da classificação é colocar um objeto em uma classe ou categoria, com base nas suas outras características [Hämäläinen e Vinni 2011]. Classificadores podem ser concebidos manualmente, com base no conhecimento de um especialista, mas hoje em dia é mais comum aprendê-las a partir de dados reais [Hämäläinen e Vinni 2011]. Nas subseções abaixo são investigados os seguintes classificadores: árvore de decisão, Naïve Bayes, redes neurais multilayer perceptron, support vector machines, k- nearest neighbors Árvore de decisão Árvore de decisão é um conjunto de condições organizados em uma estrutura hierárquica. É um modelo preditivo em que um exemplo é classificado, seguindo o caminho de condições satisfeitas, a partir da raiz da árvore até atingir uma folha, que vai corresponder a um rótulo de classe [Romero et al. 2008]. As árvores de decisão têm muitas vantagens: elas são simples e fáceis de entender, podem lidar com variáveis mistas (tanto numéricas ou categóricas) [Hämäläinen e Vinni 2011]. Quando uma árvore de decisão é construída, muitos dos ramos refletem anomalias nos dados de treinamento devido ao ruído ou desvios. Métodos de poda em árvores resolvem este problema de sobreajuste dos dados [Han et al. 2011]. As árvores de decisão são consideradas modelos de fácil compreensão, porque um processo de raciocínio pode ser dado para cada conclusão, exceto se a árvore obtida é muito grande (uma série de nós e folhas) [Romero et al. 2008]. Para a tarefa de classificação utilizamos a função ctree da package party [Hothorn et al. 2014] e a função J48 da package RWeka [Hornik et al. 2009]. Segue abaixo os comandos comuns aos dois algoritmos.

5 Página 5 Divisão dataset em dados de treinamento e teste (70%/30%) set.seed(1234) > ind sample(2, nrow(mybalanceddata), replace = T RUE, prob = c(0.7, 0.3)) Seleção das instâncias de treinamento > traindata mybalanceddata[ind == 1, ] Seleção das instâncias de teste > testdata mybalanceddata[ind == 2, ] Descrição simbólica do modelo a ser treinado (atributo alvo e demais atributos) > myf ormula tipo situacao. Segue abaixo os passos de aplicação do classificador ctree. Instalando a package party > install.packages( party ) Carregando a package party > library(party) Treinamento da árvore de decisão fazendo a poda com o parâmetro minsplit=1300 > mydata ctree ctree(myf ormula, data = traindata, controls = ctree control(minsplit = 1300)) Exibe a imagem da árvore de decisão gerada, mostrada na Figura 2. > plot(mydata ctree) Exibe a matriz de confusão > conf M atrix table(predict(mydata ctree), traindata$tipo situacao) > confmatrix Exibe a acurácia do modelo treinado > sum(conf M atrix[row(conf M atrix) == col(conf M atrix)])/sum(conf M atrix) Segue abaixo a matriz de confusão. Ativo Inativo Ativo Inativo A acurácia atingida no treinamento foi de 86,12%.

6 Página 6 Figura 2. Árvore de decisão ctree com poda O segundo classificador de árvore de decisão utilizado, para efeito de comparação, foi o J48 da package RWera. Segue abaixo os comandos de aplicação do algoritmo. Instalando a package RWeka > install.packages( RW eka ) Carregando a package RWeka > library(rw eka) Treinamento da árvore de decisão fazendo a poda com o parâmetro M=20. O parâmetro M indica o número mínimo de instâncias por folha da árvore. > j48 J48(myF ormula, data = traindata, control = W eka control(m = 20)) Imprime a árvore de decisão gerada (imagem), mostrada na Figura 3. > if(require( partykit, quietly = T RU E))plot(j48)

7 Página 7 Figura 3. Árvore de decisão J48 com poda A Figura 4 exibe o resumo da classificação gerada com o J48. A acurácia atingida no treinamento foi de 89,08%. Figura 4. Resumo da classificação gerada com o classificador J48

8 Página Naïve Bayes O Classificador Naïve Bayes é um dos mais utilizados em machine learning. Ele é denominado ingênuo (naïve) por assumir que os atributos são condicionalmente independentes, ou seja, a informação de um evento não é informativa sobre nenhum outro. Apesar desta premissa ingênua e simplista, o classificador reporta bons desempenhos em várias tarefas de classificação. Para o experimento do classificador Naïve Bayes foi utilizada a package e1071 [Dimitriadou et al. 2008]. Segue abaixo os comandos de aplicação do algoritmo. Instalando a package e1071 > install.packages( e1071 ) Carregando a package e1071 > library(e1071) Treinamento da árvore de decisão > modeln aive naivebayes(myf ormula, data = traindata) Exibe a matriz de confusão do modelo treinado > conf M atrix table(predict(modeln aive, traindata), traindata$tipo situacao) > confmatrix Exibe a acurácia do modelo treinado > sum(conf M atrix[row(conf M atrix) == col(conf M atrix)])/sum(conf M atrix) A acurácia atingida no treinamento foi de 84,12%.

9 Página Redes Neurais Multi Layer Perceptron - (MLP) As Redes Neurais formam um paradigma também conhecido como redes de processamento paralelo distribuído. Trata-se de elementos de processamento interconectados chamados de nós ou neurônios que trabalham em conjunto para produzir uma função de saída. As redes neurais Feed-Forward (RNFF) são o tipo de redes neurais mais utilizados, que possuem a seguinte arquitetura em camadas de nós: uma para os nós de entrada, uma para nós de saída e pelo menos uma camada de nós escondidos. Em cada camada oculta os nós são conectados aos nós da camada anterior e da camada seguinte, e as arestas estão associadas com pesos individuais. O modelo mais geral contém apenas uma camada oculta. RNFFs também podem representar qualquer tipo (não linear) de limites de classe [Hämäläinen e Vinni 2011]. A principal desvantagem é que as RNFFs precisam de uma grande quantidade de dados, muito mais do que conjuntos típicos de dados educacionais contém. Elas são muito sensíveis ao sobreajuste, e o problema é ainda mais crítico com conjuntos de treinamento pequenos. O modelo de rede neural é do tipo black box (caixa preta) e é difícil para as pessoas entenderem as explicações para os seus resultados [Hämäläinen e Vinni 2011]. Para o experimento do classificador MLP foi utilizada a package nnet [Ripley 2011]. Segue abaixo os comandos de aplicação do algoritmo. Instalando a package nnet > install.packages( nnet ) Carregando a package nnet > library(nnet) Treinamento da rede > neural nnet(myf ormula, data = traindata, subset = ind, size = 2, rang = 0.1, decay = 5e 4, maxit = 500) Exibe a matriz de confusão do modelo treinado > conf M atrix < table(traindata$tipo situacao, predict(neural, newdata = traindata, type = class )) > confmatrix Exibe a acurácia do modelo treinado > sum(conf M atrix[row(conf M atrix) == col(conf M atrix)])/sum(conf M atrix) A acurácia atingida no treinamento, com o máximo de iterações limitado em 500 e duas camadas ocultas, foi de 93,50% Support Vector Machines (SVM) O classificador Máquina de Vetores de Suporte é um método definido inicialmente para dados com separação linear. O objetivo é encontrar o hiperplano de maior margem que separa as classes. No caso de dados que não sejam linearmente separáveis utiliza-se o Truque do Kernel (Kernel Trick). No entanto, as SVMs têm a mesma restrição das redes neurais: os dados devem ser numéricos contínuos (ou quantificados); o modelo não é facilmente interpretável, e a seleção dos parâmetros adequados (especialmente a função de kernel) pode ser difícil [Hämäläinen e Vinni 2011].

10 Página 10 Para o experimento do classificador SVM foi utilizada a package e1071 [Dimitriadou et al. 2008]. Segue abaixo os comandos de aplicação do algoritmo. Para este algoritmo foi necessário retirar as intências com valores ausentes. Remove as instâncias com valores ausentes > traindata na.omit(traindata) Instalando a package e1071 > install.packages( RW eka ) Carregando a package e1071 > library(e1071) Treinamento do modelo SVM > model svm(myf ormula, data = traindata) Testando com os dados de treinamento > pred < predict(model, traindata[, 30]) Exibe a matriz de confusão do modelo treinado > conf M atrix < table(pred, traindata$tipo situacao) Exibe a acurácia do modelo treinado > sum(conf M atrix[row(conf M atrix) == col(conf M atrix)])/sum(conf M atrix) A acurácia atingida no treinamento foi de 88,24% k-nearest Neighbors O classificador Vizinho Mais Próximo é uma técnica baseada em aprendizagem por analogia, ou seja, comparando uma determinada tupla teste com tuplas de treinamento que são semelhantes. As tuplas de treinamento são descritas por n atributos. Cada tupla representa um ponto em um espaço n-dimensional. Desta forma, todas as tuplas de formação são armazenadas num espaço padrão de n dimensões. Quando uma dada tupla é desconhecida, um classificador k-vizinho mais próximo procura o espaço padrão para as tuplas de treinamento k que estão mais próximas da tupla desconhecida. Estas tuplas de treinamento k são os k vizinhos mais próximos da tupla desconhecida [Han et al. 2011]. Para o experimento do classificador k-nn foi utilizada a package kknn [Schliep e Hechenbichler 2008]. Segue abaixo os comandos de aplicação do algoritmo. Divisão entre dados de treinamento e teste > m dim(mybalanceddata)[1] > val sample(1 : m, size = round(m/3), replace = F ALSE, prob = rep(1/m, m)) > mybalanceddata.learn mybalanceddata[ val, ] > mybalanceddata.valid mybalanceddata[val, ] Treinamento do modelo > mybalanceddata.kknn kknn(myf ormula, mybalanceddata.learn, mybalanceddata.valid, distance = 1, kernel = triangular ) Exibição da matriz de confusão > f it f itted(mybalanceddata.kknn) > conf M atrix table(mybalanceddata.valid$tipo situacao, f it) Cálculo da acurácia > sum(conf M atrix[row(conf M atrix) == col(conf M atrix)])/sum(conf M atrix)

11 Página 11 A acurácia atingida no treinamento foi de 87,40% Associação Regras de associação ou regras associativas têm a forma X Y, onde X e Y são conjuntos de itens que ocorrem juntos em uma transação e X Y = φ, significando que se encontrarmos o conjunto de itens X em uma transação, então temos uma boa chance de encontrar também o conjunto de itens Y na mesma transação. Um dos algoritmos mais conhecidos quando o assunto é mineração de regras de associação é o algoritmo Apriori. O objetivo dele é encontrar todas as regras de associação relevantes entre as classes, do tipo X(antecedente) Y (consequente). O algoritmo foi proposto por Agrawal et al. [Agrawal et al. 1994] onde as regras de associação geradas devem atender a um suporte e confiança mínimos. O suporte corresponde à frequência com que ocorrem os padrões em toda a base. Enquanto que a confiança indica o percentual de ocorrência da regra. Os parâmetros confiança e suporte são essenciais para o funcionamento do algoritmo. Eles vão determinar diretamente tanto a quantidade como a qualidade das regras geradas. Para o experimento do algoritmo Apriori foi utilizada a package arules [Hahsler et al. 2014]. Segue abaixo os comandos de aplicação do algoritmo. Instalando a package arules. > install.packages( arules ) Carregando a package arules. > library(arules) Seleção dos atributos não numéricos > var c(1, 3, 4, 5, 6, 7, 9, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29) Aplicação do algoritmo Apriori com suporte de 50% e confiança de 90%. > rules apriori(var, parameter = list(supp = 0.5, conf = 0.9, target = rules )) Exibição das regras de associação > write(rules, file =, sep =,, quote = T RUE, col.names = NA) A Figura 5 exibe as primeiras dez regras de associação geradas pelo algoritmo (de um total de 230). Figura 5. Regras de associação geradas pelo algoritmo Apriori

12 Página Agrupamento Agrupamento consiste em identificar possíveis agrupamentos nos dados, onde um agrupamento é uma coleção de objetos que são semelhantes um ao outro. Entre os tipos de técnicas de clusterização abordaremos o particionamento e o hierárquico aglomerativo. O particionamento encontra um número k de clusters (k é fornecido pelo usuário) que são representados por seus centróides. O agrupamento hierárquico produz grupos hierárquicos começando com clusters unitários e repetidamente aglutinando clusters próximos dois a dois até chegar no número k de clusters solicitado pelo usuário. K-means é o algoritmo de particionamento mais popular. Para utilizar este algoritmo é necessário que todas as variáveis sejam numéricas. No experimento com o algoritmo K-means utilizamos a função kmeans da package stat. Segue abaixo os comandos. Transformação de atributos categóricos em numéricos (deve ser feito com cada atributo categórico). > mydata transf orm(mybalanceddata, tipo curso = as.numeric(tipo curso)) Padronização das variáveis > mydata scale(mydata) Renderizando o clustering de solução com 2 agrupamentos > fit kmeans(mydata, 2) > library(cluster) > clusplot(mydata, fit$cluster, color = T RUE, shade = T RUE, labels = 2, lines = 0) > library(f pc) > plotcluster(mydata, f it$cluster) A Figura 6 exibe o gráfico gerado com o comando plotcluster. Figura 6. Renderização do cluster com 2 agrupamentos

13 Página 13 No experimento com a clusterização hierárquica utilizamos a função hclust da package stat. Segue abaixo os comandos. Criando a matriz de distâncias. > d dist(mydata2, method = euclidean ) Gerando os agrupamentos usando o método ward.d > fit hclust(d, method = ward.d ) Renderizando o dendograma > plot(fit) Podando a árvore com 2 clusters > groups cutree(fit, k = 2) Renderizando as margens do dendograma > rect.hclust(fit, k = 2, border = red ) A Figura 7 exibe o gráfico gerado do cluster hierárquico. Figura 7. Renderização do cluster hierárquico

14 Página Resultados Obtidos O problema de identificar de padrões para a análise da evasão escolar, tratado neste trabalho é um problema de classificação. A Tabela 3 mostra as acurácias obtidas com o conjunto de dados de treinamento. Tabela 3. Acurácia obtida com os classificadores no treinamento Classificador Ctree J48 Naïve Bayes MLP SVM k-nn Acurácia 86,12% 89,08% 84,12% 93,50% 88,24% 87,40% Podemos verificar que o pior desempenho ficou com o classificador Naïve Bayes. Este resultado é bem adequado pois este classificador é normalmente utilizado como baseline. Entre os classificadores de árvore de decisão o melhor desempenho ficou com o J48. Isto pode ser explicado pois o J48 é baseado no algoritmo C4.5, que é considerado o estado da arte entre os algoritmos de classificação. O classificador com maior desempenho foi o de redes neurais Multi Layer Perceptron, mas este classificador não é adequado para o problema de mineração em estudo pois, como já foi citado, ele é uma algoritmo caixa preta, sendo difícil para as pessoas entenderem as explicações para dos seus resultados. Em regras de associação o algoritmo Apriori apresentou 230 regras nos experimentos. As regras de associação podem ser úteis para revelar relacionamento entre os atributos que auxiliem na tomada de decisão pelos gestores educacionais. Sobre as técnicas de agrupamento podemos verificar que não é adequado para o estudo em questão, pois devido a grande quantidade de atributos não foi possível a interpretação dos resultados. 5. Conclusões Os resultados obtidos, principalmente com os algoritmos de classificação, indicam a viabilidade de se realizar inferências relativas ao desempenho de estudantes, obtendo-se taxas de acurácia acima de 84%. Para o problema investigado de identificação de padrões para a análise da evasão de estudantes a técnica mais adequada foi a classificação, com destaque para os algoritmos caixa branca, como o J48. É importante ressaltar que um estudo mais aprofundado deve utilizar a técnica de validação cruzada [Witten et al. 2011], com a execução dos algoritmos repetidas vezes, para obtermos a acurácia e desvio padrão com significância estatística. A aplicação de regras de associação podem auxiliar marginalmente no estudo da evasão. O uso de técnicas de agrupamento não se revelou adequada para o estudo em questão.

15 Página 15 Referências Agrawal, R., Srikant, R., et al. (1994). Fast algorithms for mining association rules. In Proc. 20th int. conf. very large data bases, VLDB, volume 1215, pages Dimitriadou, E., Hornik, K., Leisch, F., Meyer, D., e Weingessel, A. (2008). Misc functions of the department of statistics (e1071), tu wien. R package, pages 1 5. Hahsler, M., Buchta, C., Gruen, B., Hornik, K., e Hahsler, M. M. (2014). Package arules. Hämäläinen, W. e Vinni, M. (2011). Classifiers for educational data mining. Handbook of Educational Data Mining, Chapman & Hall/CRC Data Mining and Knowledge Discovery Series, pages Han, J., Kamber, M., e Pei, J. (2011). Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 3rd edition. Hornik, K., Buchta, C., e Zeileis, A. (2009). Open-source machine learning: R meets weka. Computational Statistics, 24(2): Hothorn, T., Hornik, K., Strobl, C., Zeileis, A., e Hothorn, M. T. (2014). Package party. Package Reference Manual for Party Version , 16:37. Márquez-Vera, C., Morales, C. R., e Soto, S. V. (2013). Predicting school failure and dropout by using data mining techniques. Tecnologias del Aprendizaje, IEEE Revista Iberoamericana de, 8(1):7 14. Ripley, B. (2011). nnet: Feed-forward neural networks and multinomial log-linear models. R package version, 7(5). Romero, C., Ventura, S., Espejo, P. G., e Hervás, C. (2008). Data mining algorithms to classify students. In EDM, pages Schliep, K. e Hechenbichler, K. (2008). kknn: Weighted k-nearest neighbors. R package version, pages 1 0. Torgo, L. (2003). Data mining with r. Learning by case studies. University of Porto, LIACC-FEP. URL: liacc. up. pt/ltorgo/dataminingwithr/. Accessed on, 7(09). Witten, I. H., Frank, E., e Hall, M. A. (2011). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 3rd edition.