Processo de Descoberta de Conhecimento aplicado ao SIGAA UFPI

Transcrição

1 Processo de Descoberta de Conhecimento aplicado ao SIGAA UFPI Francisco N. C. de Araújo 1, Vinicius P. Machado 1 1 Departamento de Ciência da Computação Universidade Federal do Piauí (UFPI) Teresina, PI Brasil netoaraujjo@gmail.com, vinicius@ufpi.edu.br Abstract. In order to allow better management of the university, this paper presents the development of Knowledge Discovery processes in database. The process used enables automatic learning of user profiles of the Integrated Academic Activities Management System (SIGAA) and was applied to the database of the Federal University of Piauí (UFPI). The discovery of patterns can provide the development of academic and pedagogical strategies according to the similarity of profiles, through the definition of labels for different groups of students. Resumo. Visando possibilitar uma melhor gestão da universidade, o presente trabalho apresenta o desenvolvimento de processos de Descoberta de Conhecimento em Base de Dados. O processo utilizado permite o aprendizado automático dos perfis de usuários do Sistema Integrado de Gestão de Atividades Acadêmicas (SIGAA) e foi aplicado sobre a base de dados da Universidade Federal do Piauí (UFPI). A descoberta de padrões pode proporcionar o desenvolvimento de estratégias acadêmico-pedagógicas de acordo com a semelhança de perfis, pela definição de rótulos para os diferentes grupos de alunos. 1. Introdução O presente trabalho apresenta o desenvolvimento de processos de Descoberta de Conhecimento em Base de Dados (DCBD) para o aprendizado automático dos perfis de usuários do SIGAA. Para isso foram criados clusters (grupos) de acordo com a semelhança desses perfis, permitindo a descoberta de padrões. Isto facilita o desenvolvimento de estratégias de negócio para uma melhor gestão da universidade. Tão importante quanto a criação dos clusters é sua compreensão. Uma boa definição de um cluster representa um entendimento significativo e pode ajudar o especialista ao estudar ou interpretar os dados. O problema de compreender clusters isto é, de encontrar uma definição ou em outras palavras, um rótulo é conhecido como problema da rotulação [Lopes et al. 2014]. Para isso, métodos de aprendizagem não-supervisionada foram estudados e aplicados ao problema de clustering (agrupamento) e então algoritmos de aprendizagem supervisionada detectaram quais atributos são relevantes para definir cada cluster. Dessa forma busca-se o aprendizado dos perfis dos usuários, permitindo que se tomem decisões que tragam melhorias à comunidade assistida pelo SIGAA-UFPI, definindo cada cluster a partir de um rótulo.

2 2. Referencial Teórico A seguir é apresentado um levantamento bibliográfico sobre as ferramentas e conceitos utilizados neste trabalho Descoberta de Conhecimento O processo de descoberta de conhecimento é uma atividade complexa onde se busca a identificação de padrões, revelando novas informações com potencialidade de uso e compreensão. A interpretação de um grande volume de dados pelo ser humano é uma tarefa impraticável, devendo-se recorrer a ferramentas de Data Mining (Mineração de dados) [Fayyad et al. 1996]. Na Figura 1 temos uma visão geral da etapas que compõem o processo. Figura 1. Fases do processo de descoberta de conhecimento [Fayyad et al. 1996]. Na fase de seleção é escolhido o conjunto de dados que será analisado. Na etapa de pré-processamento é realizada a remoção de ruídos (dados inconsistentes) que podem comprometer a eficiência dos algoritmos. A fase de transformação compreende a formatação dos dados para a aplicação dos algoritmos. Na etapa de mineração de dados ocorre a aplicação de algoritmos de Aprendizagem de Máquina para extração de padrões. Por fim, na fase de avaliação, ou interpretação, ocorre o processo de tratamento dos conhecimentos adquiridos na etapa anterior Aprendizagem de Máquina Aprendizado de Máquina (AM) é o ramo da Inteligência Artificial que estuda o desenvolvimento de sistemas, que são capazes de aprender com a experiência [Mitchell 1997]. Existem dois principais paradigmas: Aprendizado Supervisionado: implica a existência de dados de entrada e a indicação de uma saída que possa ser aprendida para ocorrer o processo de aprendizagem [Braga et al. 2007]. Aprendizado Não-Supervisionado: envolve a aprendizagem de padrões na entrada, quando não são fornecidos valores de saídas específicas [Norving e Russell 2004].

3 2.3. Weka Weka é uma ferramenta que possui uma coleção de algoritmos de AM projetada para o rápido experimento dos métodos existentes em novos conjuntos de dados de forma flexível. O Weka é escrito em Java e distribuído sobre os termos da GNU General Public License. Fornece uma interface uniforme para muitos algoritmos de aprendizagem diferentes. Inclui os métodos de mineração de dados padrão: regressão, classificação, clustering, mineração de regras de associação e seleção de atributos [Bouckaert et al. 2015]. 3. Metodologia A metodologia empregada consistiu na aplicação de algoritmos de AM nãosupervisionados para a formação de clusters, com posterior aplicação de algoritmos de AM supervisionados para extração de regras de produção que permitissem rotular cada cluster formado. Procedimentos de pré-processamento foram realizados para facilitar a análise dos resultados obtidos, são eles: a normalização dos valores para o atributos cidade natal para capital e interior, e a discretização dos valores do atributo IRA (Índice de Rendimento Acadêmico) conforme a Tabela 1, dando origem ao atributo faixa ira. Tabela 1. Discretização do atributo IRA. IRA faixa ira [0,0;4,0[ 1 [4,0;7,0[ 2 [7,0;9,0[ 3 [9,0;10,0] 4 Durante os testes foram utilizadas duas amostras, que de agora em diante serão chamadas de A1 (12785 instâncias) e A2 (42619 instâncias). As amostras foram obtidas por consultas randômicas à base de dados, significando que os arquivos gerados possuem conteúdo totalmente aleatório. O algoritmo utilizado para o agrupamento dos perfis foi o K-means, que tem por objetivo criar partições de uma população n-dimensional em uma dada base de dados, maximizando a similaridade intra-grupo e minimizando a similaridade inter-grupo [Pimentel et al. 2003]. O treinamento do K-means ocorreu de duas maneiras: usando o método training set, onde o mesmo conjunto de dados a ser classificado é utilizado no treinamento, portanto as bases de treinamento e testes são idênticas; e utilizando o método percentage split, no qual um fragmento da base (no caso em questão, 30%) é utilizado para o treinamento, sendo as demais instâncias classificadas com base nos padrões detectados pelo algoritmo. Para obtenção das regras de produção foram utilizados os algoritmos J48 e RandomTree, ambos não-supervisionados. O primeiro decide o valor de destino (variável dependente) de uma nova amostra com base em vários valores de atributos dos dados disponíveis [Kiamarzpour et al. 2013]. O segundo considera apenas alguns atributos escolhidos aleatoriamente para cada nó da árvore [Pina et al. 2010]. Os dois fornecem como

4 saída uma árvore de decisão e foram selecionados devidos à facilidade de interpretação dos resultados. Nesta etapa foi utilizado como atributo classe o cluster atribuído pelo K-means, objetivando compreender o agrupamento realizado. Para avaliar a qualidade da classificação foram utilizadas duas métricas. A acurária, para medir a quantidade de instâncias corretamente classificadas (taxa de acerto). E a estatística Kappa para determinação da confiabilidade da classificação de acordo com a Tabela 2. Tabela 2. Interpretação dos valores da estatística Kappa [Landis e Koch 1977] Valores de Kappa Interpretação <0 Sem concordância 0-0,20 Pobre 0,20-0,39 Ligeira 0,40-0,59 Moderada 0,60-0,79 Substancial 0,80-1,0 Excelente 4. Resultados As instâncias da amostra A1 foram agrupadas inicialmente utilizando o método training set e posteriormente submetidas aos algoritmos J48 e RandomTree, utilizando o atributo cluster como classe. Os resultados detalhados na Tabela 3 revelam que o J48 apresentou melhor desempenho, com acurácia aproximadamente 13,5% superior à obtida pelo RandomTree, classificando corretamente quase a totalidade das instâncias apresentadas. Outro indicativo da melhor classificação do J48 é a estatística Kappa, que neste se encontra em uma faixa considerada excelente, enquanto que para o RandomTree, se encontra em uma faixa de concordância substancial. Além dos fatores estatísticos, o J48 também foi capaz de gerar uma árvore compreensível e de fácil análise, enquanto o RandomTree criou uma árvore com um número muito elevado de nós, dificultando sua análise para uma aplicação prática. Tabela 3. Resultados dos testes realizados com a amostra A1 utilizando training set. J48 RandomTree Instâncias corretamente classificadas Instâncias incorretamente classificadas Estatística Kappa 0,9612 0,7697 Acurácia 97,2546% 83,8874% A seguir, na Tabela 4, estão os resultados para a amostra A1 utilizando o método percentage split, no qual 30% das instâncias foram utilizadas para treinamento e as demais foram agrupadas a partir dos padrões aprendidos pelo K-means. Novamente a superioridade do J48 se mantém perante o RandomTree e ambos obtiveram um aumento de aproximadamente 2% na acurácia com relação ao método de treinamento training set. Mais uma vez a árvore criada pelo J48 apresenta-se de fácil análise. Em contrapartida a árvore gerada pelo RandomTree apresenta um elevado número de nós (mais de

5 Tabela 4. Resultados dos testes realizados com a amostra A1 utilizando percentage split. J48 RandomTree Instâncias corretamente classificadas Instâncias incorretamente classificadas Estatística Kappa 0,995 0,8011 Acurácia 99,6425% 85,7654% um milhão), o que torna sua análise impraticável para o problema em questão. Quanto ao método de treinamento o percentage split foi capaz de produzir melhores resultados tanto em acurácia quanto em termos da estatística Kappa, para os dois algoritmos testados. Devido à sobrecarga de memória não foi possível utilizar o algoritmo RandomTree com a amostra A2. Entretanto o J48 se manteve capaz de obter as regras de produção. Os resultados estão detalhados na Tabela 5. É perceptível a inversão do desempenho relacionado ao método de treinamento. realizando o treinamento do K-means utilizando training set a acurácia alcançada pelo J48 superou substancialmente a obtida quando utilizando percentage split. O resultado superior se repete para a estatística Kappa, que se aproxima bastante do valor máximo (1,0) no primeiro caso. Tabela 5. Resultados dos testes realizados com o J48 e a amostra A2 utilizando training set e percentage split. training set percentage split Instâncias corretamente classificadas Instâncias incorretamente classificadas Estatística Kappa 0,9969 0,8813 Acurácia 99,7865% 91,6873% 5. Conclusões Em todos os testes realizados o J48 apresentou melhor desempenho que o Random- Tree, classificando corretamente quase a totalidade das instâncias apresentadas e gerando árvores facilmente compreensíveis. Além destes fatores o J48 exige menos recursos computacionais,sendo o algoritmo mais adequado para obtenção de padrões na base de dados do SIGAA. Quanto ao método de treinamento utilizado pelo K-means, o percentage split levando os algoritmos de classificação a alcançar uma acurácia levemente superior para a amostra A1. Entretanto o método training set proporcionou melhores resultados para a amostra A2 com se tornando o mais indicado para grandes massas de dados. Dentro do contexto do SIGAA-UFPI pode-se, por exemplo, apontar a relação socioeconômica dos alunos com o seu desempenho acadêmico, como exemplifica a Tabela 6, obtida dos testes executados. Com isso, políticas ou processos de decisões preventivos ou corretivos, como a adoção de uma nova postura pedagógica da universidade, podem ser utilizados para promover ou evitar a ocorrência de padrões de interesse da instituição.

6 Tabela 6. Regras de produção de clusters extraídas da árvore de decisão. cluster0 cluster1 cluster2 cluster3 nota redacao > <faixa ira <= 3 faixa ira <= 2 faixa ira = 4 nota linguagem >1856,5 idade >26 idade <= 26 Referências Bouckaert, R. R., Frank, E., Hall, M., Kirkby, R., Reutemanm, P., Seewald, A., e Scuse, D. (2015). WEKA Manual for Version Braga, A. P., de Leon Ferreira de Carvalho, A. P., e Ludemir, T. B. (2007). Redes Neurais Artificiais. LTC, 2 ed. Fayyad, U., Piatetsky-Shapiro, G., e Smyth, P. (1996). From data mining to knowledge discovery in databases. In Advances in Knowledge Discovery and Data Mining, AAAI Press, p Kiamarzpour, F., Dianat, R., Bahrani, M., e Sadeghzadeh, M. (2013). Improving the methods of classification based on words ontology. International Journal of computer Science Issues, 10(1): Landis, J. R. e Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1): Lopes, L. A., Machado, V. P., e de Andrade Lira Rabêlo, R. (2014). Automatic cluster labeling through artificial neural networks. In International Joint Conference on Neural Networks, p Mitchell, T. M. (1997). Machine Learning. McGraw-Hill, 1 ed. Norving, P. e Russell, S. (2004). Inteligência Artificial. Campus, 2 ed. Pimentel, E. P., de França, V. F., e Omar, N. (2003). A identificação de grupos de aprendizes no ensino presencial utilizando técnicas de clusterização. In XIV Simpósio brasileiro de Informática na educação, p Pina, A. C., de Souza Colimodio, V., da Silva, A. A., e de Pina Filho, A. C. (2010). projeto de pontes usando algoritmos de aprendizagem de máquina. In VI Congresso Nacional de Engenharia Mecânica.