Gestão Pedagógica de Cursos de Graduação a partir de Data Mining

Gestão Pedagógica de Cursos de Graduação a partir de Data Mining D. R. Carvalho, IPARDES e Universidade Tuiuti do Paraná. Resumo - Uma das grandes dificuldades de todas as Instituições de Ensino Superior é identificar se o aprendizado do discente está atingindo ou não o objetivo previamente estabelecido. Em geral, esta análise é feita tomando por base algumas informações estatísticas, as quais permitem constatar as disciplinas com maior/menor aprovação, as grandes áreas nas quais os alunos apresentam dificuldades, etc. Porém na maioria das vezes estas informações são insuficientes para que os gestores dos cursos tomem decisões sobre as ações a serem adotadas para melhorar a curva de aprendizado. Neste sentido, este artigo descreve experimentos realizados, a partir de técnicas de Data Mining (extração de conhecimento a partir das bases de dados) em dois momentos no tempo: um no início de 2003 e outro no início de 2004. A importância deste relato reside no fato de que a partir dos resultados obtidos em 2003, algumas ações foram adotadas; e com a realização dos experimentos de 2004 é possível constatar se a adoção destas ações efetivamente contribuiu para o aumento dos índices de aproveitamento dos alunos. Palavras-chave: Data Mining, apoio à decisão, descoberta de conhecimento, regras de associação. Abstract-- One of the most difficult tasks of Graduation Schools is to identify if the learning process of the student has reached the aims which were previously established. In general, that analysis takes place based on some statistics information which allows knowing subjects with more/less approval, those great areas which students present difficulties, etc. Therefore, in the great majority of time that information is not enough for courses managers to make decision about the actions to be adopted in order to enhance the learning curve. In this sense, this paper describes experiments accomplished from Data Mining techniques (extraction of knowledge from database) in two distinct moments: one of them in the beginning of 2003 and the other on the beginning of 2004. The importance of this report is that from results obtained in 2003, some actions were adopted; and with the accomplishment of experiments from 2004 it is possible to verify if the adoptions of those actions contributed effectively to raise the rate of students improvements. Index Terms-- Data Mining, decision support, knowledge discovery, association rule. I. INTRODUCTION Os gestores continuamente tomam decisões, ou simplesmente chegam a determinadas conclusões baseadas IPARDES Instituto Paranaense de Desenvolvimento Econômico e Social. R. Máximo João Kopp, 274, Bloco 2 82630-900 Curitiba- Paraná (e-mail: deborah@ipardes.gov.br) UTP- Universidade Tuiuti do Paraná. Av. Comendador Franco, 1860 80215-090 Curitiba Paraná (e-mail: deborah@utp.br ) em informações ou no conhecimento que estes acumulam ao longo de sua vida. Porém existem outras formas de também adquirir conhecimento para que este venha a orientar os processos decisórios. Data Mining é uma tecnologia que utiliza algoritmos capazes de explorar um grande conjunto de dados extraindo destes, conhecimento na forma de hipóteses e de regras. Data Mining é uma das etapas do processo de Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases - KDD). Este conceito foi proposto na primeira conferência internacional de KDD, em Montreal, em 1995 [1]. O interessante deste processo é que este conhecimento, adquirido a partir do processamento de um conjunto de dados, possa ser estendido para outros conjuntos, a partir do momento que estes dois conjuntos possuam estruturas de dados similares. Este trabalho apresenta e discute alguns experimentos usando a Informação e o Conhecimento extraídos de bases de dados com o objetivo de auxiliar o processo decisório de coordenadores e colegiados de cursos de graduações. Este artigo está organizado da seguinte forma: a primeira seção que introduz o assunto, a segunda seção que faz uma revisão da literatura, a terceira seção que apresenta a metodologia adotada para a realização dos experimentos e finalmente as duas últimas que apresentam os resultados e concluem o artigo. II. DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS Descoberta de conhecimento em bases de dados é uma área da Ciência da Computação que descreve as etapas e os procedimentos necessários para que o conhecimento seja extraído de forma eficiente. No processo KDD estão envolvidas várias etapas que vão desde a seleção da(s) base(s) de dados sobre a(s) qual(is) será realizado o processamento, até a disponibilização do conhecimento descoberto para o usuário. Em um alto nível de abstração pode-se dizer que essas etapas fazem parte de três grandes grupos: pré-processamento, aplicação de um algoritmo de Data Mining e pós-processamento [2]. A. Pré-Processamento O processo inicia-se a partir do conhecimento do domínio da aplicação, bem como dos objetivos a serem atingidos. A partir daí é realizada a preparação dos dados, que envolve muitas e trabalhosas tarefas, pois os dados devem ser relevantes ao alcance dos objetivos, limpos, consistentes e livres de excessivas redundâncias, ruídos, contradições, etc. Por não se tratar do foco central deste artigo, esta etapa não será tratada com maiores detalhes. 285

B. Data Mining Data Mining consiste em um conjunto de conceitos e métodos com o objetivo de encontrar uma descrição, preferencialmente compreensível e interessante para o usuário, de padrões e regularidades em um determinado conjunto de dados. Os termos Data Mining e Descoberta de Conhecimento em Base de Dados (Knowledge Discovery in Databases KDD) muitas vezes são confundidos como sinônimos para identificar o processo de descoberta de informação conhecimento útil partir de bancos de dados. O termo KDD foi estabelecido no primeiro workshop de KDD em 1989 para enfatizar que conhecimento é o produto final de uma descoberta baseada em dados (data-driven). Desta forma KDD se refere a todo o processo de descoberta de conhecimento enquanto Data Mining se refere a uma das etapas deste processo. As etapas do KDD envolvem preparação dos dados, seleção, limpeza, transformação, Data Mining e interpretação dos resultados [3]. Um padrão é definido como um tipo de declaração (ou modelo de uma declaração) sobre o conjunto de dados que está sendo analisado. Uma instância de um padrão é uma declaração em uma linguagem de alto nível que descreve uma informação interessante descoberta nos dados. A descoberta de relações nos dados compreende todas as instâncias de padrões selecionados no espaço das hipóteses que sejam suficientemente interessantes, de acordo com algum critério estabelecido [4]. As várias tarefas desenvolvidas em Data Mining têm como objetivo primário à predição e/ou a descrição. A predição usa atributos para predizer os valores futuros de uma ou mais variáveis (atributos) de interesse. A descrição contempla o que foi descoberto nos dados sob o ponto de vista da interpretação humana [1]. O objetivo da descrição, bem como o da predição, são atendidos através de algumas das tarefas principais de Data Mining [5], [1], [6]. A seguir são descritas três dessas tarefas: a de classificação, a de descoberta de regras de associação (que é o foco deste trabalho), e a de clustering, a qual pode ser utilizada para análise inicial dos dados, possivelmente levando posteriormente à execução da tarefa de classificação. A classificação, por vezes chamada de aprendizado supervisionado [7], parece ser a tarefa de Data Mining que tem sido mais estudada ao longo do tempo. Essa tarefa consiste em classificar um item de dado (exemplo ou registro) como pertencente a uma determinada classe dentre várias classes previamente definidas. Cada classe corresponde a um padrão único de valores dos atributos previsores (demais atributos que caracterizam o exemplo). Esse padrão único pode ser considerado a descrição da classe. O conjunto de todas as classes é definido como C, e a cada classe C i, correspondente uma descrição D i das propriedades selecionadas. Desta forma, usando estas descrições é possível construir um classificador o qual descreve um exemplo e do conjunto de exemplos T como sendo um exemplo pertencendo à classe C i, quando aquele exemplo satisfaz D i. Na tarefa de Regras de Associação o objetivo é descobrir regras de associação, que são expressões X Y (lidas como: SE (X) ENTÃO (Y)), onde X e Y são conjuntos de itens, X Y =. O significado de cada regra desta natureza é de que os conjuntos de itens X e Y freqüentemente ocorrem juntos em uma mesma transação (registro). A base de dados contém instâncias nas quais existem o conjunto X e também contem a presença de Y. Uma regra de associação é um relacionamento SE (X) ENTÃO (Y), onde X e Y são conjuntos de itens, X Y =. Um exemplo de uma regra do tipo X Y poderia ser: 90% dos consumidores que compram pneus e acessórios automotivos também utilizam serviços de manutenção do carro. O valor 90% é dito a confiança da regra, ou seja, representa o número de consumidores que compraram pneus e acessórios automotivos e também utilizaram serviços de manutenção do carro divido pelo número de consumidores que compraram pneus e também acessórios automotivos. Uma outra medida para avaliar uma regra de associação é o valor do suporte da regra, o qual representa a freqüência de ocorrência de os itens X e Y em relação à base de dados. Formalmente, confiança e suporte são definidos da seguinte forma [8]: Suporte = X Y / N Confiança = X Y / X onde N é o número total de exemplos. X denota a cardinalidade do conjunto X A tarefa de clustering, as vezes chamada de classificação não-supervisionada [9], consiste na identificação de um conjunto finito de classes ou clusters, baseada nos atributos dose objetos não previamente classificados. Um cluster é basicamente um conjunto de objetos agrupados em função de sua similaridade ou proximidade. Os objetos são agrupados de tal forma que as similaridades intraclusters (dentro de um mesmo cluster) sejam maximizadas e as similaridades interclusters (entre clusters diferentes) sejam minimizadas. C. Pós-Processamento Em geral os algoritmos de Data Mining produzem, como parte dos seus resultados, informações de natureza estatística que permitem ao usuário identificar o quão correto e confiável é o conhecimento descoberto. Porém, muitas vezes essas avaliações não são suficientes. Mesmo que o conhecimento descoberto seja altamente correto do ponto de vista estatístico, ele pode não ser de fácil compreensão pelo usuário. Por exemplo, o conjunto de regras descobertas pode ser grande demais para ser analisado, ou conter muita redundância. Além disso, o conhecimento descoberto pode não ser surpreendente, representando algum relacionamento previamente conhecido. Poucos algoritmos de Data Mining produzem, como parte dos resultados, uma medida do grau de compreensibilidade e de surpresa do conhecimento descoberto [10]. Porém, essas medidas podem ser computadas na fase de pós-processamento, como uma forma de avaliação adicional da qualidade do conhecimento descoberto, complementando (e não substituindo) medidas estatísticas sobre o grau de correção daquele conhecimento. 286

Sendo assim, na etapa de pós-processamento, uma das maiores preocupações é produzir uma síntese do conhecimento inicialmente descoberto, ou mesmo, identificar, dentre os padrões descobertos na fase de Data Mining, aqueles que são mais surpreendentes e/ou interessantes ao usuário. Dentre as diversas técnicas que podem ser adotadas para cumprir esta etapa, destaca-se a descoberta de regras de exceção. Este método é baseado no princípio que a contradição ao senso comum, a qual pode ser bastante surpreendente [11], por exemplo: A X regra de senso comum (alta cobertura e alta confiança) A, B X regra de exceção (baixa cobertura, alta confiança) B X regra de referência (baixa cobertura e/ou baixa confiança) Fica claro a partir da estrutura anterior que o item de referência B é o que explica a causa da exceção, em relação ao senso comum A X. III. METODOLOGIA ADOTADA Para a construção dos experimentos referentes à 2004, foram adotados critérios semelhantes aos utilizados em 2003 [12]. Naquele trabalho foram priorizados os resultados envolvendo dados dos alunos para os cursos de Computação da Universidade Tuiuti do Paraná (Engenharia da Computação, Bacharelado em Sistemas de Informação, Tecnologia em Processamento de Dados e Bacharelado em Ciência da Computação). Para os experimentos descritos neste trabalho foi priorizado o Curso de Ciência da Computação tendo em vista, que especificamente para este curso foram adotadas algumas iniciativas com o objetivo de melhor o nível de aprendizado, que foram identificadas a partir dos resultados obtidos em 2003. Conforme já mencionado anteriormente, um dos objetivos deste trabalho é verificar o quão eficientes foram as indicações de ação deflagradas pelos resultados obtidos em 2003 [12]. Os dados que fazem parte dos experimentos descritos nos experimentos de 2004 são referentes ao aproveitamento, como, por exemplo, notas bimestrais, faltas e condição de aprovação, por disciplina cursada. Com relação às tarefas de Data Mining foi adotada a de Descoberta de Regras de Associação, por dois motivos, a saber: por tratar-se da tarefa que melhor se adequa a natureza do problema, identificar disciplinas com reprovações associadas; e possibilitar pesquisar a existência/ou não de situações de exceções nas reprovações associadas. Para esta etapa foi utilizado o algoritmo apriori [13]. A partir dos resultados obtidos com base nos dados de aproveitamento até 2003, estes resultados foram comparados aos inicialmente obtidos [12] (com base nos dados de aproveitamento até 2002). IV. RESULTADOS COMPUTACIONAIS Como o objetivo de avaliar o quanto as medidas adotadas para o curso de Ciência da Computação, a partir de 2003, contribuíram para o aumento do aprendizado dos alunos [12] foram extraídas algumas informações, as quais passarão a serem descritas a seguir. A Fig 1 apresenta a distribuição de percentual dos aprovados e reprovados para o período compreendido entre os anos de 1998 e 2003. Em 1998, quando da criação do curso, houve uma grande concentração nos aprovados. Tendo em vista a adoção de distintos critérios para o armazenamento dos dados durante 1998, bem como a implantação de um novo sistema de controle acadêmico a partir de 1999, julgou-se mais conveniente avaliar o comportamento a partir deste ultimo ano. Com relação a aprovação pode-se perceber que entre 1999 e 2002 a curva reflete um comportamento quase estabilizado (64% em 1999, 65% em 2000) e em queda em outros (65% em 2000 e 60% em 2001), sendo o período com o melhor desempenho em 2003 (74%) (Tabela 1). 90,00 80,00 70,00 60,00 50,00 40,00 30,00 20,00 10,00 0,00 1998 1999 2000 2001 2002 2003 Aprovado Reprovado Fig. 1. Participação percentual do aproveitamento dos alunos, segundo situação de aprovação por ano letivo TABELA I PARTICIPAÇÃO PERCENTUAL DO RESULTADO OBTIDOS PELOS ALUNOS DOS CURSOS DE COMPUTAÇÃO, SEGUNDO SITUAÇÃO DE APROVAÇÃO POR ANO LETIVO (2002 E 2003) Situação 2002 2003 Aprovado 62,0 73,7 Reprovado 18,4 17,2 Desistente 19,6 9,1 A Tabela 1 permite avaliar o indicador desistência, ou seja, aquele aluno que inicia uma disciplina e após os primeiros meses deixa de comparecer as aulas, bem como, não participa das etapas de avaliação. Conforme pode ser observado, a redução na desistência implicou no equivalente aumento no índice de aprovação. Ao observar o volume de desistências nos dois anos, houve uma redução em torno de 60%. Muito provavelmente as medidas adotadas, permitiram que o aluno não apenas não desistisse, mas também que o mesmo superasse as suas dificuldades, atingindo assim condições de aprovação. O desenvolvimento do trabalho de série permitiu que o discente percebesse a real importância de cada uma das disciplinas envolvidas e desta forma transformasse uma dificuldade em um desafio. A Tabela 2 identifica as disciplinas com os maiores índices de desistência nos anos de 2002 e 2003. Cabe ressaltar que apesar da disciplina de Álgebra Linear aparecer nos dois anos como sendo a segunda disciplina com os maiores índices de desistência, porém uma redução de 50% no número de alunos desistentes. No caso de Introdução a Computação, que também aparece nos dois 287

anos, essa redução chegou a ser de 69%. TABELA 2 DISCIPLINAS COM OS MAIORES ÍNDICES DE DESISTÊNCIA NOS ANOS DE 2002 E 2003 2002 2003 CALC DIF E INTEG I PROG DE COMPUT I ALGEBRA LINEAR ALGEBRA LINEAR CIRCUITOS DIGITAIS CIRCUITOS DIGITAIS PROG DE COMPUT I GEOMETRIA ANALITICA ENG DE SW I CALC DIF E INTEG I GEOMETRIA ANALITICA ENG DE SW I INTROD A COMPUTACAO EST DE DADOS/GRAFOS LOG DE PROGRAMACAO HABILID ACADEMICAS EST DE DADOS/GRAFOS INTROD A COMPUTACAO HABILID ACADEMICAS LOGICA MATEMATICA Uma das preocupações que orientaram a pesquisa realizada sobre os dados de aproveitamento até o ano de 2002 [12] foi a identificação de disciplinas com reprovações associadas. Neste trabalho (sobre os dados até 2003) a base de dados também foi submetida ao processo de Descoberta de Regras de Associação. Em geral os conjuntos de regras descobertos são tão extensos (grande número de regras) que dificultam a análise por parte dos membros do colegiado. Para estas situações torna-se imperativa adoção de uma etapa de pós-processamento sobre estes conjuntos, ou seja, buscar pelas regras que tenham maior chance de serem interessantes para orientar o processo decisório. Só para ter uma idéia, nos experimentos realizados os conjuntos de regras descobertos variaram entre centenas a milhares de regras. A partir do conjunto de regras descobertas foi executada a opção de identificação das situações de exceção (seção II.c) da ferramenta FACILITA_DM [14]. A Fig 2 apresenta algumas das regras identificadas. A partir da Fig 2 é possível perceber que em geral os alunos aprovados na disciplina de Cálculo Diferencial e Integral II também são aprovados na disciplina de Arquitetura de Computadores. Porém esta relação se altera caso o aluno tenha sido aprovado em Cálculo Diferencial e Integral II, mas tenha sido reprovado na disciplina de Estrutura de Dados, quando em geral o aluno reprova em Arquitetura de Computadores. Essa mesma situação ocorre com a disciplina programação de Computadores II. Para a regra Cálculo Dif. e Integral II Aprovado Arquitetura Computadores Aprovado existem as seguintes exceções. (a) Estrutura Dados Reprovado E Cálculo Dif. e Integral II Aprovado Arquitetura Computadores Reprovado (b) Programação de Computadores II Reprovado E Cálculo Dif. e Integral II Aprovado Arquitetura Computadores Reprovado Fig. 2. Regras de exceção associando as disciplinas de Cálculo Diferencial e Integral I e Arquitetura de Computadores Da mesma forma que a partir da Fig 2, também a partir da Fig 3 é possível identificar uma situação de exceção, neste caso envolvendo as disciplinas de Álgebra Linear, Geometria Analítica e de Lógica de Programação. Para a regra Geometria Analítica Aprovado Álgebra Linear Aprovado existem a seguinte exceção. Lógica de Programação Reprovado E Geometria Analítica Aprovado Álgebra Linear Reprovado Fig. 3. Regras de exceção associando as disciplinas de Geometria Analítica e Álgebra Linear Dado que o objetivo desta pesquisa é identificar situações nas quais medidas possam ser adotadas para potencializar o aprendizado do discente, pode-se entender que esse segundo experimento (com os dados até 2003) demonstrou que disciplinas que requerem atenção especial são Estrutura de Dados e Linguagem de Programação II. Sendo assim ambas as disciplinas sofreram adaptações, já a partir de 2004. Para a disciplina de Estrutura de Dados foram introduzidas horas semanais de atividades práticas em laboratório e para a disciplina de Linguagem de Programação II foi ampliada a grade horária semanal. V. CONCLUSÕES E TRABALHOS FUTUROS A partir dos experimentos relatados neste trabalho é possível perceber que muitas vezes o potencial das bases de dados disponíveis nas mais diversas instituições não é devidamente aproveitado, inclusive no ambiente acadêmico. Na sua grande maioria, destas bases são apenas extraídas algumas informações de natureza estatística, que podem ou não auxiliar de forma adequada aos gestores do domínio em questão. Um dos méritos deste trabalho foi não apenas realizar um experimento isolado, no início de 2003 [12], mas também repetir o mesmo experimento, no início de 2004, verificando se as ações induzidas por aqueles resultados surtiram/ou não os efeitos inicialmente pretendidos. Relembrando, a partir dos resultados obtidos em 2003 [12] concluiu-se que uma forma de melhorar o aproveitamento dos alunos do Curso de Ciência da Computação poderia ser a introdução de um período de nivelamento para os alunos do primeiro ano, bem como, a adoção de trabalhos de série, um para cada uma das três séries iniciais. Os resultados obtidos no segundo experimento (Fig 1 e Tabelas 1, 2) demonstram que as taxas de aproveitamento foram significativamente melhores. Mostrando assim que as ações deflagradas em 2003 auxiliaram para uma melhoria do aprendizado dos alunos. A partir das regras de associação descobertas pode-se perceber a existência de disciplinas que precisam de atenção especial, como por exemplo Estrutura de Dados e Linguagem de Programação II (Fig 2). Dado a dinâmica do processo, já para 2004 foram adotadas medidas com o objetivo de minimizar alguns reflexos em outras disciplinas a partir do não aproveitamento destas. A proposta desta pesquisa é aprofundar esses experimentos, a partir da adoção de outras técnicas de Data Mining, com o objetivo de levantar elementos interessantes para a tomada de decisão em relação ao perfil do curso/alunos e auxiliar a administração da Instituição no sentido de dar suporte às decisões estratégicas de cunho acadêmica e/ou administrativo. Também estão sendo desenvolvidos experimentos com o objetivo de categorizar as disciplinas em ciclo básico, intermediário e avançado. 288

Referências: [1] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, Advances in Knowledge Discovery and Data Mining. USA: American Association for Artificial Intelligence- 1996. [2] R. Michalski, K. Kaufman, Data Mining and Knowledge Discovery: A Review of Issues and Multistrategy Approach, In: Ryszard S. Michalski; Ivan Bratko; Miroslav Kubat (Eds.). Machine Learning and Data Mining Methods and Applic., John Wiley & Sons Ltd., England. 1998. [3] U. Fayyad, Mining Databases: Towards Algorithms for Knowledge Discovery. Data Engineering IEEE Computer Society. Washington. 1998, p. 39-48. [4] W. Klosgen, Patterns for Knowledge Discovery in Databases. Proc. Of Machine Learning. UK. 1992, p. 1-9. [5] P. Adriaans, D. Zabtinge, Data Mining, England, Addison Wesley Longman. 1996. [6] Y. Fu, Discovery of Multiple-Level Rules from Large Databases, Ph.D. Thesis of Doctor of Philosophy, Faculty of Applied Sciences, Simon Fraser University, British Columbia, Canada. 1996, 184p. [7] D. Fisher, G. Hapanyengwi, Database Management and Analysis Tools onf Machine Induction, Journal of Intelligence Information Systems, 2, Kluwer Academic Publihers, Boston. 1993, p. 5-38 [8] R. Agrawal, T. Imielinski, A. Swami, A. Mining Associations between Sets of Items in Massive Databases. Proc. of the ACM- SIGMOD 1993 Int'l Conference on Management of Data, Washington D.C., May 1993, p.207-216. [9] M. S. Chen, J. Han, P. S. Yu, Data Mining: An Overview From Database Perspective. IEEE Transaction On Knowledge And Data Engineering, New York, V. 8, N. 6, P. 866-883. 1996. [10] A. A. Freitas, On objective measures of rule surprisingness. Principles of Data Mining & Knowledge Discovery (Proc. 2nd European Symp., PKDD'98. Nantes, France, Sep. 1998). LNAI 1510, 1998. 1-9. Springer-Verlag. [11] F. Hussain, H. Liu, H. Lu, Exception Rule Mining with a Relative Interestingness Measure. PAKDD-2000, LNAI 1805, 2000. p. 86-96. [12] D. R. Carvalho, P. Bassi, Data Mining para Avaliação do Aprendizado dos Cursos de Computação. 3rd International Conference on Engineering and Computer Education ICECE 2003, Santos SP, Brasil, Março/2003. [13] C. Borgelt, Working Group Neural Networks and Fuzzy Systems, Departament of knowledge Processing and Language Engineering. Otto-von-Guericke-University of Magdeburg, Alemanha. http://wwwics.cs.uni-magdeburg.de/iws.html [14] D. R. Carvalho, W. Alves N., M. U. Bueno. Facilitando o uso de Algoritmos para Data Mining. Congresso Nacional de Tecnologia da Informação e Comunicação. Aceito para publicacao. Abril, 2004. 289