Mineração da base Vestibular André Cardoso de Souza Newton Amaro Jr Departamento de Ciência da Computação UFMG 13 de Dezembro de 2006
Base Vestibular Base Vestibular Base com informações dos vestibulares de 2002 a 2005 Notas disponibilizadas dos alunos nas disciplinas do vestibular (2 a etapa) e do curso Informações sócio-econômicas
Preparação Informações sócio-econômicas desprezadas Unificadas informações sobre: aluno, curso, disciplina, notas nas disciplinas, provas do vestibular e notas no vestibular Utilizados apenas alunos do vestibular 2002/2003 Foco da investigação: alunos do ICEx Disciplinas utilizadas: Cálculo I, II e III Mecânica e Eletromagnetismo Geometria Anaĺıtica e Álgebra Linear (GAAL)
Preparação Notas das questões do vestibular e total discretizadas Base importada para o Tamanduá Utilizado conceito correspondente às notas das disciplinas dos cursos Total de registros: 22605
Execução Minerações realizadas: 1 Curso, Escola, Disciplina, Conceito, Freqüência, Notas das questões das provas do vestibular, Matéria da prova do vestibular, Sexo 2 Conceito, Disciplina, Curso, Freqüência, Prova do Vestibular, Sexo, Nota Total do Vestibular 3 Eliminado atributo Freqüência da mineração anterior
Análise das minerações - Mineração 1 Muitas regras (+ 50 mil) Visualização difícil Muitas regras semelhantes Regras irrelevantes
Análise das minerações - Mineração 2 Focaliza nota final nas provas do vestibular ao invés de notas das questões Muito menos regras (1094) Regras selecionadas: 43,64% dos registros em que: Frequencia em=s Conceito corr=b Nome da disc=calculo DIFER 1 tiveram como conseqüência: Nota total no=de 48.00 a 66 ocorrendo em 1,37% dos dados. Esta regra: apresenta uma confiança 1,28% acima da esperada e tem uma convicção de 1,01
Análise das minerações - Mineração 3 Eliminado atributo Freqüência (gerava regras óbvias com o conseqüente Conceito) Selecionados registros referentes às provas de vestibular de Física e Matemática Total de 110 regras Regras selecionadas: 30,06% dos registros em que: Materia da pr=matematica Nota total no=de 29.00 a 47 tiveram como conseqüência: Conceito corr=d ocorrendo em 4,56% dos dados. Esta regra: apresenta uma confiança 6,93% acima da esperada e tem uma convicção de 1,03
Análise das minerações - Mineração 3 29% dos registros em que: Materia da pr=matematica Nota total no=de 48.00 a 66 tiveram como conseqüência: Conceito corr=d ocorrendo em 4,56% dos dados. Esta regra: apresenta uma confiança 3,19% acima da esperada e tem uma convicção de 1,01
Conclusões Conclusões Os resultados não foram conclusivos, mas indicam tendências interessantes A falta de informações sobre a base de dados impediu um direcionamento melhor dos esforços no trabalho (principalmente nos dados sócio-econômicos) Uma preparação melhor da base e mais recursos computacionais disponíveis podem revelar resultados conclusivos