Nicolas P. Boa Vista 1, Michele F. Fiqueiró 2, Patricia M. Mozzaquatro 3. Cruz Alta RS Brazil

Documentos relacionados
Análise de Agrupamento Hierárquico aplicada aos microdados do ENADE do curso de graduação em Ciência da Computação

Clustering: k-means e Agglomerative

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

SBC - Sistemas Baseados em Conhecimento

Resultados relacionados com o IGC 2012 Todo o País

KDD, Mineração de Dados e Algoritmo Apriori

Ministério da Educação Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira n. alunos presente s Enade

Análise de Agrupamento. Cluster Analysis

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

A Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.

SUZEL LISIANE JANSEN BITTENCOURT Orientador: Prof. Dr. Octávio Augusto Camargo Conceição

Mineração de Textos na Web

Descoberta de Conhecimento em Bancos de Dados - KDD

Data Mining. Felipe E. Barletta Mendes. 21 de maio de 2008

ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa

Análise Multivariada Aplicada à Contabilidade

Níveis descritivos de testes estatísticos de variabilidade como medidas de similaridade entre objetos em análises de agrupamento

Aprendizado de Máquina

Mineração de Dados em Biologia Molecular

Inteligência Artificial Agrupamento de Dados. prof. Dr. Rogério R. de Vargas. Universidade Estadual de Santa Cruz - UESC. Ilhéus-Ba, Outubro de 2013

Análise de dados multivariados I

Extração de Conhecimento & Mineração de Dados

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel

CONTRIBUIÇÃO DA ANÁLISE MULTIVARIADA PARA OS INDICADORES DE AVALIAÇÃO DOS PROGRAMAS DE PÓS-GRADUAÇÃO: uma análise na área de Matemática

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

SEMINÁRIOS INTEGRADOS EM SISTEMAS DE INFORMAÇÃO. Luiz Leão

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

PERGUNTAS FREQUENTES. A legislação que envolve as diretrizes e definições gerais acerca do Enade se baseia nas seguintes normas judiciais:

Inteligência nos Negócios (Business Inteligente)

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução

MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS

KDD E MINERAÇÃO DE DADOS

INF 1771 Inteligência Artificial

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

Brasília, 12 de março de 2009

CÁLCULO DO TAMANHO AMOSTRAL EM R SHINY. Calculation of the Sample Size in R Shiny

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

Redes Neurais (Inteligência Artificial)

2COP229 Inteligência Computacional. Aula 3. Clusterização.

Agrupamentos de Dados: Avaliação de Métodos e Desenvolvimento de Aplicativo para Análise de Grupos

Aprendizado de Máquina (Machine Learning)

3 Estado da arte. 3.1 A linguagem de consultas SPARQL

INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA. Exame Nacional de Desempenho dos Estudantes ENADE

ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA

ANALYTICS: Dados e Atenção

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Portaria Inep nº 245 de 04 de agosto de 2011 Publicada no Diário Oficial de 05 de agosto de 2011, Seção 1, págs. 55 e 56

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Análise do Desempenho Acadêmico Utilizando Redes Bayesianas: um estudo de caso

Aprendizado de Máquina (Machine Learning)

Consistência de agrupamentos de acessos de alho via análise discriminante

DESENVOLVIMENTO E IMPLEMENTAÇÃO DE SOFTWARE EDUCACIONAL NA ÁREA DE ESTATÍSTICA PARA O ENSINO BÁSICO 1

Um Comparativo entre Ferramentas para o Desenvolvimento de Jogos Educativos Computacionais Rogério Paulo Marcon Júnior, Giani Petri

Inteligência nos Negócios (Business Inteligente)

ENADE Relatório da IES UNIVERSIDADE FEDERAL DO PARANÁ CURITIBA. Instituto Nacional de Estudos e Pesquisas Educacionais

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

PORTARIA Nº 828, DE 16 DE ABRIL DE 2019

Escalonamento Multidimensional

ANÁLISE COMPARATIVA DO DESEMPENHO NO ENADE DOS ESTUDANTES DE GRADUAÇÃO DO CENTRO DE CIÊNCIAS E EXATAS E DE TECNOLOGIA DA UFSCAR

ENADE Relatório da IES UNIVERSIDADE FEDERAL DE SANTA CATARINA FLORIANÓPOLIS. Instituto Nacional de Estudos e Pesquisas Educacionais

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Armazém de dados para o Censo da Educação Superior: uma experiência no Centro de Computação da UFMG

Guilherme Augusto Bauer GERAÇÃO DE CONHECIMENTO ATRAVÉS DE DADOS DA PLATAFORMA LATTES COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

- Quem deve fazer o Enade?

Universidade Federal do Rio Grande do Sul Município: Porto Alegre

VII CONGRESSO INTERNACIONAL DE ENSINO DA MATEMÁTICA

A MINERAÇÃO DE DADOS APLICADA A AVALIAÇÃO DA INFLUENCIA DA MEDIAÇÃO DO TUTOR NOS CURSOS DE GRADUAÇÃO EM EAD DO CEAR/ UEG

Resultado do Enade 2016

Universidade Estadual de Ponta Grossa Município: Ponta Grossa

Sistemas de Informação e Decisão. Douglas Farias Cordeiro

MANUAL DO ESTUDANTE ENADE 2018

Mineração de Dados Aplicada no Contexto Educacional

UNIVERSIDADE FEDERAL DE RORAIMA PRÓ-REITORIA DE PLANEJAMENTO DIRETORIA DE AVALIAÇÃO E INFORMAÇÃO. ENADE Exame Nacional de Desempenho de Estudantes

ENADE Relatório da IES UNIVERSIDADE FEDERAL DE GOIÁS GOIÂNIA. Instituto Nacional de Estudos e Pesquisas Educacionais

Descrição do Método de Análise de Clusters

Engenharia de Software

ENADE 2015 PERGUNTAS E RESPOSTAS

Fundamentos de Mineração de Dados

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

ENADE 2012 INFORMAÇOES IMPORTANTES PROACAD - UFPE DIRETORIA DE GESTÃO ACADÊMICA JUNHO 2012

Modelagem em Experimentos Mistura-Processo para Otimização de Processos Industriais 15

Plugin da Ferramenta TestComplete para integração com a ferramenta TestLink

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

ENADE Relatório da IES FUNDAÇÃO UNIVERSIDADE FEDERAL DA GRANDE DOURADOS DOURADOS. Instituto Nacional de Estudos e Pesquisas Educacionais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Segmentação. Luiz Eduardo S. Oliveira, Ph.D.

Informações Relevantes aos Estudantes

ENADE Relatório da IES UNIVERSIDADE FEDERAL DE GOIÁS JATAÍ. Instituto Nacional de Estudos e Pesquisas Educacionais PAÍS RICO É PAÍS SEM POBREZA

Sensometria, Segmentação. Adilson dos Anjos

ENADE Relatório da IES UNIVERSIDADE FEDERAL DE GOIÁS CATALÃO. Instituto Nacional de Estudos e Pesquisas Educacionais

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

Enade O Enade é obrigatório? Qual o objetivo do Enade? Quais os instrumentos básicos do Enade?

Transcrição:

Técnicas de mineração de dados aplicadas aos microdados do ENADE para avaliar o desempenho dos acadêmicos do curso de Ciência da Computação no Rio Grande do Sul utilizando o software R Nicolas P. Boa Vista 1, Michele F. Fiqueiró 2, Patricia M. Mozzaquatro 3 1,2,3 Ciência da Computação Universidade de Cruz Alta (UNICRUZ) Cruz Alta RS Brazil {nicolaspastorio@yahoo.com.br, mferrazfigueiro@gmail.com, pmozzaquatro@unicruz.edu.br} Resumo. O presente trabalho de conclusão de curso apresenta como objetivo a aplicação de técnicas de mineração de dados nos microdados do ENADE para extrair informações referentes ao desempenho dos acadêmicos do curso de Ciência da Computação no Rio Grande do Sul. Para a obtenção dos resultados, esta pesquisa utiliza a técnica de clusterização Hierarchical Clustering (Agrupamento Hierárquico), a qual faz parte da mineração de dados, para obter o agrupamento dos dados baseando-se na dissimilaridade entre os mesmos utilizando o software estatístico R. Com base nos resultados obtidos neste estudo, foi possível descrever as instituições que apresentaram bons e ruins desempenhos acadêmicos, de modo que poderão ser tomadas decisões que resultem na melhoria no ensino de nível superior brasileiro. Abstract. The present term paper aims to the application of data mining techniques in the microdata of the ENADE to extract information regarding the performance of the students of the course of Computer Science in Rio Grande do Sul. To obtain the results, this research uses the Hierarchical Clustering technique, which is part of the data mining, using the statistical software R to obtain the grouping of the data based on the dissimilarity between the data. Based on the results obtained in this study, it was possible to describe the institutions that presented good and bad academic performances, so that decisions can be taken that result in the improvement in Brazilian higher education. 1. Introdução Esta pesquisa tem como objetivo aplicar técnicas de mineração de dados nos microdados do ENADE para analisar o desempenho dos acadêmicos do curso de Ciência da Computação no Rio Grande do Sul. Com base nos resultados obtidos neste estudo, será possível descrever as instituições que apresentaram bons e ruins desempenhos acadêmicos, de modo que será possível tomar decisões que resultem numa melhoria no ensino de nível superior brasileiro. Buscar melhorar a qualidade de ensino é algo que se deseja cada vez mais, pois quanto mais capacitado o aluno sai da universidade, maior será sua chance de sucesso no mercado de trabalho. Mas como saber quais aspectos devem ser melhorados pelas instituições? Para responder esta questão, é preciso ter um meio de quantificar o desempenho acadêmico destes estudantes. Para tanto, pode-se utilizar os microdados do Exame Nacional de Desempenho de

2 Estudantes (ENADE), cujo um dos objetivos é melhorar a qualidade do ensino de nível superior brasileiro. As técnicas de mineração de dados que serão aplicadas aos microdados do ENADE serão os métodos de agrupamento K-Means e Hierárquico para analisar o desempenho acadêmico dos estudantes do curso de Ciência da Computação do estado do Rio Grande do Sul, visando comparar estes resultados entre as instituições públicas e privadas do estado, bem como verificar a possibilidade de melhorar o desempenho acadêmicos dos alunos e das instituições. 2. Mineração de Dados A Mineração de Dados (Data Mining em inglês, ou MD) segundo Amo (2004), simplesmente, trata-se de extrair ou minerar conhecimento de grandes volumes de dados. Em outras palavras, é o processo de analisar dados de diferentes perspectivas, categorizar estes dados e identificar relações entre estes, com a intenção de extrair informações uteis. Apesar de o termo Mineração de Dados ser relativamente novo, a tecnologia não é, a ideia surgiu e existe desde os anos sessenta, porém, somente durante os anos oitenta que o termo Mineração de Dados (Data Mining) se consolidou. Durante anos, empresas de várias áreas tem utilizado a mineração de dados para a extração de conhecimento. Pode-se citar um exemplo de detecção de padrões (compras, pagamentos, etc.) de um cliente em um supermercado, visando melhorar a interação da empresa com o cliente. A continua evolução no poder computacional e dos softwares de estatística que vem acontecendo durante os anos, vem aumentando consideravelmente a precisão dos resultados e a diminuição dos custos. A MD prove um método automático para descobrir padrões em dados, sem a tendenciosidade e a limitação de uma análise baseada meramente na intuição humana (BRAGA, 2005). Basicamente o processo de encontrar relações ou padrões em grandes bases de dados relacionadas. Amo (2004) cita que muitas pessoas consideram o termo Mineração de Dados como sinônimo de Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases, ou KDD), mas na verdade, KDD é um processo mais amplo, que consiste de algumas etapas, definidas como: Limpeza dos dados, integração dos dados, seleção e transformação dos dados, mineração, avaliação dos resultados e a visualização dos resultados. Na primeira etapa, a limpeza dos dados, os dados são verificados com a intenção de se remover ruídos ou dados inconsistentes na base de dados, ou seja, são descartados dados desnecessários ou com erros. Após é feita a integração dos dados, onde várias bases de dados podem ser mescladas, formando assim uma única grande base de dados. A próxima etapa é a de seleção, nesta etapa, apenas os dados que que interessam são selecionados, ou seja, apenas aquilo que é relevante ao usuário, de acordo com a pesquisa a ser desenvolvida por este. Com os dados relevantes a pesquisa selecionados e limpos através dos passos anteriores, o próximo passo é transformar estes dados de maneira que se possam ser aplicados os algoritmos de mineração de dados, isto é feito na etapa de transformação dos dados. Bento (2015) define que a fase de transformação de dados é responsável pela adequação dos dados processados pelas etapas anteriores. Após as etapas anteriores, com os dados já limpos, selecionados e transformados, são aplicadas as técnicas de Mineração de Dados, para se obter novos dados (conhecimento, padrões relevantes, etc.). Esta etapa é essencial para o processo, pois somente a partir dela que são gerados os novos conhecimentos. As duas etapas seguintes consistem na avaliação e visualização dos resultados obtidos através das técnicas de mineração de dados. Na parte de avaliação, os dados obtidos são

3 avaliados para a identificação de padrões relevantes, de acordo com a exigência do usuário. E a seguir os resultados finais são apresentados ao usuário. Bento (2015) exalta que caso os resultados obtidos não sejam satisfatórios, deve-se fazer uma revisão de todos os processos envolvidos no KDD, e até mesmo repetido quantas vezes for necessário. 3. Análise de Agrupamento Analise de Agrupamento (Clusterização, ou Clustering em inglês) é o termo designado para técnicas computacionais as quais tem por objetivo separar dados em grupos, com base nas características destes dados, ou seja, agrupar dados semelhantes em um mesmo grupo (ou cluster) baseando em um critério dado por uma função de similaridade, ou dissimilaridade, funções estas que serão abordadas posteriormente neste trabalho. O propósito de identificar clusters é obter a partição de um banco de dados de registros tal que os registros possuam similaridade entre si. Com isso, permite obter características de cada clusters formados (BENTO, 2015). Nesta seção serão introduzidos os tipos de análise de agrupamentos (Clusterização ou Clustering em ingles) Hierárquico e Não-hierárquico O Agrupamento Hierárquico é baseado em um simples conceito: agrupar variáveis (observações, elementos, dado ou objeto) passo a passo, de maneira hierárquica. Segundo Bento (2015), o algoritmo Hierarchical Clustering foi desenvolvido por King na década de 60, porém somente na mesma década que se tornou conhecido através de Johnson. A principal vantagem desta técnica, consiste no fato de que não se faz necessário qualquer parâmetro de entrada para o início do processo. Linden (2009), cita que os algoritmos hierárquicos criam uma hierarquia de relacionamentos entre os elementos, e que existem duas versões, a aglomerativa e a divisiva. O K-Means (também conhecido como K-Médias) é uma heurística de agrupamento não hierárquico que busca minimizar a distância dos elementos a um conjunto de n clusters de forma iterativa. (Linden, 2009). O K-Means, utilizado para classificar dados em um número N de grupos (clusters) através de um método iterativo, é o método mais comum de agrupamento particional. Vale (2005) cita que, diferente dos métodos hierárquicos, o K-Means não cria uma estrutura em arvore para descrever o agrupamento dos dados, e é mais adequado para grande quantidade de dados. O método K-Means depende de um parâmetro, indicado pelo usuário para sua execução, este parâmetro que deve ser indicado, consiste no número de clusters (k clusters) a serem considerados. A escolha deste parâmetro, feita pelo usuário, pode afetar a qualidade dos resultados obtidos ao final do processo. 4. Software Estatístico Nesta seção serão abordados o software estatístico utilizado nesta pesquisa, o Software R e sua IDE, o RStudio. O Software R foi desenvolvido pela empresa Bell Laboratories, sendo originalmente escrito por Ross Ihaka e Robert Gentleman em meados dos anos 90, porém a partir de 1997, vem sendo desenvolvido por uma grande comunidade de voluntários desenvolvedores, que vem crescendo com o passar dos anos. R é um software open-source desenvolvido para os sistemas operacionais Linux, Windows e Mac e faz parte do projeto GNU (coleção de softwares open-source).

4 R é um software estatístico (linguagem e ambiente integrado) voltado para a manipulação e análise de dados, realização de cálculos e desenvolvimento de gráficos. Os resultados obtidos utilizando-se o software R são exibidos em formas de texto e gráficos. O software R é uma ferramenta estatística poderosa, porém não a mais fácil de ser utilizada. Apesar de o software R possuir uma interface gráfica, esta é muito básica e limitada, por este motivo, o RStudio foi desenvolvido com o intuito de oferecer um ambiente de trabalho mais fácil, intuitivo e mais produtivo, além de prover algumas funções adicionais aos usuários do software R. RStudio deve ser considerado como uma IDE (sigla em inglês para Integrated Development Environment ou Ambiente de Desenvolvimento Integrado) mais voltado para programação. Foi desenvolvido por J.J. Allaire e sua equipe na linguagem de programação C++ no ano de 2008 e continua em processo de desenvolvimento/atualização até a presente data. Assim como o Software R, RStudo é open-source e freeware e sua versão desktop está disponível para as plataformas Windows, Mac OS e Linux. 5. Exame Nacional de Desempenho de Estudantes O ENADE (Exame Nacional de Desempenho de Estudantes) é um dos métodos de avaliação do Sinaes (Sistema Nacional de Avaliação da Educação Superior) que é realizado pelo Inep (Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira), o qual é uma autarquia federal vinculada ao MEC (Ministério da Educação), com base nas diretrizes definidas pelo CONAES (Comissão Nacional de Avaliação da Educação Superior), órgão colegiado de coordenação e supervisão do Sinaes. O ENADE tem como seu objetivo, acompanhar e avaliar o rendimento dos alunos concluintes, de cursos de graduação, levando em consideração o conteúdo previsto nas diretrizes curriculares do respectivo curso em que o aluno está matriculado. Sendo um componente curricular obrigatório, o estudante habilitado e selecionado deve realizar a prova, pois o registro da regularidade fica registrado no histórico escolar, e a não realização da prova, implica na impossibilidade da expedição do diploma pela instituição até que a situação seja regularizada junto ao ENADE, logo o estudante não consegue se formar antes da regularização da situação. 6. Procedimento Metodológico Esta pesquisa tem caráter quantitativo, método este que conforme Richardson (1989), caracteriza-se pela quantificação, em ambas as modalidades de coleta de informações, e no tratamento dessas informações através de técnicas estatísticas, desde as mais simples até as mais complexas. Ainda se classifica como técnica de coleta de dados, utilizando dados secundários (Base de Dados do ENADE 2014). É pesquisa aplicada, pois tem como objetivo, de maneira exploratória e descritiva, resolver um problema especifico através da aplicação pratica dos conhecimentos gerados, utilizando procedimentos de estudo de caso. Nesta pesquisa, serão aplicadas técnicas estatísticas univariadas e multivariadas em banco de dados. Estas analises serão aplicadas nos microdados do ENADE de 2014 das universidades gaúchas que ofertam o curso de ciência da computação. Para a análise univariada, serão apresentadas as medidas descritivas das variáveis quantitativas notas objetivas e discursivas da formação geral e especifica. Para análise multivariada, será utilizada a técnica de agrupamento hierárquico com aglomeração com o objetivo de formar grupos das universidades gaúchas que apresentam similaridade nas notas do ENADE do curso de ciência da computação de 2014. Todas as analise estatísticas serão realizadas no software estatístico R. O projeto está subdivido nas seguintes etapas:

5 Projeto: - Realizar um estudo sobre mineração de dados - Pesquisar sobre a técnica de agrupamento abordando os métodos K-Means e Hierarchical Clustering; - Analisar e escrever sobre a técnica de Redução de Dimensionalidade conceituando o método de Análise de Componentes Principais; - Descrever o software de análise estatística R Statistics; Modelagem: - Desenvolver o diagrama de caso de uso; - Construir o diagrama de atividades e sequencia; - Importação da base de dados do ENADE; Validação: - Validar os resultados obtidos utilizando o software estatístico R Statistics. - Medida da consistência interna dos Microdados do ENADE utilizando o coeficiente alfa de Cronbach. - Apresentar os resultados obtidos na forma de tabelas e gráficos. 7. Desenvolvimento Após a definição do tema e área do trabalho, o desenvolvimento começa com o estudo teórico dos elementos necessários para a realização da proposta do trabalho, já apresentados de forma detalhada nas seções anteriores. A Mineração de Dados, sendo a área principal do foco do trabalho, foi a primeira a ser explorada, realizando o estudo de todo o processo de KDD (Descoberta de Conhecimento em Bases de Dados), que engloba a Mineração de Dados. O processo de KDD de faz necessário para a preparação dos dados e posteriormente, a extração de conhecimento destes dados utilizando técnicas de mineração de dados. A técnica abordada e utilizada neste trabalho, foi a técnica de Agrupamento Hierárquico com Aglomeração (Aglomerative Hierarchical Clustering), bem como as medidas de similaridade e dissimilaridade, as medidas de distância, dentre as quais, a utilizada pela pesquisa, após testes realizados, foi a Medida de Distância Chebychev, e as funções de ligação, responsáveis por gerar a hierarquia dos agrupamentos, onde devido a pesquisa realizada, foi definida a utilização da função de ligação Ward. Também foi realizado o estudo dos dendogramas, forma de apresentação dos resultados gerados pela técnica de agrupamento hierárquico aglomerativo. Foi realizada uma pesquisa sobre o ENADE (Exame Nacional de Desempenho dos Estudantes) de 2014, e também sobre o software no qual a técnica de mineração seria aplicada, o Software R, juntamente com a IDE RStudio.

6 Figura 1 - Fluxograma da proposta do trabalho. Fonte: Desenvovido pelo autor O fluxograma apresentado pela Figura 1, detalha a proposta do presente trabalho em várias etapas necessárias para a obtenção dos resultados. Figura 2 - Fluxograma de aplicação da técnica de MD. Fonte: Desenvovido pelo autor A Figura 2, por sua vez, apresenta um fluxograma detalhado sobre a técnica utilizada, realçando o caminho traçado por este trabalho para a obtenção dos resultados. Conforme o fluxograma informa, a técnica de mineração de dados utilizada foi a de Clusterização, na forma hierárquica, este Agrupamento Hierárquico, como é chamado, possui duas variantes, que operam de maneira reversa uma a outra, a Aglomerativa e a Divisiva, conforme observado, a utilizada foi a técnica com aglomeração (ou Aglomerativa). Esta funciona calculando, primeiramente, as distancias (dissimilaridade) entre os objetos, que representam um cluster cada ao início do processo. A partir desta matriz de dissimilaridade, a função de ligação gera a hierarquia dos agrupamentos, agrupando os dois elementos (clusters) mais distantes (dissimilares) e então

7 recalculando a distância entre estes clusters, para em seguida, repetir o processo ate o ponto em que todos os elementos se encontrem em apenas um cluster. Todos estes passos (algoritmo) são executados utilizando o Software R em cima dos dados do ENADE, preparados previamente, e ao final do processo os agrupamentos resultantes são apresentados em forma de um dendograma. 8. Resultados Parciais Esta seção apresenta os resultados parciais obtidos, primeiramente fazendo uma análise univariada das variáveis e dados presentes na base de dados do ENADE 2014 e posteriormente efetuando a multivariada dos dados e resultados obtidos. Primeiramente, é apresentada uma análise univariada das variáveis e dos dados do ENADE 2014, extraida pelo autor da pesquisa. A Tabela 1 apresenta as variáveis referentes ao ENADE 2014, bem como as medidas descritivas dos dados. Variáveis ENADE Tabela 1 Medidas descritivas Medidas Descritivas Mínimo Máximo Media Q1 Mediana Q3 Desvio Padrão Coeficiente de Variação (%) Inscritos 8 145 42,13 23,50 34,00 51,00 29,87 70,89 Participantes 6 130 37,74 22,50 33,00 42,00 26,45 70,07 Nota bruta FG Nota padronizada FG Nota bruta CE Nota padronizada CE Nota bruta geral Nota padronizada geral Conceito ENADE Continuo 30,80 70.40 60,45 58,25 61,10 64,85 07,81 12,93 0 3,90 2,64 2,30 2,64 3,15 0,80 30,48 24,50 50,20 38,62 33,00 38,20 44,95 8,15 21,11 0,60 4,40 2,27 1,60 2,20 3,15 0,97 42,88 26,10 59,00 44,10 39,80 42,20 49,75 7,48 16,95 0 4,30 2,10 1,80 2,10 3,15 0,98 41,43 0,43 4,15 2,36 1,83 42,20 49,75 0,88 37,23

8 Conceito ENADE 1 5 2,87 2 3 3,50 0,97 33,45 Fonte: Desenvovido pelo autor De acordo com a Tabela 1, conclui-se que: Inscritos: Os números mínimo e máximo de inscritos no ENADE 2014 para o curso de ciência da computação foram de 8 (UCPEL) e 145 (UFRGS), respectivamente. A média de inscritos foi de 42,13 com desvio padrão 29,87. 25% do número de inscritos foi inferior a 23,50, 50% foi inferior a 34, enquanto que 75% foi inferior a 51 inscritos. Participantes: O número mínimo e máximo de participantes no ENADE 2014 para o curso de ciência da computação foi de 6 (UCPEL) e 130 (UFRGS), respectivamente. A média de participantes foi de 34,74 com desvio padrão 26,45. 25% do número de participantes foi inferior a 22,50, 50% foi inferior a 33, enquanto que 75% foi inferior a 42 participantes. Nota bruta FG: O número mínimo e máximo da Nota bruta FG no ENADE 2014 para o curso de ciência da computação foi de 30,80 (UCPEL) e 70.40 (Unisinos), respectivamente. A média da Nota bruta FG foi de 60,45 com desvio padrão 07,81. 25% da Nota bruta FG foi inferior a 58,25, 50% foi inferior a 61,10, enquanto que 75% foi inferior a 64,85. Nota padronizada FG: O número mínimo e máximo da Nota padronizada FG no ENADE 2014 para o curso de ciência da computação foi de 0 (UCPEL) e 3,90 (Unisinos), respectivamente. A média da Nota padronizada FG foi de 2,64 com desvio padrão 0,80. 25% do número da Nota padronizada FG foi inferior a 2,30, 50% foi inferior a 2,64, enquanto que 75% foi inferior a 3,15. Nota bruta CE: O número mínimo e máximo da Nota bruta CE no ENADE 2014 para o curso de ciência da computação foi de 24,50 (UCPEL) e 50,20 (UFRGS), respectivamente. A média da Nota bruta CE foi de 38,62 com desvio padrão 8,15. 25% do número da Nota bruta CE foi inferior a 33,00, 50% foi inferior a 38,20, enquanto que 75% foi inferior a 44,95. Nota padronizada CE: O número mínimo e máximo da Nota padronizada CE no ENADE 2014 para o curso de ciência da computação foi de 0,60 (UCPEL) e 4,40 (UFRGS), respectivamente. A média da Nota padronizada CE foi de 2,27 com desvio padrão 0,97. 25% do número da Nota padronizada CE foi inferior a 1,60, 50% foi inferior a 2,20, enquanto que 75% foi inferior a 3,15. Nota bruta geral: O número mínimo e máximo da Nota bruta geral no ENADE 2014 para o curso de ciência da computação foi de 26,10 (UCPEL) e 59,00 (UFRGS), respectivamente. A média da Nota bruta geral foi de 44,10 com desvio padrão 7,48. 25% do número da Nota bruta geral foi inferior a 39,80, 50% foi inferior a 42,20, enquanto que 75% foi inferior a 49,75. Nota padronizada geral: O número mínimo e máximo da Nota padronizada geral no ENADE 2014 para o curso de ciência da computação foi de 0 (UCPEL) e 4,30 (UFRGS), respectivamente. A média da Nota padronizada geral foi de 2,10 com desvio padrão 0,98. 25% do número da Nota padronizada geral foi inferior a 1,80, 50% foi inferior a 2,10, enquanto que 75% foi inferior a 3,15. Em seguida, é apresentada a Analise Multivariada, que aborda a comparação feita entre as medidas de distância Euclidiana, Euclidiana Quadratica, Minkowsky, Manhattan, Canberra e Chebychev, utilizando a função de ligação Ward. A definição de qual medida apresenta um melhor resultado será feita a partir do valor obtido utilizando o coeficiente Cophenet. A comparação estre estas medidas de distância, foi feita para a obtenção dos resultados, e tal comparação foi executada utilizando os dados do ENADE 2014. Estas comparações foram feitas utilizando-se apenas a função de ligação (linkage) Ward, pelo fato de, após realizada uma pesquisa bibliográfica, foi constatado que a grande

9 maioria dos artigos na literatura especifica, vêm fazendo o uso desta função, e também pelo fato desta gerar clusters da maneira mais homogênea possível. Além disso, a função de ligação Ward leva em consideração dados que apresentam grande variabilidade, como é o caso da base de dados do ENADE 2014 utilizada. Por estes motivos, não foram testadas outras medidas para este trabalho. Através dos resultados obtidos, pode-se definir que o melhor agrupamento aconteceu utilizando a medida de distância Chebychev, baseando-se no coeficiente Cophenet. Figura 3 - Grupos identificados no dendograma de Chebychev com Ward. Fonte: Desenvovido pelo autor Os dados do ENADE obtidos por estas IES, em relação aos grupos formados são descritos a seguir. Grupo 1: Este grupo é constituído por nove IES sendo elas UNISC, Unipampa, Unijui- Ijui, Feevale, URI-Erechin, UCS, UFSM, Unisinos e Unijui-Santa Rosa, onde seis destas IES obtiveram Conceito ENADE igual a 3 (Feevale, UNISC, URI-Erechin, Unijui-Ijui, Unijui- Santa Rosa e Unipampa) e três obtiveram conceito 4 (UCS, Unisinos, UFSM). As medias das notas brutas FG, CE e Total foram de 64.94, 42.78 e 48.34, respectivamente. As médias de inscritos e de participantes foram de 34.89 e 32.00, respectivamente. A média do Conceito ENADE Continuo foi de 2,86 Grupo 2: Este grupo é constituído por dez IES, sendo elas Unifra, URI-Frederico Westphalen, URI-Santiago, Uri-Santo Ângelo, FAACS, Unilasalle,Ulbra-Canoas, Ulbra- Gravatai, UPF, Unicruz, onde sete destas obtiveram conceito ENADE igual a 2 (UPF, URI- Frederico Westphalen, URI-Santiago, URI-Santo Ângelo, Unicruz, Ulbra-Canoas, FAACS e Ulbra-Gravataí) e somente duas obtiveram conceito ENADE igual a 3 (Unilasalle e Unifra). As medias das notas brutas FG, CE e Total, foram de 58.59, 32.61 e 39,12, respectivamente. As médias de inscritos e de participantes foram de 34.00 e 29,70, respectivamente. A média do conceito ENADE continuo foi de 1,74. Grupo 3: O grupo 3 é constituído de apenas uma IES, a UCPEL que obteve o conceito ENADE 1. As notas brutas de FG, CE e Total foram de 30.8, 24.5 e 26.1, respectivamente. Os inscritos e participantes foram de 8 e 6, respectivamente. A nota do conceito ENADE continuo foi de 0,43. Grupo 4: Este grupo é constituído por três IES, PUCRS, UFRGS e UFPEL das quais duas obtiveram o conceito ENADE 4 (PUCRS e UFPEL) e apenas uma obteve o conceito ENADE 5 (UFRGS). As médias das notas brutas FG, CE e Total foram de 63,03, 50,90 e 53,93, respectivamente. As médias de inscritos e de participantes foram de 102,33 e 92,33, respectivamente. A média do conceito ENADE continuo foi de 3.53

10 As IES presentes no Subgrupo 6 são PUCRS e UFPEL, e ambas obtiveram Conceito ENADE 4. As medias das notas brutas FG, CE e total foram de 60.75, 48.25 e 51.40, respectivamente. As médias de inscritos e de participantes foram de 81.00 e 83.50, respectivamente. A média do Conceito ENADE Continuo foi de 4.00. 8. Considerações Parciais 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 Figura 4 Gráfico de notas dos grupos. Conceito ENADE Continuo Grupo 1 Grupo 2 Grupo 3 Grupo 4 Fonte: Desenvolvido pelo autor. A partir dos resultados obtidos, pode-se observar que as IES contidas no grupo 4 foram as que obtiveram os melhores resultados no exame do ENADE 2014, pelo fato de terem obtido a nota de Conceito ENADE Continuo mais alta na escala de 0 a 5, seguidas pelas IES contidas no grupo 1, que apresentaram bons resultados. As IES presentes no Grupo 2 apresentaram resultados mediano, não tão satisfatórios quantos as dos grupos 4 e 1, e a única IES presente no grupo 3 apresentou o pior resultado, por este motivo ficou isolada em seu cluster. 9. Referências AMO, Sandra de. Técnicas de Mineração de Dados. 2004. 43 f. Curso de Faculdade de Computação, Universidade Federal de Uberlândia, Uberlândia, 2004. BRAGA, Luis Paulo Vieira. Introdução á Mineração de Dados: 2ª edição revisada e ampliada. 2. ed. Rio de Janeiro: E-papers Serviços Editoriais, 2005. 211 p. BENTO, Renan Delazari. validação da técnica de clusterização hierarchical clustering: comparação entre os metodos median, single e ward integrantes da função linkage. 2015. 205 f. TCC (Graduação) - Curso de Ciência da Computação, Universidade de Cruz Alta Unicruz, Cruz Alta- Rs, 2015. LINDEN, Ricardo. Tecnicas de Agrupamento. Revista de Sistemas de Informação da Fsma, Macaé, v. 4, n. 4, p.18-36, jan. 2009.

VALE, Marcos Neves do. Agrupamento de Dados: Avaliação de Metodos e Desenvolvimento de Aplicativo para Análise de Grupos. 2005. 120 f. Dissertação (Mestrado) - Curso de Engenharia Elétrica, Programa de Pós-Graduação, Puc-rio, Rio de Janeiro, 2005. 11