Análise Espacial do Perfil dos Alunos do IFPI Campus Floriano usando Técnicas de Mineração de Dados



Documentos relacionados
Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

ADM041 / EPR806 Sistemas de Informação

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

A Grande Importância da Mineração de Dados nas Organizações

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

Pesquisa com Professores de Escolas e com Alunos da Graduação em Matemática

DATA WAREHOUSE. Introdução

PRINCÍPIOS DE INFORMÁTICA PRÁTICA OBJETIVO 2. BASE TEÓRICA. 2.1 Criando Mapas no Excel. 2.2 Utilizando o Mapa

Pesquisa Semesp. A Força do Ensino Superior no Mercado de Trabalho

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Sobre o Movimento é uma ação de responsabilidade social digital pais (família), filhos (jovem de 6 a 24 anos), escolas (professores e diretores)

Desafios da EJA: flexibilidade, diversidade e profissionalização PNLD 2014

MERCADO DE TRABALHO NA PRODUÇÃO DE ALGODÃO E SOJA: UMA ANÁLISE COMPARATIVA

Comentários gerais. consultoria em sistemas e processos em TI, que, com uma receita de R$ 5,6 bilhões, participou com 14,1% do total; e

RELACÃO CANDIDATOS E VAGAS NO VESTIBULAR PARA O CURSO DE ADMINISTRAÇÃO EM AGRONEGÓCIOS DE 2007/1 A 2010/2 - UNEMAT/ CUTS

PROJETO DE PESQUISA SOBRE A UTILIZAÇÃO DE AMBIENTES VIRTUAIS DE APRENDIZAGEM COMO APOIO AO ENSINO SUPERIOR EM IES DO ESTADO DE SÃO PAULO

CECAD Consulta Extração Seleção de Informações do CADÚNICO. Caio Nakashima Março 2012

MINISTÉRIO DA EDUCAÇÃO INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS INEP

RELATÓRIO DE ATIVIDADES DESENVOLVIDAS NO ARQUIVO GERAL DA UNIVERSIDADE FEDERAL DE GOIÁS

Módulo 4: Gerenciamento de Dados

Geração e Interpretação de Mapas de Produtividade. Laboratório de Agricultura de Precisão II

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

ROTEIRO PARA ELABORAÇÃO DE PROJETOS

TIC Domicílios 2007 Habilidades com o Computador e a Internet

15/03/2010. Análise por pontos de função. Análise por Pontos de Função. Componentes dos Pontos de Função. Componentes dos Pontos de Função

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

FURB - Universidade Regional de Blumenau TCC - Trabalho de Conclusão de Curso Acadêmico: Fernando Antonio de Lima Orientador: Oscar Dalfovo

Sumário Executivo. Amanda Reis. Luiz Augusto Carneiro Superintendente Executivo

Pnad: Um em cada cinco brasileiros é analfabeto funcional

Chamada para proposta de cursos de Mestrado Profissional

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

3Apesar dos direitos adquiridos pelas

Palavras-chave: i3geo, gvsig, Mapserver, integração, plugin. Contato: ou

MINISTÉRIO DA EDUCAÇÃO

Tabela e Gráficos Dinâmicos Como estruturar dinamicamente dados no Excel

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

5 Análise dos resultados

Estatística Básica via MySQL para Pesquisas On-Line

Pesquisa sobre o Perfil dos Empreendedores e das Empresas Sul Mineiras

POLÍTICA DE DESENVOLVIMENTO DE COLEÇÕES. Bibliotecas FacSenac/DF

O EMPREGO DOMÉSTICO. Boletim especial sobre o mercado de trabalho feminino na Região Metropolitana de São Paulo. Abril 2007

Introdução ao EBSCOhost 2.0

ROTEIRO PARA TREINAMENTO DO SAGRES DIÁRIO Guia do Docente

DISTRIBUIÇÃO GEOGRÁFICA DA PÓS-GRADUAÇÃO: ESTUDO DE INDICADORES

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO DE CIÊNCIAS DA EDUCAÇÃO CURSO DE BIBLIOTECONOMIA

As principais características da abordagem de um banco de dados versus a abordagem de processamento de arquivos são as seguintes:

O Crescimento da Educação a Distância nas Universidades do Brasil

Assessoria Técnica de Tecnologia da Informação - ATTI. Projeto de Informatização da Secretaria Municipal de Saúde do Município de São Paulo SISRH

APLICATIVO WEB PARA O SETOR DE EXTENSÃO IFC VIDEIRA

MANUAL DE INSTRUÇÕES SISTEMA HOSPITALAR

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

Persistência e Banco de Dados em Jogos Digitais

CONVITE PARA EXPRESSÕES DE INTERESSE PARA PROJETOS POLARES EM TODAS AS ÁREAS CIENTÍFICAS

Curso de Especialização em POLÍTICAS PÚBLICAS, GESTÃO E SERVIÇOS SOCIAIS

Programa FAPESP. Pesquisa Inovativa EM. Pequenas Empresas

ÍNDICE... 2 INTRODUÇÃO... 4

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Curso de Especialização em PEDAGOGIA EMPRESARIAL E DINÂMICA DE GRUPO

Pesquisa Mensal de Emprego

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

Tutorial Mapa-Temático

M a n u a l d o P r o U n i 2014 P á g i n a 1

SISTEMA DE INFORMAÇÕES ACADÊMICAS SIA

O CENSO 2010: BREVE APRESENTAÇÃO E RELEVÂNCIA PARA A GEOGRAFIA

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES

10º LEVANTAMENTO DE SAFRAS DA CONAB /2013 Julho/2013

Desenvolvimento de um software de gerenciamento de projetos para utilização na Web

Curso de planilhas eletrônicas na modalidade EAD: Um relato de experiência

Ciências Humanas e Sociais Aplicadas, Pós-graduação à distância e Mercado de Trabalho Sandra Rodrigues

Resgate histórico do processo de construção da Educação Profissional integrada ao Ensino Médio na modalidade de Educação de Jovens e Adultos (PROEJA)

SIG como uma ferramenta de análise espacial Um estudo de caso da saúde no RN

PESQUISA SOBRE O PERFIL DE ALUNOS NA UTILIZAÇÃO DE UM SITE DOCENTE DO ENSINO SUPERIOR

CHAMADA PÚBLICA 2014

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Curso de Especialização em MATEMÁTICA FINANCEIRA E ESTATÍSTICA

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

BEM-VINDO AO dhl PROVIEW

Banco de Dados. Microsoft Access

Avaliação dos Resultados do Planejamento de TI anterior

Controle de Estoque. Apresentação. Cadastro de Grupos de Produtos. Cadastro de Produtos

PO AÇORES 2020 FEDER FSE

ANEXO 2 - INDICADORES EDUCACIONAIS 1

LINGUAGEM DE BANCO DE DADOS

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

A DEMANDA POR SAÚDE PÚBLICA EM GOIÁS

3º Seminário Blogs: Redes Sociais e Comunicação Digital

IIH Introdução à Informática e Hardware

Avanços na transparência

Observatório de micro e pequenos empreendimentos no Rio de Janeiro IETS

Simon Schwartzman. A evolução da educação superior no Brasil diferenças de nível, gênero e idade.

Necessidade e construção de uma Base Nacional Comum

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

3 Metodologia de pesquisa

Curso de Especialização em GESTÃO EM PETRÓLEO E GÁS

Pequenas e Médias Empresas no Canadá. Pequenos Negócios Conceito e Principais instituições de Apoio aos Pequenos Negócios

Transcrição:

Análise Espacial do Perfil dos Alunos do IFPI Campus Floriano usando Técnicas de Mineração de Dados Thiago Reis da Silva 1, Diego Grosmann 1, Artur Luiz T de Oliveira 1, Angélica Félix de Castro 1, Marcelino Pereira dos Santos Silva 1 1 Programa de Pós-Graduação em Ciência da Computação MCC Universidade do Estado do Rio Grande do Norte UERN/ Universidade Federal Rural do Semi-Árido UFERSA BR 110 Km 46 Bairro Costa e Silva Campus Central 59.625-620 Mossoró RN, Brasil {trsilva.si, diegogrosmann}@gmail.com, tuca_jampa@hotmail.com, angelica@ufersa.edu.br, marcelinopereira@uern.br Abstract: The economy of Piauí is characterized by its fragility, as evidenced by the behavior of some of its indicators. The IFPI - the Federal Institute of Piauí assume social responsibilities in the face of dire need to develop knowledge and technologies for exploitation and value adding. In this context the present article is a study on the profile of students in the IFPI - Campus Floriano. For this we used data mining techniques and geographic information systems. Resumo: A economia do Piauí caracteriza-se por sua fragilidade, evidenciada pelo comportamento de alguns de seus indicadores. O IFPI - Instituto Federal do Piauí assume responsabilidades sociais diante da extrema necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregação de valores. Nesse contexto o presente artigo faz um estudo sobre o perfil dos estudantes do IFPI - Campus Floriano. Para isso foram utilizadas técnicas de mineração de dados e sistemas de informação geográficos. 1. Introdução Os Institutos Federais de Educação, Ciência e Tecnologia são instituições que produzem, disseminam e aplicam o conhecimento tecnológico e acadêmico para formação da cidadania, por meio do Ensino, da Pesquisa e da Extensão, contribuindo para o progresso socioeconômico local, regional e nacional. A implantação dos campi, no interior do Estado, atende a meta do Programa de Expansão da Rede Federal de Educação Tecnológica e à própria natureza dos Institutos Federais de Educação, Ciência e Tecnologia, no que diz respeito à descentralização de qualificação profissional, levando em conta as necessidades socioeconômicas de cada região. Com isso, pretendese evitar o êxodo de jovens estudantes para a capital. O Instituto Federal de Educação Ciência e Tecnologia do Piauí (IFPI) é uma instituição com atuação no Estado do Piauí, detentora de autonomia administrativa, patrimonial, financeira, didático-pedagógica e disciplinar. É instituição pública de Educação Superior, Básica e Profissional, pluricurricular e multicampi, está presente em dez municípios do estado, especializada na oferta de Educação Profissional e

Tecnológica, em diferentes modalidades de ensino, conjugando os conhecimentos humanos, técnicos e tecnológicos com as suas práticas pedagógicas, nos termos da Lei (PDI, 2009). Nesse contexto, o IFPI assume responsabilidades sociais, diante da extrema necessidade de desenvolver conhecimentos e tecnologias de aproveitamento e agregação de valores, de nível tecnológico, de produtos e subprodutos, oriundos das vocações do estado, a exemplo da carnaúba, do caju, da castanha do caju e do mel, dentre outros (PDI, 2009). Assim, o presente trabalho faz uma avaliação da base de dados do controle acadêmico do IFPI Campus Floriano a fim de identificar o padrão dos estudantes da instituição. Neste contexto, este artigo encontra-se organizado da seguinte forma: a seção 2 apresenta uma revisão de literatura, abordando em subseções os Sistemas de Informação Geográficos, Descoberta do Conhecimento em Banco de Dados, Técnicas de Mineração e Mineração de Dados Geográficos. É apresentada na seção 3 a Metodologia utilizada. A seção 4 apresenta os Resultados e as Conclusões Finais e Trabalhos Futuros são apresentados na seção 5. 2. Revisão de Literatura A seguir apresentamos uma revisão de literatura sobre os conceitos e técnicas utilizados para o desenvolvimento deste trabalho. 2.1. Sistema de Informação Geográfico O Sistema de Informação Geográfico (SIG) é um tipo especial de sistema de informações. Por definição pode-se dizer que um SIG é um sistema de informação baseado em computador que permite capturar, modelar, manipular, recuperar, consultar, analisar e apresentar dados geograficamente referenciados (CÂMARA; CASANOVA, 1995). A tecnologia de SIG pode trazer enormes benefícios devido à sua capacidade de manipular a informação espacial de forma precisa, rápida e sofisticada (WRIGHT, 1997). Um SIG integra dados espaciais com outros tipos de dados em único sistema. Isso permite combinar dados de diferentes fontes e tipos, provenientes de muitos bancos de dados. O processo de converter mapas e outros tipos de informações espaciais numa forma digital via SIG, torna possíveis métodos novos e inovadores para a manipulação e exibição de dados geográficos (BRETRNITZ, 2010). 2.2. Descoberta do Conhecimento em Banco de Dados A Descoberta do Conhecimento em Banco de Dados, do inglês, Knowledge Discovery in Databases (KDD) é o processo, não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados (FAYYAD et al, 1996). O termo não trivial torna clara a existência de alguma técnica de busca ou inferência. Previamente desconhecidas indica que a informação deve ser nova para o sistema e de preferência também para o usuário. E, por último, potencialmente úteis, deixa claro que esta informação deve trazer consigo algum benefício, em outras palavras, deverá possibilitar ao usuário algum ganho.

O processo de KDD contém uma série de passos, tais como: Seleção, Préprocessamento e Limpeza, Transformação, Mineração de Dados (datamining) e Interpretação/Avaliação (MILLER; HAN, 2001). Como se pode ver, o processo compreende, na verdade, todo o ciclo que o dado percorre até virar conhecimento ou informação. O processo em si possui duas características relevantes: é interativo e iterativo. Interativo, pois o usuário pode intervir e controlar o curso das atividades. Iterativo, por ser uma sequência finita de operações onde o resultado de cada uma é dependente dos resultados das que a precedem. Dentre estas, a mineração de dados se destaca bastante, pois é a fase responsável pela transformação de dados em informações. A mineração de dados está relacionada com a descoberta de novos fatos, regularidades, restrições, padrões e relacionamentos e não apenas consultas complexas e elaboradas com a finalidade de confirmar uma hipótese em função dos relacionamentos existentes. A mineração de dados, portanto, é uma descoberta eficiente de informações válidas e não óbvias de uma grande coleção de dados (OLIVEIRA et al, 2011). 2.3. Técnicas de Mineração Segundo Prass (2004), as técnicas de mineração consistem na especificação de métodos que nos garantam descobrir os padrões que nos interessam. Para cada técnica utilizada, uma série de algoritmos estão disponíveis na literatura. Nas subseções a seguir são descritas as técnicas utilizadas neste trabalho. 2.3.1 Classificação e Predição Segundo Amo (2004), classificação é o processo de buscar modelos (funções) que descrevem e distinguem classes ou conceitos, com o propósito de utilizar os modelos para predizer ou explicar o contexto. Geralmente, o modelo baseia-se em dados de amostragem ou de treinamento. No caso da predição, o objetivo é inferir valores no conjunto de dados. 2.3.2 Associação As regras de associação consistem em padrões do tipo A B, onde A e B são conjuntos de valores antecedentes e consequentes. Consideremos um exemplo de supermercado. O padrão Cliente que compra pão também compra leite representa um padrão de comportamento dos clientes do supermercado. Essa organização pode ser válida na organização dos produtos na prateleira visando o aumento das vendas. 3. Metodologia Para o desenvolvimento desta pesquisa foi utilizada a base de dados de matricula do IFPI Campus Floriano, que contem dados dos estudantes matriculados entre o ano de 1998 e o ano de 2010, totalizando 4348 registros. Para a extração do conhecimento foram seguidos os passos do KDD: Seleção dos dados, Pré-Processamento, Transformação, Mineração de Dados, e interpretação/avaliação. Os softwares utilizados para o desenvolvimento deste trabalho foram: o banco de dados MySql Server v5.0 e sua Interface Gráfica do Usuário v1.2, o software de Mineração de Dados Weka v3.7.4 e o SIG TerraView v5.1. Os software MySql, TerraView e o Weka GNU possui licença GNU/GPL (General Public License).

3.1 Seleção de dados A base de dados do IFPI é formada por 53 campos e está salva no formato de arquivo Excel. Destes foram escolhidos 10 campos: sexo, etnia, data de nascimento, cidade do nascimento, estado do nascimento, estado civil, renda familiar, financiamento da instituição de origem, curso e período de ingresso. 3.2 Pré-processamento Como citado anteriormente à base de dados estava no formato de arquivo Excel, para facilitar esta fase todos os dados das tabelas foram exportados com o formato de arquivo csv e posteriormente importados no banco de dados MySql. Para a importação primeiro criou-se uma base de dados e um tabela com todos os campos existentes no arquivo csv. Nesta fase foram utilizadas duas rotinas de limpeza de dados para suprir valores ausentes: (a) suprir valores ausentes manualmente e (b) ignorar tuplas. A primeira técnica (a), foi utilizada para o campo sexo, nos dados inexistentes foram inseridos manualmente utilizando o campo nome como base, o campo estado de origem também utilizou essa mesma técnica usando como base a cidade de origem. Para os demais campos, foi utilizada a segunda técnica (b), realizando um processo de adequação dos dados retirando espaços em branco antes e depois dos dados e caracteres inválidos e como tratamento das linhas sem dados simplesmente às ignoramos. 3.3 Transformação dos dados Nesta fase foram gerados dados a partir dos dados existentes. Tendo a data de nascimento como base, geramos o campo idade. Já a renda foi dividida para refletir as classes sociais, a criação das classes se deu de acordo com as regras propostas pela consultoria Target (2011), que dividiu as classes em: A1: inclui as famílias com renda mensal maior que R$ 14.400; A2: maior que R$ 8.100; B1: maior que R$ 4.600; B2: maior que R$ 2.300; C1: maior que R$ 1.400; C2: maior que R$ 950; D: maior que R$ 600; E: maior que R$ 400; F: menor que R$ 200. Para simplificar a consulta, as classes proposta pela Target sofreram algumas alterações. Os dados da classe A1 e A2 foram juntos na classe A, e os dados da classe E e F foram juntos na classe E. 3.4 Mineração de Dados Algumas ferramentas foram analisadas e o Weka (Waikato Environment for Knowledge Analysis) foi à escolhida para a tarefa de Mineração de Dados. A escolha se deu pelo fato de ser uma ferramenta robusta, bem aceita no mercado, pela facilidade de uso e pelo poder de exposição dos resultados da mineração com clareza. Para a manipulação dos dados pelo Weka primeiro devemos colocá-los em um formato aceito pelo mesmo, esse formato é o ARFF (Attribute-Relation File Forma). Para gerar o arquivo arff primeiro exportamos os dados do banco de dados utilizando separação por vírgula, e posteriormente inserimos o cabeçalho com os metadados referentes às colunas. Com o objetivo de uma análise precisa dos dados, os mesmos foram submetidos a duas de técnicas de mineração de dados. Eles foram submetidos à classificação através dos algoritmos RandomTree, J48 e REPTree e associação pelo algoritmo JRIP A.

3.5 Interpretação/Avaliação Nesta fase os dados foram analisados e os padrões e as características foram identificados, sendo apresentados os resultados na próxima seção. Para uma melhor apresentação dos dados em forma de mapas utilizamos o software TerraView e as malhas digitais municipais e estaduais disponíveis no site do IBGE (IBGE, 2011). 4. Área de Estudo O presente trabalho faz uma avaliação dos dados dos alunos que estudam e estudaram no IFPI Campus Floriano. O Instituto Federal do Piauí foi criado mediante transformação do Centro Federal de Educação Tecnológica do Piauí (CEFET/PI). Sua Reitoria está instalada em Teresina PI. O Piauí está localizado a noroeste da região Nordeste do Brasil ocupa uma área de 251.576 km² (pouco maior que o Reino Unido) e tem 3.118.360 habitantes. Sua capital é a cidade de Teresina (IBGE, 2011). A economia do estado é baseada no setor de serviços (comércio), na indústria (química, têxtil, de bebidas), na agricultura (soja, algodão, arroz, cana-de-açúcar, mandioca) e na pecuária extensiva. A Figura 1 ilustra a localização da área de estudos (município de Floriano) em relação ao mapa do Brasil e ao estado do Piauí, do qual o município de Floriano faz parte. O município de Floriano situa-se na Zona do Médio Parnaíba, à margem direita desse mesmo Rio, em frente à cidade de Barão de Grajaú, Maranhão. A cidade fica a 253 km da capital do Estado do Piauí, Teresina. Tem uma população de 57.690 e ocupa uma área de 3.409 km 2 (IBGE, 2011). O município possui um IDH de 0,711 que é considerado médio (HDR, 2011). Figura 1 - Localização da área de estudos em relação ao território do Brasil. 4. 1. Resultados Nesta seção serão apresentadas as informações obtidas na fase de análise de dados do KDD. A Figura 2 apresenta a distribuição dos estudantes no território nacional e em relação ao estado do Piauí. Notamos que das 27 unidades distritais (contando com o Distrito Federal) o IFPI conta com alunos de 22 desses distritos, o que mostra a importância do mesmo no contesto nacional. Já no contexto do estado do Piauí sua

atuação ficou limitada a região sul e sudoeste. A Figura 2 ainda ilustra que a maioria dos alunos do IFPI, vem das cidades de: Floriano, Guadalupe, Jerumenha, Canto do Buriti, Oeiras, Amarante e Teresina. Figura 2. A esquerda temos a distribuição dos alunos em cada estado do Brasil e a direita temos a distribuição dentro do estado do Piauí. Com a intenção de avaliar se a renda dos estudantes tem uma influência direta na distribuição geográfica, foi gerado o mapa apresentado na Figura 3, nesse mapa apresentamos a classe social predominante dos discentes por estado e por cidade. Nela podemos constatar que estudantes de regiões mais distantes do polo educacional apresentam uma classe social mais elevada que os nascidos na microrregião de Floriano. Isso pode se dar devido à dificuldade que pessoas de classe social mais baixa têm de se transportar até lugares mais distantes e de sustentar-se. Figura 3. Mapa com a distribuição das classes sociais dos alunos por estado e por cidade. Tendo como base o contexto social em nosso país, no qual afrodescendentes ainda são muito discriminados, utilizamos o algoritmo de classificação RandomTree para avaliar a influência da cor da pele na classe social e obtivemos a árvore apresentada

na Figura 4. Constatamos que alunos de pele clara e alunos de pele negra apresentam a mesma classe social, todos enquadrados na classe E, assim não constatamos uma desigualdade gerada pela cor da pele. Figura 4. Árvore gerada pelo RandomTree comparando a classe social com a cor da pele. Avaliamos também que a classe social e a cor da pele têm influencia direta sobre a instituição de origem dos alunos (privada, pública ou filantrópica). Identificamos que a cor da pele em nada influência a instituição de origem sendo que para todas as etnias a maioria dos alunos foi proveniente de escola pública. Já a classe social C1 apresentou uma predominância em instituições filantrópicas, para as instituições públicas e privadas a predominância continua sendo de alunos da classe E. A classe social apresentou relação direta com o curso escolhido. Identificamos após classificação realizada pelo algoritmo RandomTree que alunos de classe social mais altas dão preferência a cursos na área de técnico em edificações e informática, e concomitante em edificações. Com o algoritmo J48 identificamos também que a classe social tem relação direta com a idade dos alunos. Alunos com idade inferior a 21 pertencem a classes sociais mais altas. Através da análise da árvore gerada pelo algoritmo REPTree identificamos que os alunos que ingressaram até o ano de 1999 eram provenientes de escola privada já nos anos posteriores, o número alunos de escola pública superaram o número de alunos de escola privada. Com o uso do algoritmo JRIP que identifica as regras pressentes na base de dados identificamos cinco regras predominantes. Das quais as três seguintes se destacam. 1. Alunos que ingressaram antes de 2008 e tem idade maior que 20 anos, escolheram o curso de Matemática, são locais, têm classe social C1 e são da etnia negra; 2. Os alunos que ingressaram depois de 2008 vindos de escola particular escolheram o curso de Análise e Desenvolvimento de Sistemas e tem etnia branca; 3. O curso de Biologia até o ano de 2005 foi mais escolhido por mulheres de classe social C1 e etnia branca; 5. Conclusões e Trabalhos Futuros Através da pesquisa acima apresentada concluímos que a mineração de dados é um processo de fundamental importância para a obtenção de informações de grandes bases

de dados. Constatamos que o IFPI, de fato, cumprindo o seu papel de inclusão social, pois não apresentou uma disparidade em seus alunos referentes à classe e a etnia. Como trabalho futuro propõe-se a exploração desta base de dados utilizando outras técnicas de mineração de dados como a Clusterização e a utilização de outras ferramentas de mineração. Agradecimentos Os autores agradecem a CAPES pela concessão das bolsas de pesquisa e ao IFPI Campus Floriano pela disponibilização da base de dados. Referências Bibliográficas Amo, S. A. (2004) Técnicas de Mineração de Dados. In: Sociedade Brasileira de Computação, UFBA. Jornadas de Atualização em Informática. Salvador BA, Universidade Federal da Bahia, 2004, v.2, p195-236. Breternitz, V. J. (2010) Sistemas de informações geográficas: uma visão para administradores e profissionais de tecnologia da informação, 2010. Câmara, G.; Casanova, M. A. (1995) Fields and objects algebras for gis operations operations. vol. 1, pp. 407 420, 1995. Fayyad, U. M.; Shapiro, G. P.; Smyth, P. (1996) From data mining to knowledge discovery: An overview, AI Magazine pp. 37 54, 1996. HDR (2011). Human Development Report. Disponível em: <http://hdr.undp.org/en/>. Acesso em set. 2011. IBGE (2011). Instituto Brasileiro de Geografia e Estatísticas. Disponível em: <http://ibge.gov.br>. Acesso em set. 2011. Miller, H. J.; Han, J. (2001) Geographic data mining and knowledge discovery: An overview. London: Taylor and Francis, in press, B., 2001. Oliveira, A. T.; Vidal Filho, J. N.; Lima, D. R.; Castro, A. F.; Silva, M. P. S. (2011) Spatial analysis of the student profile of federal techical school of piaui. In: ISTI: Conferência Ibérica de Sistemas e Tecnologias de Informação. Portugal, 2011. V II, p. 368-373. Prass, F. S. (2004) Kdd: Processo de descoberta de conhecimento em bancos de dados vol. 1, pp. 10 14, 2004. PDI (2009) Plano de Desenvolvimento Institucional. Disponível em: < http://www.ifpi.edu.br/arquivos/pdi_ifpi_proposta_final.pdf>. Acesso em set. 2011. Target (2011) Disponível em: <http://www.target.com.br/portal_new/home.aspx>. Acesso em set. 2011. Wright, D. J.; Goodchild M. F.; Proctor J. D. (1997) Demystifying the persistent ambiguity of gis as Tool Versus Science The Annals of the Association of American Geographes, 87(2): 346-362, 1997.