Identificação de Padrões para a Análise da Evasão Usando Mineração de Dados Educacionais

Tamanho: px
Começar a partir da página:

Download "Identificação de Padrões para a Análise da Evasão Usando Mineração de Dados Educacionais"

Transcrição

1 1. Objetivo Identificação de Padrões para a Análise da Evasão Usando Mineração de Dados Educacionais José Gonçalves de Oliveira Júnior 1 1 Universidade Tecnológica Federal do Paraná (UTFPR) CEP Curitiba - PR - Brasil josjun@alunos.utfpr.edu.br Trabalho da Disciplina de Mineração de Dados - PPGCA 2014 Professor: Celso Antonio Alves Kaestner Nos últimos anos têm surgido um crescente interesse e preocupação em identificar as causas do insucesso escolar e a identificação de padrões de comportamento dos alunos. Uma alternativa de busca de informação muito promissora para atingir esse objetivo é o uso de descoberta de conhecimento em bases de dados e uso de técnicas de mineração de dados na educação, chamada Mineração de Dados Educacionais (Educational Data Mining - EDM) [Márquez-Vera et al. 2013]. Coordenadores de curso e gestores educacionais poderiam utilizar esses tipos de informação para definir estratégias com a finalidade de reduzir os números de casos de insucesso escolar. O objetivo deste trabalho é aplicar técnicas de mineração de dados com o objetivo de identificar padrões para análise da evasão escolar em cursos presenciais de graduação de alunos da UTFPR, utilizando o software R. 2. Descrição da Base Utilizada Para a obtenção dos atributos necessários à mineração de dados foi criado um dataset com informações oriundas do banco de dados do Sistema Acadêmico da UTFPR. Os atributos selecionados para esta pesquisa estão descritos na Tabela 1 e possuem o seguinte escopo: - Alunos de cursos de graduação, com oferta semestral, que ingressaram na UTFPR no segundo semestre de 2012; - Foram selecionados apenas os dados de quatro semestres (de 2012/2 a 2014/1). - Com este escopo foram selecionados alunos. A mineração de dados educacionais possuem algumas especificidades. Os problemas mais comuns são: dados desbalanceados, valores discrepantes, sobreajuste e a alta dimensionalidade dos dados. O problema com dados desbalanceados acontece porque os algoritmos de aprendizagem tendem a ignorar as classes menos frequentes (minoritárias) e só prestar atenção nas mais frequentes (classes majoritárias). Como resultado, o classificador não é capaz de classificar corretamente as instâncias de dados correspondentes a classes pouco representadas [Márquez-Vera et al. 2013].

2 Página 2 Tabela 1. Atributos e origem dos dados Fonte Atributos Valores [1] Grau acadêmico do aluno bacharelado, licentiatura, tecnologia ou engenharia [2] Idade do aluno no final do semestre [ ] [3] Gênero do aluno Masculino ou feminino [4] Coeficiente de rendimento do aluno [ ] [5] Possui reentrada no mesmo curso sim/não Sistema [6] Oriundo de outro curso de graduação sim/não Acadêmico [7] % de aprovação nas disciplinas [ ] da UTFPR [8] Forma de ingresso na instituição sisu, transferência, aproveitamento de curso, mudança de curso, processo alternativo, ex-officio ou convênio PEC-G [9] Tipo de escola anterior pública ou privada [10] Situação do aluno ativo ou inativo [11] Escore geral [ ] [12] Escore em Linguagem e seus Códigos [ ] [13] Escore em Ciências Naturais [ ] [14] Escore em Ciências Humanas [ ] ENEM [15] Escore em Matemática [ ] [16] Escore em Redação [ ] [17] Micro região de origem (IBGE) nominal [18] Meso região de origem (IBGE) nominal [19] Região de origem (IBGE) nominal [20] Renda familiar nominal [21] Habitação nominal [22] Tipo de residência nominal [23] Trabalha nominal [24] Estado civil nominal [25] Necessidade de trabalhar durante o curso nominal Questionário [26] Importância econômica na família nominal específico [27] Escolaridade do pai nominal [28] Escolaridade da mãe nominal [29] Fez cursinho preparatório nominal [30] Razão de escolha do curso nominal

3 Página 3 No dataset utilizado o atributo alvo (tipo de situação do alunos: ativo ou inativo) está desbalanceado (66% de alunos ativos e 34% de alunos inativos), conforme visualizado na Figura 1, gerada pelo software R com o comando abaixo. > slices c(sum(mydata$tipo situacao == Ativo ), sum(mydata$tipo situacao == Inativo )) > lbls c( Ativo, Inativo ) > pct round(slices/sum(slices) 100) > lbls paste(lbls, pct) > lbls paste(lbls, %, sep =) > pie(slices, labels = lbls, col = rainbow(length(lbls))) Figura 1. Distribuição de classe do atributo alvo Uma maneira de resolver esse problema é agir durante o pré-processamento dos dados através da realização de uma amostragem ou balanceamento de distribuição das classes [Márquez-Vera et al. 2013]. Uma abordagem amplamente utilizada é o algoritmo SMOTE (Synthetic Minority Oversampling Technique) [Márquez-Vera et al. 2013]. Esse algoritmo ajusta a frequência relativa entre classes majoritárias e minoritárias. Em linhas gerais, o algoritmo SMOTE introduz sinteticamente instâncias de classes minoritárias, considerando a técnica de agrupamento k-nn [Witten et al. 2011]. O algoritmo SMOTE está disponível, no software R, na package DMwR - Data Mining with R [Torgo 2003]. Segue abaixo os comandos para fazer o balanceamento de classes do atributo alvo com o algoritmo SMOTE. Importando dados de um arquivo CSV > mydata = read.csv( experimento.csv ) Instalando a package DMwR > install.packages( DM wr ) Carregando a package DMwR > library(dm wr) Aplicando o algoritmo SMOTE > mybalanceddata SMOT E(tipo situacao., mydata, perc.over = 100)

4 Página 4 Com a aplicação do algoritmo foram criadas instâncias sintéticas, equilibrando as classes do atributo alvo, conforme mostrado na Tabela 2. Tabela 2. Balanceamento de classes do atributo alvo Classe N de instâncias N de instâncias N de instâncias originais criadas sinteticamente final Ativo Inativo Total Aplicação dos Algoritmos 3.1. Classificação A classificação é um dos problemas mais frequentemente estudados por pesquisadores em data mining e machine learning. Ela consiste em prever o valor de um atributo com base nos valores de outros atributos (os atributos de predição) [Romero et al. 2008]. A ideia da classificação é colocar um objeto em uma classe ou categoria, com base nas suas outras características [Hämäläinen e Vinni 2011]. Classificadores podem ser concebidos manualmente, com base no conhecimento de um especialista, mas hoje em dia é mais comum aprendê-las a partir de dados reais [Hämäläinen e Vinni 2011]. Nas subseções abaixo são investigados os seguintes classificadores: árvore de decisão, Naïve Bayes, redes neurais multilayer perceptron, support vector machines, k- nearest neighbors Árvore de decisão Árvore de decisão é um conjunto de condições organizados em uma estrutura hierárquica. É um modelo preditivo em que um exemplo é classificado, seguindo o caminho de condições satisfeitas, a partir da raiz da árvore até atingir uma folha, que vai corresponder a um rótulo de classe [Romero et al. 2008]. As árvores de decisão têm muitas vantagens: elas são simples e fáceis de entender, podem lidar com variáveis mistas (tanto numéricas ou categóricas) [Hämäläinen e Vinni 2011]. Quando uma árvore de decisão é construída, muitos dos ramos refletem anomalias nos dados de treinamento devido ao ruído ou desvios. Métodos de poda em árvores resolvem este problema de sobreajuste dos dados [Han et al. 2011]. As árvores de decisão são consideradas modelos de fácil compreensão, porque um processo de raciocínio pode ser dado para cada conclusão, exceto se a árvore obtida é muito grande (uma série de nós e folhas) [Romero et al. 2008]. Para a tarefa de classificação utilizamos a função ctree da package party [Hothorn et al. 2014] e a função J48 da package RWeka [Hornik et al. 2009]. Segue abaixo os comandos comuns aos dois algoritmos.

5 Página 5 Divisão dataset em dados de treinamento e teste (70%/30%) set.seed(1234) > ind sample(2, nrow(mybalanceddata), replace = T RUE, prob = c(0.7, 0.3)) Seleção das instâncias de treinamento > traindata mybalanceddata[ind == 1, ] Seleção das instâncias de teste > testdata mybalanceddata[ind == 2, ] Descrição simbólica do modelo a ser treinado (atributo alvo e demais atributos) > myf ormula tipo situacao. Segue abaixo os passos de aplicação do classificador ctree. Instalando a package party > install.packages( party ) Carregando a package party > library(party) Treinamento da árvore de decisão fazendo a poda com o parâmetro minsplit=1300 > mydata ctree ctree(myf ormula, data = traindata, controls = ctree control(minsplit = 1300)) Exibe a imagem da árvore de decisão gerada, mostrada na Figura 2. > plot(mydata ctree) Exibe a matriz de confusão > conf M atrix table(predict(mydata ctree), traindata$tipo situacao) > confmatrix Exibe a acurácia do modelo treinado > sum(conf M atrix[row(conf M atrix) == col(conf M atrix)])/sum(conf M atrix) Segue abaixo a matriz de confusão. Ativo Inativo Ativo Inativo A acurácia atingida no treinamento foi de 86,12%.

6 Página 6 Figura 2. Árvore de decisão ctree com poda O segundo classificador de árvore de decisão utilizado, para efeito de comparação, foi o J48 da package RWera. Segue abaixo os comandos de aplicação do algoritmo. Instalando a package RWeka > install.packages( RW eka ) Carregando a package RWeka > library(rw eka) Treinamento da árvore de decisão fazendo a poda com o parâmetro M=20. O parâmetro M indica o número mínimo de instâncias por folha da árvore. > j48 J48(myF ormula, data = traindata, control = W eka control(m = 20)) Imprime a árvore de decisão gerada (imagem), mostrada na Figura 3. > if(require( partykit, quietly = T RU E))plot(j48)

7 Página 7 Figura 3. Árvore de decisão J48 com poda A Figura 4 exibe o resumo da classificação gerada com o J48. A acurácia atingida no treinamento foi de 89,08%. Figura 4. Resumo da classificação gerada com o classificador J48

8 Página Naïve Bayes O Classificador Naïve Bayes é um dos mais utilizados em machine learning. Ele é denominado ingênuo (naïve) por assumir que os atributos são condicionalmente independentes, ou seja, a informação de um evento não é informativa sobre nenhum outro. Apesar desta premissa ingênua e simplista, o classificador reporta bons desempenhos em várias tarefas de classificação. Para o experimento do classificador Naïve Bayes foi utilizada a package e1071 [Dimitriadou et al. 2008]. Segue abaixo os comandos de aplicação do algoritmo. Instalando a package e1071 > install.packages( e1071 ) Carregando a package e1071 > library(e1071) Treinamento da árvore de decisão > modeln aive naivebayes(myf ormula, data = traindata) Exibe a matriz de confusão do modelo treinado > conf M atrix table(predict(modeln aive, traindata), traindata$tipo situacao) > confmatrix Exibe a acurácia do modelo treinado > sum(conf M atrix[row(conf M atrix) == col(conf M atrix)])/sum(conf M atrix) A acurácia atingida no treinamento foi de 84,12%.

9 Página Redes Neurais Multi Layer Perceptron - (MLP) As Redes Neurais formam um paradigma também conhecido como redes de processamento paralelo distribuído. Trata-se de elementos de processamento interconectados chamados de nós ou neurônios que trabalham em conjunto para produzir uma função de saída. As redes neurais Feed-Forward (RNFF) são o tipo de redes neurais mais utilizados, que possuem a seguinte arquitetura em camadas de nós: uma para os nós de entrada, uma para nós de saída e pelo menos uma camada de nós escondidos. Em cada camada oculta os nós são conectados aos nós da camada anterior e da camada seguinte, e as arestas estão associadas com pesos individuais. O modelo mais geral contém apenas uma camada oculta. RNFFs também podem representar qualquer tipo (não linear) de limites de classe [Hämäläinen e Vinni 2011]. A principal desvantagem é que as RNFFs precisam de uma grande quantidade de dados, muito mais do que conjuntos típicos de dados educacionais contém. Elas são muito sensíveis ao sobreajuste, e o problema é ainda mais crítico com conjuntos de treinamento pequenos. O modelo de rede neural é do tipo black box (caixa preta) e é difícil para as pessoas entenderem as explicações para os seus resultados [Hämäläinen e Vinni 2011]. Para o experimento do classificador MLP foi utilizada a package nnet [Ripley 2011]. Segue abaixo os comandos de aplicação do algoritmo. Instalando a package nnet > install.packages( nnet ) Carregando a package nnet > library(nnet) Treinamento da rede > neural nnet(myf ormula, data = traindata, subset = ind, size = 2, rang = 0.1, decay = 5e 4, maxit = 500) Exibe a matriz de confusão do modelo treinado > conf M atrix < table(traindata$tipo situacao, predict(neural, newdata = traindata, type = class )) > confmatrix Exibe a acurácia do modelo treinado > sum(conf M atrix[row(conf M atrix) == col(conf M atrix)])/sum(conf M atrix) A acurácia atingida no treinamento, com o máximo de iterações limitado em 500 e duas camadas ocultas, foi de 93,50% Support Vector Machines (SVM) O classificador Máquina de Vetores de Suporte é um método definido inicialmente para dados com separação linear. O objetivo é encontrar o hiperplano de maior margem que separa as classes. No caso de dados que não sejam linearmente separáveis utiliza-se o Truque do Kernel (Kernel Trick). No entanto, as SVMs têm a mesma restrição das redes neurais: os dados devem ser numéricos contínuos (ou quantificados); o modelo não é facilmente interpretável, e a seleção dos parâmetros adequados (especialmente a função de kernel) pode ser difícil [Hämäläinen e Vinni 2011].

10 Página 10 Para o experimento do classificador SVM foi utilizada a package e1071 [Dimitriadou et al. 2008]. Segue abaixo os comandos de aplicação do algoritmo. Para este algoritmo foi necessário retirar as intências com valores ausentes. Remove as instâncias com valores ausentes > traindata na.omit(traindata) Instalando a package e1071 > install.packages( RW eka ) Carregando a package e1071 > library(e1071) Treinamento do modelo SVM > model svm(myf ormula, data = traindata) Testando com os dados de treinamento > pred < predict(model, traindata[, 30]) Exibe a matriz de confusão do modelo treinado > conf M atrix < table(pred, traindata$tipo situacao) Exibe a acurácia do modelo treinado > sum(conf M atrix[row(conf M atrix) == col(conf M atrix)])/sum(conf M atrix) A acurácia atingida no treinamento foi de 88,24% k-nearest Neighbors O classificador Vizinho Mais Próximo é uma técnica baseada em aprendizagem por analogia, ou seja, comparando uma determinada tupla teste com tuplas de treinamento que são semelhantes. As tuplas de treinamento são descritas por n atributos. Cada tupla representa um ponto em um espaço n-dimensional. Desta forma, todas as tuplas de formação são armazenadas num espaço padrão de n dimensões. Quando uma dada tupla é desconhecida, um classificador k-vizinho mais próximo procura o espaço padrão para as tuplas de treinamento k que estão mais próximas da tupla desconhecida. Estas tuplas de treinamento k são os k vizinhos mais próximos da tupla desconhecida [Han et al. 2011]. Para o experimento do classificador k-nn foi utilizada a package kknn [Schliep e Hechenbichler 2008]. Segue abaixo os comandos de aplicação do algoritmo. Divisão entre dados de treinamento e teste > m dim(mybalanceddata)[1] > val sample(1 : m, size = round(m/3), replace = F ALSE, prob = rep(1/m, m)) > mybalanceddata.learn mybalanceddata[ val, ] > mybalanceddata.valid mybalanceddata[val, ] Treinamento do modelo > mybalanceddata.kknn kknn(myf ormula, mybalanceddata.learn, mybalanceddata.valid, distance = 1, kernel = triangular ) Exibição da matriz de confusão > f it f itted(mybalanceddata.kknn) > conf M atrix table(mybalanceddata.valid$tipo situacao, f it) Cálculo da acurácia > sum(conf M atrix[row(conf M atrix) == col(conf M atrix)])/sum(conf M atrix)

11 Página 11 A acurácia atingida no treinamento foi de 87,40% Associação Regras de associação ou regras associativas têm a forma X Y, onde X e Y são conjuntos de itens que ocorrem juntos em uma transação e X Y = φ, significando que se encontrarmos o conjunto de itens X em uma transação, então temos uma boa chance de encontrar também o conjunto de itens Y na mesma transação. Um dos algoritmos mais conhecidos quando o assunto é mineração de regras de associação é o algoritmo Apriori. O objetivo dele é encontrar todas as regras de associação relevantes entre as classes, do tipo X(antecedente) Y (consequente). O algoritmo foi proposto por Agrawal et al. [Agrawal et al. 1994] onde as regras de associação geradas devem atender a um suporte e confiança mínimos. O suporte corresponde à frequência com que ocorrem os padrões em toda a base. Enquanto que a confiança indica o percentual de ocorrência da regra. Os parâmetros confiança e suporte são essenciais para o funcionamento do algoritmo. Eles vão determinar diretamente tanto a quantidade como a qualidade das regras geradas. Para o experimento do algoritmo Apriori foi utilizada a package arules [Hahsler et al. 2014]. Segue abaixo os comandos de aplicação do algoritmo. Instalando a package arules. > install.packages( arules ) Carregando a package arules. > library(arules) Seleção dos atributos não numéricos > var c(1, 3, 4, 5, 6, 7, 9, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29) Aplicação do algoritmo Apriori com suporte de 50% e confiança de 90%. > rules apriori(var, parameter = list(supp = 0.5, conf = 0.9, target = rules )) Exibição das regras de associação > write(rules, file =, sep =,, quote = T RUE, col.names = NA) A Figura 5 exibe as primeiras dez regras de associação geradas pelo algoritmo (de um total de 230). Figura 5. Regras de associação geradas pelo algoritmo Apriori

12 Página Agrupamento Agrupamento consiste em identificar possíveis agrupamentos nos dados, onde um agrupamento é uma coleção de objetos que são semelhantes um ao outro. Entre os tipos de técnicas de clusterização abordaremos o particionamento e o hierárquico aglomerativo. O particionamento encontra um número k de clusters (k é fornecido pelo usuário) que são representados por seus centróides. O agrupamento hierárquico produz grupos hierárquicos começando com clusters unitários e repetidamente aglutinando clusters próximos dois a dois até chegar no número k de clusters solicitado pelo usuário. K-means é o algoritmo de particionamento mais popular. Para utilizar este algoritmo é necessário que todas as variáveis sejam numéricas. No experimento com o algoritmo K-means utilizamos a função kmeans da package stat. Segue abaixo os comandos. Transformação de atributos categóricos em numéricos (deve ser feito com cada atributo categórico). > mydata transf orm(mybalanceddata, tipo curso = as.numeric(tipo curso)) Padronização das variáveis > mydata scale(mydata) Renderizando o clustering de solução com 2 agrupamentos > fit kmeans(mydata, 2) > library(cluster) > clusplot(mydata, fit$cluster, color = T RUE, shade = T RUE, labels = 2, lines = 0) > library(f pc) > plotcluster(mydata, f it$cluster) A Figura 6 exibe o gráfico gerado com o comando plotcluster. Figura 6. Renderização do cluster com 2 agrupamentos

13 Página 13 No experimento com a clusterização hierárquica utilizamos a função hclust da package stat. Segue abaixo os comandos. Criando a matriz de distâncias. > d dist(mydata2, method = euclidean ) Gerando os agrupamentos usando o método ward.d > fit hclust(d, method = ward.d ) Renderizando o dendograma > plot(fit) Podando a árvore com 2 clusters > groups cutree(fit, k = 2) Renderizando as margens do dendograma > rect.hclust(fit, k = 2, border = red ) A Figura 7 exibe o gráfico gerado do cluster hierárquico. Figura 7. Renderização do cluster hierárquico

14 Página Resultados Obtidos O problema de identificar de padrões para a análise da evasão escolar, tratado neste trabalho é um problema de classificação. A Tabela 3 mostra as acurácias obtidas com o conjunto de dados de treinamento. Tabela 3. Acurácia obtida com os classificadores no treinamento Classificador Ctree J48 Naïve Bayes MLP SVM k-nn Acurácia 86,12% 89,08% 84,12% 93,50% 88,24% 87,40% Podemos verificar que o pior desempenho ficou com o classificador Naïve Bayes. Este resultado é bem adequado pois este classificador é normalmente utilizado como baseline. Entre os classificadores de árvore de decisão o melhor desempenho ficou com o J48. Isto pode ser explicado pois o J48 é baseado no algoritmo C4.5, que é considerado o estado da arte entre os algoritmos de classificação. O classificador com maior desempenho foi o de redes neurais Multi Layer Perceptron, mas este classificador não é adequado para o problema de mineração em estudo pois, como já foi citado, ele é uma algoritmo caixa preta, sendo difícil para as pessoas entenderem as explicações para dos seus resultados. Em regras de associação o algoritmo Apriori apresentou 230 regras nos experimentos. As regras de associação podem ser úteis para revelar relacionamento entre os atributos que auxiliem na tomada de decisão pelos gestores educacionais. Sobre as técnicas de agrupamento podemos verificar que não é adequado para o estudo em questão, pois devido a grande quantidade de atributos não foi possível a interpretação dos resultados. 5. Conclusões Os resultados obtidos, principalmente com os algoritmos de classificação, indicam a viabilidade de se realizar inferências relativas ao desempenho de estudantes, obtendo-se taxas de acurácia acima de 84%. Para o problema investigado de identificação de padrões para a análise da evasão de estudantes a técnica mais adequada foi a classificação, com destaque para os algoritmos caixa branca, como o J48. É importante ressaltar que um estudo mais aprofundado deve utilizar a técnica de validação cruzada [Witten et al. 2011], com a execução dos algoritmos repetidas vezes, para obtermos a acurácia e desvio padrão com significância estatística. A aplicação de regras de associação podem auxiliar marginalmente no estudo da evasão. O uso de técnicas de agrupamento não se revelou adequada para o estudo em questão.

15 Página 15 Referências Agrawal, R., Srikant, R., et al. (1994). Fast algorithms for mining association rules. In Proc. 20th int. conf. very large data bases, VLDB, volume 1215, pages Dimitriadou, E., Hornik, K., Leisch, F., Meyer, D., e Weingessel, A. (2008). Misc functions of the department of statistics (e1071), tu wien. R package, pages 1 5. Hahsler, M., Buchta, C., Gruen, B., Hornik, K., e Hahsler, M. M. (2014). Package arules. Hämäläinen, W. e Vinni, M. (2011). Classifiers for educational data mining. Handbook of Educational Data Mining, Chapman & Hall/CRC Data Mining and Knowledge Discovery Series, pages Han, J., Kamber, M., e Pei, J. (2011). Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 3rd edition. Hornik, K., Buchta, C., e Zeileis, A. (2009). Open-source machine learning: R meets weka. Computational Statistics, 24(2): Hothorn, T., Hornik, K., Strobl, C., Zeileis, A., e Hothorn, M. T. (2014). Package party. Package Reference Manual for Party Version , 16:37. Márquez-Vera, C., Morales, C. R., e Soto, S. V. (2013). Predicting school failure and dropout by using data mining techniques. Tecnologias del Aprendizaje, IEEE Revista Iberoamericana de, 8(1):7 14. Ripley, B. (2011). nnet: Feed-forward neural networks and multinomial log-linear models. R package version, 7(5). Romero, C., Ventura, S., Espejo, P. G., e Hervás, C. (2008). Data mining algorithms to classify students. In EDM, pages Schliep, K. e Hechenbichler, K. (2008). kknn: Weighted k-nearest neighbors. R package version, pages 1 0. Torgo, L. (2003). Data mining with r. Learning by case studies. University of Porto, LIACC-FEP. URL: liacc. up. pt/ltorgo/dataminingwithr/. Accessed on, 7(09). Witten, I. H., Frank, E., e Hall, M. A. (2011). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 3rd edition.

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL

Leia mais

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3. Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE Mariane Alves Gomes da Silva Eliana Zandonade 1. INTRODUÇÃO Um aspecto fundamental de um levantamento

Leia mais

Paralelização do algoritmo SPRINT usando MyGrid

Paralelização do algoritmo SPRINT usando MyGrid Paralelização do algoritmo SPRINT usando MyGrid Juliana Carvalho, Ricardo Rebouças e Vasco Furtado Universidade de Fortaleza UNIFOR juliana@edu.unifor.br ricardo@sspds.ce.gov.br vasco@unifor.br 1. Introdução

Leia mais

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um

Leia mais

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS Leonardo Meneguzzi 1 ; Marcelo Massoco Cendron 2 ; Manassés Ribeiro 3 INTRODUÇÃO

Leia mais

Curso de Data Mining

Curso de Data Mining Curso de Data Mining Sandra de Amo Aula 2 - Mineração de Regras de Associação - O algoritmo APRIORI Suponha que você seja gerente de um supermercado e esteja interessado em conhecer os hábitos de compra

Leia mais

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA Marcelo DAMASCENO(1) (1) Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte/Campus Macau, Rua das Margaridas, 300, COHAB, Macau-RN,

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron. 1024 UMA ABORDAGEM BASEADA EM REDES PERCEPTRON MULTICAMADAS PARA A CLASSIFICAÇÃO DE MASSAS NODULARES EM IMAGENS MAMOGRÁFICAS Luan de Oliveira Moreira¹; Matheus Giovanni Pires² 1. Bolsista PROBIC, Graduando

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA

UNIVERSIDADE FEDERAL DE SANTA CATARINA UNIVERSIDADE FEDERAL DE SANTA CATARINA CIÊNCIAS DA COMPUTAÇÃO MÁQUINAS DE COMITÊ APLICADAS À FILTRAGEM DE SPAM Monografia submetida à UNIVERSIDADE FEDERAL DE SANTA CATARINA para a obtenção do grau de BACHAREL

Leia mais

Clustering: K-means and Aglomerative

Clustering: K-means and Aglomerative Universidade Federal de Pernambuco UFPE Centro de Informática Cin Pós-graduação em Ciência da Computação U F P E Clustering: K-means and Aglomerative Equipe: Hugo, Jeandro, Rhudney e Tiago Professores:

Leia mais

Estudo da Viabilidade da utilização de Cartão de Crédito para um Grupo de Clientes Essenciais

Estudo da Viabilidade da utilização de Cartão de Crédito para um Grupo de Clientes Essenciais Estudo da Viabilidade da utilização de Cartão de Crédito para um Grupo de Clientes Essenciais Cleyton Zanardo de Oliveira CER, DEs, UFSCar Vera Lúcia Damasceno Tomazella, DEs, UFSCar Resumo Uma única pessoa

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Módulo 4. Construindo uma solução OLAP

Módulo 4. Construindo uma solução OLAP Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de

Leia mais

MLP (Multi Layer Perceptron)

MLP (Multi Layer Perceptron) MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -

Leia mais

O que é a estatística?

O que é a estatística? Elementos de Estatística Prof. Dr. Clécio da Silva Ferreira Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os

Leia mais

Programação Estruturada e Orientada a Objetos. Fundamentos Orientação a Objetos

Programação Estruturada e Orientada a Objetos. Fundamentos Orientação a Objetos Programação Estruturada e Orientada a Objetos Fundamentos Orientação a Objetos 2013 O que veremos hoje? Introdução aos fundamentos de Orientação a Objetos Transparências baseadas no material do Prof. Jailton

Leia mais

LINGUAGEM DE BANCO DE DADOS

LINGUAGEM DE BANCO DE DADOS LINGUAGEM DE BANCO DE DADOS Gabriela Trevisan Bacharel em Sistemas de Informação Universidade Federal do Rio Grande Pós-Graduanda Formação Pedagógica de Professores (FAQI) Conceito de BD Um banco de dados

Leia mais

Factor Analysis (FACAN) Abrir o arquivo ven_car.sav. Clique Extraction. Utilizar as 10 variáveis a partir de Vehicle Type.

Factor Analysis (FACAN) Abrir o arquivo ven_car.sav. Clique Extraction. Utilizar as 10 variáveis a partir de Vehicle Type. Prof. Lorí Viali, Dr. viali@pucrs.br; viali@mat.ufrgs.br; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/ Factor Analysis (FACAN) Abrir o arquivo ven_car.sav Utilizar as 10 variáveis a

Leia mais

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o DATABASE MARKETING No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o empresário obter sucesso em seu negócio é

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Paulo Carvalho Diniz Junior CPGEI / UTFPR Avenida Sete de Setembro, 3165 Curitiba-PR - CEP 80.230-910 E-mail: paulo.carvalho.diniz@gmail.com

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Engenharia de Software II

Engenharia de Software II Engenharia de Software II Aula 10 http://www.ic.uff.br/~bianca/engsoft2/ Aula 10-24/05/2006 1 Ementa Processos de desenvolvimento de software Estratégias e técnicas de teste de software (Caps. 13 e 14

Leia mais

15 Computador, projeto e manufatura

15 Computador, projeto e manufatura A U A UL LA Computador, projeto e manufatura Um problema Depois de pronto o desenho de uma peça ou objeto, de que maneira ele é utilizado na fabricação? Parte da resposta está na Aula 2, que aborda as

Leia mais

Estruturas de Armazenamento e Indexação. Rafael Lage Moreira Barbosa 10.1.4217

Estruturas de Armazenamento e Indexação. Rafael Lage Moreira Barbosa 10.1.4217 Estruturas de Armazenamento e Indexação Rafael Lage Moreira Barbosa 10.1.4217 Estruturas de Armazenamento Banco de Dados são armazenados fisicamente como arquivos de registro, que em geral ficam em discos

Leia mais

Ferramentas Livres de Armazenamento e Mineração de Dados

Ferramentas Livres de Armazenamento e Mineração de Dados Ferramentas Livres de Armazenamento e Mineração de Dados JasperBI, Pentaho, Weka 09/2009 Eng. Pablo Jorge Madril pmadril@summa.com.br Summa Technologies www.summa.com.br Eng. Pablo Jorge Madril pmadril@summa.com.br

Leia mais

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE MÓDULO 6 INTRODUÇÃO À PROBBILIDDE Quando estudamos algum fenômeno através do método estatístico, na maior parte das vezes é preciso estabelecer uma distinção entre o modelo matemático que construímos para

Leia mais

DIMENSIONANDO PROJETOS DE WEB-ENABLING. Uma aplicação da Análise de Pontos de Função. Dimensionando projetos de Web- Enabling

DIMENSIONANDO PROJETOS DE WEB-ENABLING. Uma aplicação da Análise de Pontos de Função. Dimensionando projetos de Web- Enabling DIMENSIONANDO PROJETOS DE WEB-ENABLING Uma aplicação da Análise de Pontos de Função Dimensionando projetos de Web- Enabling Índice INTRODUÇÃO...3 FRONTEIRA DA APLICAÇÃO E TIPO DE CONTAGEM...3 ESCOPO DA

Leia mais

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1. O que é a ciência de dados (data science). Discussão do conceito Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.3, Outubro, 2015 Nota prévia Esta apresentação tem por objetivo, proporcionar

Leia mais

Reconhecimento de Padrões

Reconhecimento de Padrões Engenharia Informática (ramos de Gestão e Industrial) Departamento de Sistemas e Informação Reconhecimento de Padrões Projecto Final 2004/2005 Realizado por: Prof. João Ascenso. Departamento de Sistemas

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala [quinta-feira, 7:30 12:00] Atendimento Segunda

Leia mais

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto.

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto. Discussão sobre Nivelamento Baseado em Fluxo de Caixa. Item aberto na lista E-Plan Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR Uma exploração preliminar dos dados para compreender melhor suas características. Motivações-chave da exploração de dados incluem Ajudar na seleção da técnica correta para pré-processamento ou análise

Leia mais

Concepção e Elaboração

Concepção e Elaboração UNIVERSIDADE ESTADUAL PAULISTA INSTITUTO DE BIOCIÊNCIAS, LETRAS E CIÊNCIAS EXATAS DEPARTAMENTO DE CIÊNCIAS DE COMPUTAÇÃO E ESTATÍSTICA Análise e Projeto Orientado a Objetos Concepção e Elaboração Estudo

Leia mais

Engenharia de Software III

Engenharia de Software III Engenharia de Software III Casos de uso http://dl.dropbox.com/u/3025380/es3/aula6.pdf (flavio.ceci@unisul.br) 09/09/2010 O que são casos de uso? Um caso de uso procura documentar as ações necessárias,

Leia mais

Persistência e Banco de Dados em Jogos Digitais

Persistência e Banco de Dados em Jogos Digitais Persistência e Banco de Dados em Jogos Digitais Prof. Marcos Francisco Pereira da Silva Especialista em Engenharia de Software Jogos Digitais - Computação Gráfica 1 Agenda Vantagens de usar a abordagem

Leia mais

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO FUNDAÇÃO DE APOIO AO ENINO TÉCNICO DO ETADO DO RIO DE JANEIRO PLANO DE CURO 1. Identificação Curso de Extensão: INTRODUÇÃO AO ITEMA INTELIGENTE Professor Regente: José Carlos Tavares da ilva Carga Horária:

Leia mais

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data

Leia mais

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados Algoritmos Genéticos em Mineração de Dados Descoberta de Conhecimento Descoberta do Conhecimento em Bancos de Dados Processo interativo e iterativo para identificar padrões válidos, novos, potencialmente

Leia mais

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software PROCESSO DE DESENVOLVIMENTO DE SOFTWARE Introdução Modelos de Processo de Desenvolvimento de Software Os modelos de processos de desenvolvimento de software surgiram pela necessidade de dar resposta às

Leia mais

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade

Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade Extensão do WEKA para Métodos de Agrupamento com Restrição de Contigüidade Carlos Eduardo R. de Mello, Geraldo Zimbrão da Silva, Jano M. de Souza Programa de Engenharia de Sistemas e Computação Universidade

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

Dadas a base e a altura de um triangulo, determinar sua área.

Dadas a base e a altura de um triangulo, determinar sua área. Disciplina Lógica de Programação Visual Ana Rita Dutra dos Santos Especialista em Novas Tecnologias aplicadas a Educação Mestranda em Informática aplicada a Educação ana.santos@qi.edu.br Conceitos Preliminares

Leia mais

Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining

Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining Clustering - agrupamento Baseado no capítulo 8 de Introduction to Data Mining de Tan, Steinbach, Kumar Clustering - agrupamento 1 O que é Clustering? Encontar grupos de objectos tal que os objectos dentro

Leia mais

Memória Cache. Prof. Leonardo Barreto Campos 1

Memória Cache. Prof. Leonardo Barreto Campos 1 Memória Cache Prof. Leonardo Barreto Campos 1 Sumário Introdução; Projeto de Memórias Cache; Tamanho; Função de Mapeamento; Política de Escrita; Tamanho da Linha; Número de Memórias Cache; Bibliografia.

Leia mais

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto Prof. Walter Cunha falecomigo@waltercunha.com http://waltercunha.com PMBoK Organização do Projeto Os projetos e o gerenciamento

Leia mais

Inteligência Artificial. Redes Neurais Artificiais

Inteligência Artificial. Redes Neurais Artificiais Curso de Especialização em Sistemas Inteligentes Aplicados à Automação Inteligência Artificial Redes Neurais Artificiais Aulas Práticas no Matlab João Marques Salomão Rodrigo Varejão Andreão Matlab Objetivos:

Leia mais

Nathalie Portugal Vargas

Nathalie Portugal Vargas Nathalie Portugal Vargas 1 Introdução Trabalhos Relacionados Recuperação da Informação com redes ART1 Mineração de Dados com Redes SOM RNA na extração da Informação Filtragem de Informação com Redes Hopfield

Leia mais

Mineração de Opinião / Análise de Sentimentos

Mineração de Opinião / Análise de Sentimentos Mineração de Opinião / Análise de Sentimentos Carlos Augusto S. Rodrigues Leonardo Lino Vieira Leonardo Malagoli Níkolas Timmermann Introdução É evidente o crescimento da quantidade de informação disponível

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação SOFT DISCIPLINA: Engenharia de Software AULA NÚMERO: 10 DATA: / / PROFESSOR: Andrey APRESENTAÇÃO O objetivo desta aula é apresentar e discutir os conceitos de coesão e acoplamento. DESENVOLVIMENTO Projetar

Leia mais

Aula 2 RNA Arquiteturas e Treinamento

Aula 2 RNA Arquiteturas e Treinamento 2COP229 Aula 2 RNA Arquiteturas e Treinamento 2COP229 Sumário 1- Arquiteturas de Redes Neurais Artificiais; 2- Processos de Treinamento; 2COP229 1- Arquiteturas de Redes Neurais Artificiais -Arquitetura:

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

Módulo 4: Gerenciamento de Dados

Módulo 4: Gerenciamento de Dados Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não

Leia mais

Palavras-Chaves: Agrupamento Hierárquico; Acordo de Resultados.

Palavras-Chaves: Agrupamento Hierárquico; Acordo de Resultados. Estatística Multivariada: Grupos Homogêneos no Combate à Criminalidade em Minas Gerais 1 Formação de Regiões Homogêneas no Combate à Criminalidade Violenta de Minas Gerais utilizando técnica de agrupamento

Leia mais

3 Metodologia para Segmentação do Mercado Bancário

3 Metodologia para Segmentação do Mercado Bancário 3 Metodologia para Segmentação do Mercado Bancário Este capítulo descreve a metodologia proposta nesta dissertação para a segmentação do mercado bancário a partir da abordagem post-hoc, servindo-se de

Leia mais

4 Aplicativo para Análise de Agrupamentos

4 Aplicativo para Análise de Agrupamentos 65 4 Aplicativo para Análise de Agrupamentos Este capítulo apresenta a modelagem de um aplicativo, denominado Cluster Analysis, dedicado à formação e análise de grupos em bases de dados. O aplicativo desenvolvido

Leia mais

Pisa 2012: O que os dados dizem sobre o Brasil

Pisa 2012: O que os dados dizem sobre o Brasil Pisa 2012: O que os dados dizem sobre o Brasil A OCDE (Organização para Cooperação e Desenvolvimento Econômico) divulgou nesta terça-feira os resultados do Programa Internacional de Avaliação de Alunos,

Leia mais

Controle de Almoxarifado

Controle de Almoxarifado Controle de Almoxarifado Introdução O módulo de Controle de Almoxarifado traz as opções para que a empresa efetue os cadastros necessários referentes a ferramentas de almoxarifado, além do controle de

Leia mais

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES

Leia mais

Análise Exploratória de Dados

Análise Exploratória de Dados Análise Exploratória de Dados Profª Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Programa de Pós-graduação em Saúde Coletiva email: alcione.miranda@gmail.com Introdução O primeiro passo

Leia mais

Orientação à Objetos. Aécio Costa

Orientação à Objetos. Aécio Costa Aécio Costa O paradigma da orientação à objetos Paradigma? Um paradigma é uma forma de abordar um problema. No contexto da modelagem de um sistema de software, um paradigma tem a ver com a forma pela qual

Leia mais

Extração de Requisitos

Extração de Requisitos Extração de Requisitos Extração de requisitos é o processo de transformação das idéias que estão na mente dos usuários (a entrada) em um documento formal (saída). Pode se entender também como o processo

Leia mais

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida 27 de maio de 2014 O que é a Neural Networw Toolbox? A Neural Network Toolbox fornece funções e aplicativos para a modelagem de sistemas não-lineares complexos que não são facilmente modelados com uma

Leia mais

Nota Técnica 113/2007 SRD/SRE/ANEEL Metodologia para Projeção de Investimentos para o Cálculo do Fator X Contribuição da Audiência Publica 052/2007

Nota Técnica 113/2007 SRD/SRE/ANEEL Metodologia para Projeção de Investimentos para o Cálculo do Fator X Contribuição da Audiência Publica 052/2007 Nota Técnica 113/2007 SRD/SRE/ANEEL Metodologia para Projeção de Investimentos para o Cálculo do Fator X Contribuição da Audiência Publica 052/2007 1 1. Estrutura do Trabalho : De forma que se pudesse

Leia mais

GT Computação Colaborativa (P2P)

GT Computação Colaborativa (P2P) GT Computação Colaborativa (P2P) Djamel Sadok Julho de 2003 Este documento tem como objetivo descrever o projeto de estruturação do grupo de trabalho GT Computação Colaborativa (P2P), responsável pelo

Leia mais

Processos Técnicos - Aulas 4 e 5

Processos Técnicos - Aulas 4 e 5 Processos Técnicos - Aulas 4 e 5 Trabalho / PEM Tema: Frameworks Públicos Grupo: equipe do TCC Entrega: versão digital, 1ª semana de Abril (de 31/03 a 04/04), no e-mail do professor (rodrigues.yuri@yahoo.com.br)

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Mining Os métodos tradicionais de Data Mining são: Classificação Associa ou classifica um item a uma ou várias classes categóricas pré-definidas.

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas CMP1132 Processo e qualidade de software II Prof. Me. Elias Ferreira Sala: 402 E Quarta-Feira:

Leia mais

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I! A utilização de escores na avaliação de crédito! Como montar um plano de amostragem para o credit scoring?! Como escolher as variáveis no modelo de credit

Leia mais

GARANTIA DA QUALIDADE DE SOFTWARE

GARANTIA DA QUALIDADE DE SOFTWARE GARANTIA DA QUALIDADE DE SOFTWARE Fonte: http://www.testexpert.com.br/?q=node/669 1 GARANTIA DA QUALIDADE DE SOFTWARE Segundo a NBR ISO 9000:2005, qualidade é o grau no qual um conjunto de características

Leia mais

Cálculo de volume de objetos utilizando câmeras RGB-D

Cálculo de volume de objetos utilizando câmeras RGB-D Cálculo de volume de objetos utilizando câmeras RGB-D Servílio Souza de ASSIS 1,3,4 ; Izadora Aparecida RAMOS 1,3,4 ; Bruno Alberto Soares OLIVEIRA 1,3 ; Marlon MARCON 2,3 1 Estudante de Engenharia de

Leia mais

SISTEMAS DISTRIBUÍDOS

SISTEMAS DISTRIBUÍDOS SISTEMAS DISTRIBUÍDOS Cluster, Grid e computação em nuvem Slide 8 Nielsen C. Damasceno Introdução Inicialmente, os ambientes distribuídos eram formados através de um cluster. Com o avanço das tecnologias

Leia mais

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento

Leia mais

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining Gestão da Informação AULA 3 Data Mining Prof. Edilberto M. Silva Gestão da Informação Agenda Unidade I - DM (Data Mining) Definição Objetivos Exemplos de Uso Técnicas Tarefas Unidade II DM Prático Exemplo

Leia mais

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012 Data Mining Software Weka Prof. Luiz Antonio do Nascimento Software Weka Ferramenta para mineração de dados. Weka é um Software livre desenvolvido em Java. Weka é um É um pássaro típico da Nova Zelândia.

Leia mais

Construção da Consulta. Para a construção da consulta, siga os passos abaixo:

Construção da Consulta. Para a construção da consulta, siga os passos abaixo: Com a finalidade de esclarecer e auxiliar o usuário sobre a utilização do produto PaepOnline, a Fundação Seade elaborou um manual explicativo sobre a forma de construção das tabelas e sua navegabilidade.

Leia mais

Web Data mining com R: aprendizagem de máquina

Web Data mining com R: aprendizagem de máquina Web Data mining com R: aprendizagem de máquina Fabrício Jailson Barth Faculdade BandTec e VAGAS Tecnologia Junho de 2013 Sumário O que é Aprendizagem de Máquina? Hierarquia de aprendizado. Exemplos de

Leia mais