Parte I - Introdução. Agenda. Mineração de Dados com a Ferramenta Weka. Mineração de Dados: Por quê? O que é Mineração? Mineração de Dados: Por quê?

Tamanho: px
Começar a partir da página:

Download "Parte I - Introdução. Agenda. Mineração de Dados com a Ferramenta Weka. Mineração de Dados: Por quê? O que é Mineração? Mineração de Dados: Por quê?"

Transcrição

1 II Semana de Tecnologia da Informação IFBA Campus Vitória da Conquista 7 a 30 de maio de 014 Mineração de Dados com a Ferramenta Weka Prof. MSc Pablo Freire Matos Informática - Instituto Federal da Bahia (IFBA) pablofmatos@gmail.com Agenda I. Introdução Mineração de Dados Weka II. Conceitos, Métodos e Métricas de Avaliação Classificação Associação Agrupamento III. Mineração de Dados em um SGBD IV. Estudos de Caso Mineração de Dados: Por quê? Grandes volumes de dados disponíveis Parte I - Introdução Muitos dados, mas pouca informação Decisões são tomadas utilizando intuição Necessidade de transformar dados em informação útil 4 Mineração de Dados: Por quê? Frequentemente existe informação escondida nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados O que é Mineração? Extração de padrões interessantes ou conhecimento de um grande volume de dados Também conhecido como KDD (Knowledge Discovery in Databases) Boa parte dos dados nunca é analisado: cemitério de dados 5 6 1

2 O que é Mineração? O que é Mineração? Para a comunidade de BD e DW Para a comunidade de BI 7 8 O que é Mineração? O que é Mineração? Para a comunidade de AM e Estatística Estatística e IA AM e Reconhecimento de Padrões Mineração de Dados Banco de Dados 9 10 Tarefas de Mineração Predição MD Consiste na predição do valor de algum atributo de um caso baseado em exemplos de experiências passadas Predição Descrição Classificação O atributo a ser predito deve ser mapeado em uma classe conhecida Diagnóstico Médico Detecção de Fraude Classificação Regressão Agrupamento Associação Regressão O atributo a ser predito é um valor contínuo Previsão de valor de ações Estimativa de Validade de Medição 11 1

3 Descrição Caso Bank of America Identificação de propriedades e relações características em um conjunto de dados Agrupamento Grupos de dados com características similares Identificação de categorias de clientes Sugestão antes de colocar no carrinho de compras Associação Relações existentes entre valores de subconjuntos de atributos Sugestão após colocar no carrinho de compras O banco usou técnicas de MD para selecionar entre seus 36 milhões de clientes aqueles com menor risco de dar calote num empréstimo. A partir desses relatórios, enviou cartas oferecendo linhas de crédito para os correntistas cujos filhos tivessem entre 18 e 1 anos e, portanto, precisassem de dinheiro para ajudar os filhos a comprar o próprio carro, uma casa ou arcar com os gastos da faculdade. Resultado: em três anos, o banco lucrou 30 milhões de dólares Caso Walmart A empresa identificou um hábito curioso dos consumidores. Há cinco anos, ao procurar eventuais relações entre o volume de vendas e os dias da semana, o software de data mining apontou que, às sextas-feiras, as vendas de cervejas cresciam na mesma proporção que as de fraldas. Crianças bebendo cerveja? Não, uma investigação mais detalhada revelou que, ao comprar fraldas para seus bebês, os pais aproveitavam para abastecer o estoque de cerveja para o final de semana. Ambiente WEKA Experimento Linha de Comando Java API Explorer Workflow Weka: Explorer Base de Dados: ARFF

4 Base de Dados: CSV Base de Dados: SGBD CSV (Comma-separated values) 19 0 Conceitos Parte II Classificação: Conceitos, Métodos e Métricas de Avaliação Base de Exemplos Composta por exemplos contendo valores de atributos bem como a classe associada Conceitos Tipos de Atributos Exemplo (ou instância) Um exemplo descrito por certo número de atributos Um dia descrito por temperatura, umidade e situação das nuvens Atributo (ou característica) Uma característica mensurável de um exemplo A temperatura do dia Classe (ou rótulo) Atributo especial que descreve o conceito que se deseja aprender e poder fazer previsões a respeito Tipo de defeito de equipamento Nominais: categorias cor do cabelo: {loiro, ruivo, preto, branco, castanho} Ordinais: a ordem importa, mas o valor que representa cada categoria não é conhecido altura: {baixo, médio, alto, muito alto} Numéricos salário, temperatura Discreto x Contínuo número finito de estados normalmente representado por um número real 3 4 4

5 Base de Exemplos Classificação: Introdução Aparência Temperatura Umidade Vento Jogo Sol Quente 85 Falso Não Sol Quente 90 Verdadeiro Não Encoberto Quente 86 Falso Sim Chuvoso Agradavel 96 Falso Sim Chuvoso Frio 80 Falso Sim Chuvoso Frio 70 Verdadeiro Não Encoberto Frio 65 Verdadeiro Sim Sol Agradavel 95 Falso Não Sol Frio 70 Falso Sim Chuvoso Agradavel 80 Falso Sim Sol Agradavel 70 Verdadeiro Sim Encoberto Agradavel 90 Verdadeiro Sim Encoberto Quente 75 Falso Sim Chuvoso Agradavel Mineração de Dados com 91 a Ferramenta Verdadeiro Weka Não 5 Classificação Classificar um objeto (registro, amostra, exemplo) é determinar com que grupo de entidades, já classificadas anteriormente, esse objeto apresenta mais semelhanças É uma das técnicas mais utilizadas na mineração 6 Exemplos de Tarefas de Classificação Spam de Upgrade de Pacotes Concessão de Empréstimo Potenciais Assinantes 7 Classificação Supervisionada: Definição Dada uma coleção de registros (conjunto de treinamento) cada registro contém um conjunto de atributos, e um dos atributos é a classe Encontrar um modelo para determinar o valor do atributo classe em função dos valores de outros atributos Objetivo: definir a classe de novos registros O conjunto de dados é dividido em conjunto de treinamento (usado para gerar o modelo) e conjunto de teste Um conjunto de DADOS de teste é usado para avaliar o modelo Tid Attrib1 Attrib Attrib3 Class 1 Yes Large 15K No No Medium 100K No 3 No Small 70K No 4 Yes Medium 10K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 0K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib Attrib3 Class 11 No Small 55K? 1 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Test Set Induction Deduction Learning algorithm Learn Model Apply Model A classe deve ser atribuída o mais corretamente possível 8 Model Métodos de Classificação Classificadores eager (espertos) A partir da amostragem inicial (conjunto de treinamento), constroem um modelo de classificação capaz de classificar novos registros Uma vez o modelo pronto, o conjunto de treinamento não é mais utilizado na classificação de novos objetos (registros) Árvores de Decisão Naïve Bayes e Redes Bayesianas Redes Neurais Regras de Decisão Máquinas de Vetores de Suporte (SVM) Classificadores lazy (preguiçosos) Cada novo registro é comparado com todo o conjunto de treinamento e é classificado segundo a classe do registro que é mais similar Método knn (k-nearest-neighbor) Case-Based Reasoning (CBR) Como criar uma Árvore de Decisão? Tid Attrib1 Attrib Attrib3 Class 1 Yes Large 15K No No Medium 100K No 3 No Small 70K No 4 Yes Medium 10K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 0K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib Attrib3 Class 11 No Small 55K? 1 Yes Medium 80K? 13 Yes Large 110K? Induction Deduction Tree Induction algorithm Learn Model Apply Model Model Decision Tree Outros Métodos Algoritmos Genéticos e Conjuntos Fuzzy 9 14 No Small 95K? 15 No Large 67K? Test Set 30 5

6 Método Árvore de Decisão Ordem dos Atributos: CasaPrópria, EstCivil, Rendim. atributos Método Árvore de Decisão Ordem dos Atributos: EstCivil, CasaPrópria, Rendim. Casa Mau Id própria EstCivil Rendim. Pagador 1 S Solteiro 15K NÃO N Casado 100K NÃO 3 N Solteiro 70K NÃO 4 S Casado 10K NÃO 5 N Divorc. 95K SIM 6 N Casado 60K NÃO 7 S Divorc. 0K NÃO 8 N Solteiro 85K SIM 9 N Casado 75K NÃO 10 N Solteiro 90K SIM Dados de Treinamento valores de atributos S NÃO NÃO CasaPr. Rendim. N EstCivil Solteiro, Divorc. <= 80K > 80K SIM Casado NÃO classe Modelo: Árvore de Decisão Casa Mau Id própria EstCivil Rendim. Pagador 1 S Solteiro 15K NÃO N Casado 100K NÃO 3 N Solteiro 70K NÃO 4 S Casado 10K NÃO 5 N Divorc. 95K SIM 6 N Casado 60K NÃO 7 S Divorc. 0K NÃO 8 N Solteiro 85K SIM 9 N Casado 75K NÃO 10 N Solteiro 90K SIM Casado NÃO EstCivil S Solteiro, Divorc. CasaPr. NÃO Rendim. <= 80K > 80K NÃO Pode haver mais de uma árvore para o mesmo conjunto de dados!!! N SIM 31 3 Testando o Modelo Tid Attrib1 Attrib Attrib3 Class 1 Yes Large 15K No No Medium 100K No 3 No Small 70K No 4 Yes Medium 10K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 0K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib Attrib3 Class 11 No Small 55K? Induction Tree Induction algorithm Learn Model Apply Model Model Decision Tree Aplicando o Modelo nos Dados de Teste Comece pela raiz da árvore S NÃO CasaPr. Rendim. N Solteiro, Divorc. EstCivil <= 80K > 80K Casado NÃO Dados para Teste Casa Estado Própria Civil Rendim. Mau pagador N Casado 80K? Atribua o valor NÃO à classe 1 Yes Medium 80K? 13 Yes Large 110K? Deduction NÃO SIM 14 No Small 95K? 15 No Large 67K? Test Set Como criar uma Árvore de Decisão? Algoritmo ID3 Algoritmos de Indução: Algoritmo de Hunt (um dos mais antigos) CART ID3, C4.5 SLIQ, SPRINT Seleção dos nodos Teoria da Informação de Shannon Conceitos de entropia e ganho de informação Entropia Quantidade necessária de informação para identificar a classe de um caso (incerteza / confusão) p1 p pn Entropia (S) (p1 log p log... pn log ) onde: S é o conjunto de amostras (registros) n é o número de valores possíveis da classe p i é a proporção de amostras da classe i em relação ao total de amostras

7 Entropia Entropia: Exemplos Considerando apenas valores possíveis da classe, a entropia é dada pela fórmula: P= (p; n) Onde: p Entropia (S) (p,n) ( log p n p é a quantidade de amostras positivas n é a quantidade de amostras negativas p pn n log p n n pn ) P = (0,5 ; 0,5) P = (0,67 ; 0,33) P = (1,0 ; 0,0) entropia(p) = 1 entropia(p) = 0,9 entropia(p) = 0,0 Exemplo: Se S é uma coleção de 14 exemplos com 9 instâncias positivas (classe=sim) e 5 negativas (classe=não), então, Entropia (S)=: = (9/14) Log (9/14) (5/14) Log (5/14) = ( 0,64* 0,6439) ( 0,36 * 1,4739) = 0,41 + 0,53 = 0, Ganho de Informação Exemplo Redução esperada da entropia ao utilizarmos um atributo na árvore Ganho (S, A) Entropia(S) - E (A) Onde: Ganho (S, A) é o ganho do atributo A sobre o conjunto S E (A) é o ganho esperado do atributo A do subconjunto Onde: v pi ni E (A) Entropia (pi ni) p n i1 p é a quantidade de amostras positivas do conjunto n é a quantidade de amostras negativas do conjunto p i é a quantidade de amostras positivas do subconjunto n i é a quantidade de amostras negativas do subconjunto Cria o modelo de classificação e utilize-o nos dados de teste Selecione o classificador ID3 e execute com os parâmetros default Compreenda a saída fornecida Métricas de Avaliação e Métodos de Particionamento Visualize a árvore gerada Exemplo de Treinamento AD: Modelo Construído Aparência Temperatura Umidade Vento Jogo Sol Quente Alta Falso Não Sol Quente Alta Verdadeiro Não Encoberto Quente Alta Falso Sim Chuvoso Agradavel Alta Falso Sim Chuvoso Frio Normal Falso Sim Chuvoso Frio Normal Verdadeiro Não Encoberto Frio Normal Verdadeiro Sim Sol Agradavel Alta Falso Não Sol Frio Normal Falso Sim Chuvoso Agradavel Normal Falso Sim Sol Agradavel Normal Verdadeiro Sim Encoberto Agradavel Alta Verdadeiro Sim Encoberto Quente Normal Falso Sim Chuvoso Agradavel Alta Verdadeiro Não

8 Treinamento: Formato ARFF AD: Modelo Construído (Weka) Save model Métricas - Avaliação de Desempenho Foco na capacidade preditiva do modelo E não no tempo que leva para classificar ou criar um modelo, na escalabilidade... Precisão e Revocação - Recuperação de Informação Elementos Recuperados FN VN Baseadas na Matriz de Confusão VP FP Classe prevista Sim Não Classe real Sim Não Verdadeiro Positivo (VP) Falso Positivo (FP) Falso Negativo (FN) Verdadeiro Negativo (VN) Nº de elementos relevantes recuperados Precisão Nº totalde elementos recuperados Nº de elementos relevantes recuperados Revocação Nº totalde elementos relevantes VP Precisão VP FP VP Revocação VP FN Precisão e Revocação Exemplo Relevantes = Tem-câncer Precisão e Revocação - Inteligência Artificial Irrelevantes = Não-tem-câncer Classe prevista Sim Não Classe real Sim 10 VP 30 FN Não 40 FP 310 VN Sim = Tem-câncer Não = Não-tem-câncer Precisão 0,75 Revocação 0, VP 10 VP 10 Precisão 0,75 Revocação 0, 8 VP FP 160 VP FN

9 Medida-F (F-Measure) Resumo Métricas - Avaliação de Desempenho Derivada por van Rijsbergen (1979) ¹ Baseada na medida de eficiência Medida F Medida F *Precisão * Revocação Medida F Precisão Revocação 0,775 *0,75*0,8 0,77 0,75 0,8 0,675 *0,45*0,9 0,6 0,45 0,9 Medida F 0,6 *0,3*0,9 0,45 0,3 0,9 ¹ VAN RIJSBERGEN, C. J. Information retrieval. nd ed. Butterworth-Heinemann, p. Taxa de VP : (Sensibilidade, Revocação, Recall) VP 100% VP FN VP Precisão: 100% VP FP F-measure:. precisão. recall precisão recall Classe real Classe prevista Sim Não Sim VP FN Não FP VN (Média harmônica entre precisão e recall) Métodos de Particionamento Métodos de Particionamento Holdout % p para treinamento p-1 para teste Holdout Cross-Validation Normalmente p>1/ Típico p = /3 Treinamento 67% Teste 33% Cross-Validation 51 5 Cross-Validation: Validação Cruzada 4-fold Cross-Validation: Exemplo Uso dos mesmos dados, repetidas vezes, divididos diferentemente Escolhidos aleatoriamente e exclusivos Conjunto de Exemplos subconj 1 subconj subconj 3 subconj 4 Treinamento k-1 Teste fold restante 3-fold Cross-Validation Modelo 1 treino subconj 1 treino subconj treino subconj 3 teste subconj 4 treino treino teste treino Modelo subconj 1 subconj subconj 3 subconj 4 Modelo 3 treino subconj 1 teste subconj treino subconj 3 treino subconj 4 Modelo 4 teste subconj 1 treino subconj treino subconj 3 treino subconj

10 AD: Modelo Construído (Weka) Exemplo de Teste Aparência Temperatura Umidade Vento Jogo Predição Sol Frio Alta Verdadeiro Sim Não Chuvoso Quente Normal Falso Sim Sim Encoberto Frio Alta Verdadeiro Não Sim Sol Quente Normal Verdadeiro Sim Sim Sol Agradavel Alta Falso Não Não Chuvoso Frio Normal Verdadeiro Não Não Chuvoso Frio Alta Falso Não Sim Encoberto Quente Normal Falso Sim Sim Salvar o modelo de novo? Sol Agradavel Normal Verdadeiro Sim Sim Chuvoso Agradavel Alta Verdadeiro Não Não Exemplo de Teste: Matriz de Confusão Métricas de Avaliação FN VN Precisão? VP 4 Precisão 0,67 VP FP 6 VP FP Recall? VP 4 Revocação 0,8 VP FN 5 Classe prevista F-Measure? P R 0,67 0,8 1,07 Revocação 0,73 P R 0,67 0,8 1,47 Classe real Sim Não Sim VP = 4 FP = Não FN = 1 VN = 3 Acurária? VP VN 7 Acurária 0,7 VP VN FN FP Teste: Formato ARFF AD: Exemplo Testado (Weka) Load model

11 Relembrando o Exemplo Cria o modelo de classificação e utilize-o nos dados de teste Selecione o classificador ID3 e execute com os parâmetros default Compreenda a saída fornecida Métricas de Avaliação e Métodos de Particionamento Parte III Associação: Conceitos, Métodos e Métricas de Avaliação Visualize a árvore gerada 61 Motivação Mineração de Regras de Associação Dado um conjunto de transações, encontre regras para a predição da ocorrência de itens baseado na ocorrência de outros itens na transação TID Itens 1 pão, leite pão, fralda, cerveja, ovos 3 leite, fralda, cerveja, coca 4 pão, leite, fralda, cerveja 5 pão, leite, fralda, coca Exemplos de Regras de Associação {fralda} {cerveja}, {leite, pão} {ovos, coca}, {cerveja, pão} {leite}, Implicação significa coocorrência, e não causa!!! Definições: Frequent Itemsets Itemset (conjunto de itens) Um conjunto de um ou mais items Exemplo: {leite, pão, fralda} k-itemset Um itemset com k itens Contador de Suporte () Frequência de ocorrência de um conjunto de itens (itemset) Ex: ({leite, pão}) = 3 Suporte (s) Fração das transações que contêm um itemset Ex: s({leite, pão, fralda}) = /5 Frequent Itemsets TID 1 pão, leite Um itemset cujo suporte é maior ou igual a um dado limite minsup Itens pão, fralda, cerveja, ovos 3 leite, fralda, cerveja, coca 4 pão, leite, fralda, cerveja 5 pão, leite, fralda, coca 65 Definição: Regra de Associação Regras de Associação: Uma expressão da forma X Y, onde X e Y são conjuntos disjuntos de itens Exemplo: {leite, fralda} {cerveja} (significado: quem compra leite e fralda também compra cerveja na mesma transação) Métricas de Avaliação das Regras: Suporte (s) Fração das transações que contêm X e Y Confiança (c) Mede a frequência com que Y aparece nas transações que contêm X TID 1 pão, leite Itens pão, fralda, cerveja, ovos 3 leite, fralda, cerveja, coca 4 pão, leite, fralda, cerveja 5 pão, leite, fralda, coca Exemplo: { leite,fralda} {cerveja} (leite,fralda, cerveja) s 0.4 T 5 (leite, fralda, cerveja) c 0.67 (leite,fralda)

12 Métricas de Avaliação das Regras Suporte de A, B, C número de transações que ocorrem A, B, C, D Total de Transações Confiança de A, B, C número de transações que ocorrem A, B, C, D número de transações que ocorrem A, B, C D D Mineração de Regras de Associação Objetivo da Mineração de Regras de Associação: Dado um conjunto de transações T, é encontrar todas as regras com suporte minsup confiança minconf Abordagem da Força Bruta: liste todas as possíveis regras de associação calcule o suporte e a confiança para cada regra corte as regras que não satisfazem minsup ou minconf Computacionalmente proibitivo! Problema: Número de Regras Geradas Considerando 4 itens: A, B, C e D, sem considerar suporte e confiança, podemos ter quantas regras? Conjunto Regras Possíveis Número de regras {AB} AB; BA {AC} AC; CA {AD} AD; DA {BC} BC; CB {BD} BD; DB {CD} CD; DC {ABC} ABC; BAC; CAB; BCA; ACB; ABC 6 {ABD} ABD; BAD; DAB; BDA; ADB; ABD 6 {ACD} ADC; DAC; CAD; DCA; ACD; ADC 6 {BCD} {ABCD} DBC; BDC; CDB; BCD; DCB; DBC ABCD; BACD; CABD; DABC; ABCD; ACBD; ADBC; BCAD; BDAC; CDAB; BCDA; ACDB; ABDC; ABCD; d R 3 d TID Minerando Regras de Associação 1 pão, leite Observações: Itens pão, fralda, cerveja, ovos 3 leite, fralda, cerveja, coca 4 pão, leite, fralda, cerveja 5 pão, leite, fralda, coca Exemplos de Regras: {leite,fralda} {cerveja} (s=0.4, c=0.67) {leite,cerveja} {fralda} (s=0.4, c=1.0) {fralda,cerveja} {leite} (s=0.4, c=0.67) {cerveja} {leite,fralda} (s=0.4, c=0.67) {fralda} {leite,cerveja} (s=0.4, c=0.5) {leite} {fralda,cerveja} (s=0.4, c=0.5) 1. Todas as regras acima são partições binárias do mesmo itemset: {leite, fralda, cerveja}. Regras originadas do mesmo itemset têm o mesmo suporte mas podem ter confianças diferentes 3. Então, podemos separar o suporte da confiança 70 Minerando Regras de Associação Reduzindo o Número de Candidatos Abordagem em dois passos: Geração dos Items frequentes (Etapa 1) gerar todos os itemsets com suporte minsup Geração das Regras (Etapa ) gerar regras de alta confiança para cada itemset, onde cada regra é um partição binária de um itemset frequente A geração dos conjuntos de items frequentes ainda é computacionalmente custosa Etapa 1 varre a base de dados Mais custosa Etapa não há a varredura da base de dados Princípio do Algoritmo Apriori: Se um itemset é frequente, então todos os seus subconjuntos também são frequentes Este princípio é devido a seguinte propriedade do suporte: X, Y J :( X Y) f ( X ) f ( Y) Se X for um subconjunto de Y, então f(x) não deve exceder f(y) Propriedade anti-monotônica da medida do suporte

13 Ilustrando o Princípio do Apriori O Algoritmo Apriori Conjunto de itens não frequentes null A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE Conjuntos Podados ABCD ABCE ABDE ACDE BCDE ABCDE Método: seja k=1 Obtenha conjuntos frequentes de tamanho 1 Repita enquanto novos itemsets frequentes forem obtidos Obtenha itemsets candidatos de tamanho (k+1) a partir de itemsets de tamanho k (não inclua itemsets candidatos contendo subconjuntos de tamanho k infrequentes) Conte o suporte de cada candidato varrendo o BD Elimine candidatos não frequentes, deixando só os frequentes Exemplo: Descoberta Regras de Associação Itemsets Frequentes (1-itemsets) Dada a tabela abaixo onde cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item, descobrir todas as regras associativas com suporte >= 0,3 e grau de certeza (confiança) >= 0,8. TID leite café cerveja pão manteiga arroz feijão 1 não sim não sim sim não não sim não sim sim sim não não 3 não sim não sim sim não não 4 sim sim não sim sim não não 5 não não sim não não não não 6 não não não não sim não não 7 não não não sim não não não 8 não não não não não não sim 9 não não não não não sim sim 10 não não não não não sim não Conjunto de itens suporte {leite} {café} 3 {cerveja} {pão} 5 {manteiga} 5 {arroz} {feijão} C 1 1-itemsets Conjunto de itens suporte {café} 3 {pão} 5 {manteiga} 5 L Itemsets Frequentes: -itemsets e 3-itemsets -itemsets Conjunto de itens suporte {café, pão} 3 {café, manteiga} 3 {pão, manteiga} 4 C, L 3-itemsets Conjunto de itens suporte {café, pão, manteiga} 3 C 3, L 3 Regras Candidatas: -itemsets Regras candidatas com dois itens com o seu valor de certeza: Conjunto de itens: {café, pão} Se café Então pão conf = 1,0 Se pão Então café conf = 0,6 Conjunto de itens: {café, manteiga} Se café Então manteiga conf = 1,0 Se manteiga Então café conf = 0,6 Conjunto de itens: {pão, manteiga} Se pão Então manteiga conf = 0,8 Se manteiga Então pão conf = 0,

14 Regras Candidatas: 3-itemsets Regras candidatas com três itens com o seu valor de certeza: Conjunto de itens: {café, manteiga, pão} Se café, manteiga Então pão conf = 1,0 Se café, pão Então manteiga conf = 1,0 Se manteiga, pão Então café conf = 0,75 Se café Então manteiga, pão conf = 1,0 Se manteiga Então café, pão conf = 0,6 Se pão Então café, manteiga conf = 0,6 Padrões Descobertos Padrões descobertos, minsup = 0,3 e minconf = 0,8: Se café Então pão conf = 1,0 Se café Então manteiga conf = 1,0 Se café, manteiga Então pão conf = 1,0 Se café, pão Então manteiga conf = 1,0 Se café Então manteiga, pão conf = 1,0 Se pão Então manteiga conf = 0,8 Se manteiga Então pão conf = 0,8 Total de Regras e Total de Itemsets? d R 3 d Itemsets d Teste: Formato ARFF Apriori no Weka 81 8 Aprendizado Indutivo Parte IV Agrupamento: Conceitos, Métodos e Métricas de Avaliação 84 14

15 Classificação x Agrupamento Classificação x Agrupamento Classificação Aprendizado Supervisionado Amostras de treinamento são classificadas Número de Classes é conhecido Aprendizado por Exemplo Agrupamento/Clusterização Aprendizado Não Supervisionado Aprendizado por Observação Clustering/Agrupamento: Conceito O que é formação de agrupamentos? A partir de um conjunto de dados (de objetos), tentar agrupá-los de forma que os elementos que compõem cada grupo sejam mais parecidos entre si do que parecidos com os elementos dos outros grupos Colocar os objetos iguais (ou quase iguais) juntos num mesmo grupo e os desiguais em grupos distintos Dado um conjunto de objetos, colocar os objetos em grupos baseados na similaridade entre eles Inerentemente é um problema bem definido? Como agrupar os seguintes animais? Água Terra Com Ave bico Sem Mamífero bico Medidas de Similaridade Medidas de similaridade fornecem valores numéricos que expressam a distância entre dois objetos Quanto menor o valor desta distância, mais semelhantes serão os objetos, e tenderão a ficar no mesmo cluster Quanto maior a distância, menos similares serão os objetos e, em consequência, eles deverão estar em grupos distintos 89 Medidas de Similaridade Variáveis numéricas: Distancia Euclidiana é a medida que é normalmente usada para computar as dissimilaridades de objetos descritos por variáveis numéricas Normalização: Faz com que todas as variáveis tenham um peso igual Deve ser efetuada para todos os atributos 90 15

16 Tamanho (y) Distância Euclidiana Taxonomia de Agrupamento d( X i, X j ) ( ( X ik X n k1 jk ) ),5 Sejam os objetos A(1, 1) e B(3, ): d( A, B) (31) ( 1),3 1,5 1 0,5 A B k-means ou k-médias - MacQueen, 1967 Algoritmo k-means Abordagem por particionamento Cada cluster está associado a um centróide (ponto central) Cada ponto é associado ao cluster cujo centróide está mais próximo Número de clusters, K, precisa ser especificado O algoritmo básico é bem simples Sim Não Exemplo k-means Iteração 0 Classe da Planta Iris Setosa Ponto Atributo 1 (X): largura Atributo (Y): tamanho A B Iteração 0 C D Iris Virginica C D A B K =, sendo os pontos A e B os centróides iniciais Usar a Distância Euclidiana 0 0 0,5 1 1,5,5 3 Largura (X)

17 Tamanho (y) Tamanho (y) Iteração 1 Iteração 6 Iteração 1 6 Iteração ,5 1 1,5,5 3 Largura (X) 0 0 0,5 1 1,5,5 3 Largura (X) Agrupamento Classe da Planta Iris Setosa Iris Virginica Atributo 1 (X): largura Atributo (Y): tamanho Grupo Iris Dados Iris k-means

18 Cluster = Cluster =

19 Mineração Base de Dados MySQL Parte V Mineração de Dados em um SGBD 110 Base de Dados: Tabela Conexão com BD Weka Não é tão óbvio assim!!! Arquivos Necessários (1/3) Arquivos Necessários (/3) API do Weka Extrair o arquivo DatabaseUtils.props.mysql localizado em weka\experiment\ Driver JDBC do MySQL Renomear este arquivo para DatabaseUtils.props Editar o DRIVER e o BD

20 Arquivos Necessários (3/3) Conexão com BD Weka Criar arquivo.bat para executar o Weka Arquivo RunWeka.bat java -cp mysql-connector-java bin.jar;weka.jar weka.gui.guichooser Agora sim!!! Material do Minicurso Bibliografia Básica Material Minicurso MD Week-IT HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. nd ed. San Francisco, CA: Morgan Kaufmann, p. TAN, P-N.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining. Rio de Janeiro: Ciência Moderna, p. WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques. nd ed. San Francisco, CA: Morgan Kaufmann, p Bibliografia Complementar II Semana de Tecnologia da Informação SANTOS, R. Weka na munheca Disponível em: < Acesso em: 7 maio 014. IFBA Campus Vitória da Conquista 7 a 30 de maio de 014 WIKISPACES. Use WEKA in your Java code Disponível em: < +code>. Acesso em: 7 maio 014. Mineração de Dados com a Ferramenta Weka WEKA. Data mining with open source machine learning software in Java. Disponível em: < Acesso em: 7 maio 014. DEVMEDIA. Revista SQL Magazine. Prof. MSc Pablo Freire Matos Informática - Instituto Federal da Bahia (IFBA) pablofmatos@gmail.com 119 0

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 14 Regras de Associação Max Pereira Regras de Associação Motivação O que é geralmente comprado junto com o produto x? Que pares de produtos são comprados juntos?

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer

WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer II Semana de Tecnologia da Informação IFBA Campus Vitória da Conquista 27 a 30 de maio de 2014 WEKA: The bird Ferramenta Weka Waikato Environment for Knowledge Analysis Prof. MSc Pablo Freire Matos Informática

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação Classificação: Definição Mineração de dados Classificação: conceitos básicos e árvores de decisão Apresentação adaptada do material de apoio do livro: Introduction to Data Mining Tan, Steinbach, Kumar

Leia mais

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Curso de Data Mining

Curso de Data Mining Curso de Data Mining Sandra de Amo Aula 2 - Mineração de Regras de Associação - O algoritmo APRIORI Suponha que você seja gerente de um supermercado e esteja interessado em conhecer os hábitos de compra

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Exemplo: vendas casadas Sei que quem compra A também compra B. Mineração de Dados. Técnicas de Associação. prof. Luis Otavio Alvares

Exemplo: vendas casadas Sei que quem compra A também compra B. Mineração de Dados. Técnicas de Associação. prof. Luis Otavio Alvares Mineração de Dados Técnicas de Associação Exemplo: vendas casadas Sei que quem compra A também compra B. Apresentação adaptada do material do livro: Introduction to Data Mining Tan, Steinbach e Kumar PRODUTO

Leia mais

Aprendizagem de Máquina. Ivan Medeiros Monteiro

Aprendizagem de Máquina. Ivan Medeiros Monteiro Aprendizagem de Máquina Ivan Medeiros Monteiro Definindo aprendizagem Dizemos que um sistema aprende se o mesmo é capaz de melhorar o seu desempenho a partir de suas experiências anteriores. O aprendizado

Leia mais

Regras de Associação. Roteiro da Aula. Exemplos de perguntas a responder. Motivação e Relevância. Motivação e relevância. Regras de associação:

Regras de Associação. Roteiro da Aula. Exemplos de perguntas a responder. Motivação e Relevância. Motivação e relevância. Regras de associação: Roteiro da Aula Regras de Associação Stanley Robson de M. Oliveira Motivação e relevância. Regras de associação: Definição e exemplos; Conceitos básicos. Geração de regras de associação: Complexidade Problemas

Leia mais

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um

Leia mais

Algoritmos Indutores de Árvores de

Algoritmos Indutores de Árvores de Algoritmos Indutores de Árvores de Decisão Fabrício J. Barth Sistemas Inteligentes Análise e Desenvolvimento de Sistemas Faculdades de Tecnologia Bandeirantes Abril de 2013 Problema: Diagnóstico para uso

Leia mais

Ambiente Weka Waikato Environment for Knowledge Analysis

Ambiente Weka Waikato Environment for Knowledge Analysis Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Ambiente Weka Waikato Environment for Knowledge Analysis Classificação

Leia mais

Clustering: K-means and Aglomerative

Clustering: K-means and Aglomerative Universidade Federal de Pernambuco UFPE Centro de Informática Cin Pós-graduação em Ciência da Computação U F P E Clustering: K-means and Aglomerative Equipe: Hugo, Jeandro, Rhudney e Tiago Professores:

Leia mais

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012 Data Mining Software Weka Prof. Luiz Antonio do Nascimento Software Weka Ferramenta para mineração de dados. Weka é um Software livre desenvolvido em Java. Weka é um É um pássaro típico da Nova Zelândia.

Leia mais

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o DATABASE MARKETING No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o empresário obter sucesso em seu negócio é

Leia mais

Web Data mining com R: aprendizagem de máquina

Web Data mining com R: aprendizagem de máquina Web Data mining com R: aprendizagem de máquina Fabrício Jailson Barth Faculdade BandTec e VAGAS Tecnologia Junho de 2013 Sumário O que é Aprendizagem de Máquina? Hierarquia de aprendizado. Exemplos de

Leia mais

Probabilidade. Contagem

Probabilidade. Contagem Probabilidade Contagem Problema da Contagem no Estudo da Probabilidade Conforme definição clássica, podemos determinar uma probabilidade calculando a relação entre o total de eventos de sucesso e o total

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA Marcelo DAMASCENO(1) (1) Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte/Campus Macau, Rua das Margaridas, 300, COHAB, Macau-RN,

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto Estudos Comparativos Recentes - Behavior Scoring Roteiro Objetivo Critérios de Avaliação

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

Data Mining: Ferramenta JAVA

Data Mining: Ferramenta JAVA Data Mining: Ferramenta JAVA JAVA para Data Mining Weka 3: Data Mining Software em Java http://www.cs.waikato.ac.nz/ml/weka/ Coleção de algoritmos para as tarefas de data mining; Free software. WEKA: JAVA

Leia mais

EXERCÍCIOS EXERCÍCIOS. Definições Básicas. Definições Básicas. Definições Básicas. Introdução à Estatística. Dados: valores de variáveis observadas.

EXERCÍCIOS EXERCÍCIOS. Definições Básicas. Definições Básicas. Definições Básicas. Introdução à Estatística. Dados: valores de variáveis observadas. Definições Básicas Introdução à Estatística ESTATÍSTICA: estudo dos métodos para coletar, organizar, apresentar e analisar dados. População: conjunto constituído por todos os indivíduos que apresentem

Leia mais

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha WCGE II Workshop de Computação Aplicada em Governo Eletrônico Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini

Leia mais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI Fernando Luiz de Oliveira 1 Thereza Patrícia. P. Padilha 1 Conceição A. Previero 2 Leandro Maciel Almeida 1 RESUMO O processo

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 12 Aprendizado de Máquina Agentes Vistos Anteriormente Agentes baseados em busca: Busca cega Busca heurística Busca local

Leia mais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO EPE0147 UTILIZAÇÃO DA MINERAÇÃO DE DADOS EM UMA AVALIAÇÃO INSTITUCIONAL

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca

Leia mais

Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP

Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP Regras de Associação A compra de um produto quando um outro produto é comprado representa uma Regra de Associação Regras de Associação são frequentemente utilizadas para apoiar campanhas de marketing e

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

5 Extraindo listas de produtos em sites de comércio eletrônico

5 Extraindo listas de produtos em sites de comércio eletrônico 5 Extraindo listas de produtos em sites de comércio eletrônico Existem diversos trabalhos direcionadas à detecção de listas e tabelas na literatura como (Liu et. al., 2003, Tengli et. al., 2004, Krüpl

Leia mais

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR Uma exploração preliminar dos dados para compreender melhor suas características. Motivações-chave da exploração de dados incluem Ajudar na seleção da técnica correta para pré-processamento ou análise

Leia mais

Paralelização do algoritmo SPRINT usando MyGrid

Paralelização do algoritmo SPRINT usando MyGrid Paralelização do algoritmo SPRINT usando MyGrid Juliana Carvalho, Ricardo Rebouças e Vasco Furtado Universidade de Fortaleza UNIFOR juliana@edu.unifor.br ricardo@sspds.ce.gov.br vasco@unifor.br 1. Introdução

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Análise de Associação. Mineração de Regras de Associação

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Análise de Associação. Mineração de Regras de Associação SCC0173 Mineração de Dados Biológicos Mineração de Regras de Associação Prof. Ricardo J. G. B. Campello Créditos Parte deste material consiste de adaptações e extensões dos originais: gentilmente cedidos

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados Algoritmos Genéticos em Mineração de Dados Descoberta de Conhecimento Descoberta do Conhecimento em Bancos de Dados Processo interativo e iterativo para identificar padrões válidos, novos, potencialmente

Leia mais

A Grande Importância da Mineração de Dados nas Organizações

A Grande Importância da Mineração de Dados nas Organizações A Grande Importância da Mineração de Dados nas Organizações Amarildo Aparecido Ferreira Junior¹, Késsia Rita da Costa Marchi¹, Jaime Willian Dias¹ ¹Universidade Paranaense (Unipar) Paranavaí PR Brasil

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

I.3 Indução de Árvores de Decisão

I.3 Indução de Árvores de Decisão I.3 Indução de Árvores de Decisão Nesta seção serão apresentados alguns conceitos básicos da técnica de indução de árvores de decisão a partir de um exemplo sobre o efeito dos raios solares sobre algumas

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais

Hierarquia de modelos e Aprendizagem de Máquina

Hierarquia de modelos e Aprendizagem de Máquina Hierarquia de modelos e Aprendizagem de Máquina Fabrício Jailson Barth BandTec Maio de 2015 Sumário Introdução: hierarquia de modelos e aprendizagem de máquina. O que é Aprendizagem de Máquina? Hierarquia

Leia mais

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento

Leia mais

Web Data Mining com R

Web Data Mining com R Web Data Mining com R Fabrício J. Barth fabricio.barth@gmail.com VAGAS Tecnologia e Faculdade BandTec Maio de 2014 Objetivo O objetivo desta palestra é apresentar conceitos sobre Web Data Mining, fluxo

Leia mais

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3. Definição de Data Mining (DM) Mineração de Dados (Data Mining) Doutorado em Engenharia de Produção Michel J. Anzanello Processo de explorar grandes quantidades de dados à procura de padrões consistentes

Leia mais

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado Alessandro Ferreira Brito 1, Rodrigo Augusto R. S. Baluz 1, Jean Carlo Galvão Mourão 1, Francisco das Chagas Rocha 2

Leia mais

Espaço Amostral ( ): conjunto de todos os

Espaço Amostral ( ): conjunto de todos os PROBABILIDADE Espaço Amostral (): conjunto de todos os resultados possíveis de um experimento aleatório. Exemplos: 1. Lançamento de um dado. = {1,, 3, 4,, 6}. Doador de sangue (tipo sangüíneo). = {A, B,

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala [quinta-feira, 7:30 12:00] Atendimento Segunda

Leia mais

Extração de Conhecimento a partir dos Sistemas de Informação

Extração de Conhecimento a partir dos Sistemas de Informação Extração de Conhecimento a partir dos Sistemas de Informação Gisele Faffe Pellegrini & Katia Collazos Grupo de Pesquisa em Eng. Biomédica Universidade Federal de Santa Catarina Jorge Muniz Barreto Prof.

Leia mais

Módulo 4: Gerenciamento de Dados

Módulo 4: Gerenciamento de Dados Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não

Leia mais

Introdução a Sistemas Inteligentes

Introdução a Sistemas Inteligentes Introdução a Sistemas Inteligentes Noções de Preparação de Dados e Mineração de Regras de Associação Prof. Ricardo J. G. B. Campello ICMC / USP Créditos Parte deste material consiste de adaptações e extensões

Leia mais

Resultados Experimentais

Resultados Experimentais Capítulo 6 Resultados Experimentais Este capítulo é dedicado às avaliações experimentais do sistema CBIR. Os experimentos aqui realizados têm três objetivos principais: comparar os nossos resultados com

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Mining Os métodos tradicionais de Data Mining são: Classificação Associa ou classifica um item a uma ou várias classes categóricas pré-definidas.

Leia mais

Projeto de Redes Neurais e MATLAB

Projeto de Redes Neurais e MATLAB Projeto de Redes Neurais e MATLAB Centro de Informática Universidade Federal de Pernambuco Sistemas Inteligentes IF684 Arley Ristar arrr2@cin.ufpe.br Thiago Miotto tma@cin.ufpe.br Baseado na apresentação

Leia mais

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS Sumário Conceitos / Autores chave... 3 1. Introdução... 3 2. Tarefas desempenhadas por Técnicas de 4 Mineração de Dados...

Leia mais

3 Market Basket Analysis - MBA

3 Market Basket Analysis - MBA 2 Mineração de Dados 3 Market Basket Analysis - MBA Market basket analysis (MBA) ou, em português, análise da cesta de compras, é uma técnica de data mining que faz uso de regras de associação para identificar

Leia mais

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR Novell Teaming - Guia de início rápido Novell Teaming 1.0 Julho de 2007 INTRODUÇÃO RÁPIDA www.novell.com Novell Teaming O termo Novell Teaming neste documento se aplica a todas as versões do Novell Teaming,

Leia mais

srbo@ufpa.br www.ufpa.br/srbo

srbo@ufpa.br www.ufpa.br/srbo CBSI Curso de Bacharelado em Sistemas de Informação BI Prof. Dr. Sandro Ronaldo Bezerra Oliveira srbo@ufpa.br www.ufpa.br/srbo Tópicos Especiais em Sistemas de Informação Faculdade de Computação Instituto

Leia mais

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS Leonardo Meneguzzi 1 ; Marcelo Massoco Cendron 2 ; Manassés Ribeiro 3 INTRODUÇÃO

Leia mais

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS

AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS AVALIAÇÃO COMPARATIVA DE ALGORITMOS PARA SISTEMAS DE RECOMENDAÇÃO EM MÚLTIPLOS DOMÍNIOS: MODELOS INTERPRETÁVEIS APLICADOS A DADOS EDUCACIONAIS Hugo Marques Casarini Faculdade de Engenharia de Computação

Leia mais

Ciência dos Dados. bruno.domingues@intel.com. Preparado por Intel Corporation Bruno Domingues Principal Architect. segunda-feira, 5 de agosto de 13

Ciência dos Dados. bruno.domingues@intel.com. Preparado por Intel Corporation Bruno Domingues Principal Architect. segunda-feira, 5 de agosto de 13 Ciência dos Dados Preparado por Intel Corporation Bruno Domingues Principal Architect bruno.domingues@intel.com Homem na Lua Software Data: 1969 64kb, 2kb, RAM, Fortran Tem que funcionar! Apolo XI Velocidade:

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir

Leia mais

Data Warehouse - DW ADM. MARTÍN GLASS CRA/MT 4742

Data Warehouse - DW ADM. MARTÍN GLASS CRA/MT 4742 Data Warehouse - DW Data Warehouse (Armazém de Dados) é um depósito integrado de informações, disponíveis para análise e para a construção de filtros de busca; Centraliza informações localizadas em diferentes

Leia mais

Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade

Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade Lista de Exercícios Tratamento de Incerteza baseado em Probabilidade 1) Explique o termo probabilidade subjetiva no contexto de um agente que raciocina sobre incerteza baseando em probabilidade. 2) Explique

Leia mais

Introdução. Capítulo 1

Introdução. Capítulo 1 Capítulo 1 Introdução Em computação, muitos problemas são resolvidos por meio da escrita de um algoritmo que especifica, passo a passo, como resolver um problema. No entanto, não é fácil escrever um programa

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS ISBN 978-85-61091-05-7 Encontro Internacional de Produção Científica Cesumar 27 a 30 de outubro de 2009 RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS Marcello Erick Bonfim 1

Leia mais

MLP (Multi Layer Perceptron)

MLP (Multi Layer Perceptron) MLP (Multi Layer Perceptron) André Tavares da Silva andre.silva@udesc.br Roteiro Rede neural com mais de uma camada Codificação de entradas e saídas Decorar x generalizar Perceptron Multi-Camada (MLP -

Leia mais

Exemplos de aplicação. Mineração de Dados 2013

Exemplos de aplicação. Mineração de Dados 2013 Exemplos de aplicação Mineração de Dados 2013 Luís Rato Universidade de Évora, 2013 Mineração de dados / Data Mining 1 Classificação: Definição Dado uma conjunto de registos (conjunto de treino training

Leia mais

Projetos. Universidade Federal do Espírito Santo - UFES. Mestrado em Informática 2004/1. O Projeto. 1. Introdução. 2.

Projetos. Universidade Federal do Espírito Santo - UFES. Mestrado em Informática 2004/1. O Projeto. 1. Introdução. 2. Pg. 1 Universidade Federal do Espírito Santo - UFES Mestrado em Informática 2004/1 Projetos O Projeto O projeto tem um peso maior na sua nota final pois exigirá de você a utilização de diversas informações

Leia mais

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE MÓDULO 6 INTRODUÇÃO À PROBBILIDDE Quando estudamos algum fenômeno através do método estatístico, na maior parte das vezes é preciso estabelecer uma distinção entre o modelo matemático que construímos para

Leia mais

Técnicas de Caixa Preta de Teste de Software

Técnicas de Caixa Preta de Teste de Software Técnicas de Caixa Preta de Teste de Software Na maioria de projetos de teste, o tempo para a realização dos mesmos sempre é curto e os números de testes a serem realizados nas aplicações são inúmeros.

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento) Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados? Ideias base Aprender com o passado Inferir

Leia mais

Mineração de Dados. Prof. Júlio Cesar Nievola Especialização em Inteligência Computacional PPGIA - PUCPR

Mineração de Dados. Prof. Júlio Cesar Nievola Especialização em Inteligência Computacional PPGIA - PUCPR Mineração de Dados PPGIA - PUCPR Agenda 1. Histórico 2. Definições e Características 3. Processo e Tarefas de DM 4. Pré-Processamento 5. Representação do Conhecimento 6. Principais Tarefas 7. Procedimentos

Leia mais

QUALITATIVA VARIÁVEL QUANTITATIVA

QUALITATIVA VARIÁVEL QUANTITATIVA NOMINAL ORDINAL QUALITATIVA VARIÁVEL QUANTITATIVA DISCRETA CONTÍNUA - Variável qualitativa nominal = valores que expressam atributos, sem nenhum tipo de ordem. Ex: cor dos olhos, sexo, estado civil, presença

Leia mais

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Cruzeiro SP 2008 FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Projeto de trabalho de formatura como requisito

Leia mais

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I! A utilização de escores na avaliação de crédito! Como montar um plano de amostragem para o credit scoring?! Como escolher as variáveis no modelo de credit

Leia mais

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões Classificação de imagens Autor: Gil Gonçalves Disciplinas: Detecção Remota/Detecção Remota Aplicada Cursos: MEG/MTIG Ano Lectivo: 11/12 Sumário Classificação da imagem (ou reconhecimento de padrões): objectivos

Leia mais

Web Data Mining com R: design de projetos para criação de modelos preditivos

Web Data Mining com R: design de projetos para criação de modelos preditivos Web Data Mining com R: design de projetos para criação de modelos preditivos Fabrício Jailson Barth Faculdade BandTec e VAGAS Tecnologia Junho de 2013 Sumário e Objetivos Etapas em estudos preditivos Escolha

Leia mais

Aula 5 Quadriláteros Notáveis

Aula 5 Quadriláteros Notáveis Aula 5 Quadriláteros Notáveis Paralelogramo Definição: É o quadrilátero convexo que possui os lados opostos paralelos. A figura mostra um paralelogramo ABCD. Teorema 1: Se ABCD é um paralelogramo, então:

Leia mais

O conhecimento é a nossa propaganda.

O conhecimento é a nossa propaganda. Conhecimentos geométricos II - Triângulos e Quadriláteros Lista de Exercícios 1 Gabaritos Comentados dos Questionários 01) (ENEM 2000) Um marceneiro deseja construir uma escada trapezoidal com 5 degraus,

Leia mais

Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining

Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining Clustering - agrupamento Baseado no capítulo 8 de Introduction to Data Mining de Tan, Steinbach, Kumar Clustering - agrupamento 1 O que é Clustering? Encontar grupos de objectos tal que os objectos dentro

Leia mais

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES Kelton Costa; Patricia Ribeiro; Atair Camargo; Victor Rossi; Henrique Martins; Miguel Neves; Ricardo Fontes. kelton.costa@gmail.com; patriciabellin@yahoo.com.br;

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

Laboratório de Mídias Sociais

Laboratório de Mídias Sociais Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais parte I Prof. Dalton Martins dmartins@gmail.com Gestão da Informação Universidade Federal de Goiás O que é Análise Textual? Análise

Leia mais

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA CURSO DE ESPECIALIZAÇÃO EM ANÁLISE DE AMBIENTE ELETROMAGNÉTICO CEAAE /2008 DISCIPLINA EE-09: Inteligência

Leia mais

Sistemas de Apoio à Decisão Árvores de decisão V 1.2, V.Lobo, EN/ISEGI, 2010

Sistemas de Apoio à Decisão Árvores de decisão V 1.2, V.Lobo, EN/ISEGI, 2010 V., V.Lobo, EN/ISEGI, O que é a árvore de decisão? Arvores de decisão Victor Lobo Algorítmo para tomar decisões (ou classificar) Modo de representar conhecimento Tem penas? Nós (testes, ou conceitos) Comprimento

Leia mais