Parte I - Introdução. Agenda. Mineração de Dados com a Ferramenta Weka. Mineração de Dados: Por quê? O que é Mineração? Mineração de Dados: Por quê?

Transcrição

1 II Semana de Tecnologia da Informação IFBA Campus Vitória da Conquista 7 a 30 de maio de 014 Mineração de Dados com a Ferramenta Weka Prof. MSc Pablo Freire Matos Informática - Instituto Federal da Bahia (IFBA) pablofmatos@gmail.com Agenda I. Introdução Mineração de Dados Weka II. Conceitos, Métodos e Métricas de Avaliação Classificação Associação Agrupamento III. Mineração de Dados em um SGBD IV. Estudos de Caso Mineração de Dados: Por quê? Grandes volumes de dados disponíveis Parte I - Introdução Muitos dados, mas pouca informação Decisões são tomadas utilizando intuição Necessidade de transformar dados em informação útil 4 Mineração de Dados: Por quê? Frequentemente existe informação escondida nos dados que não é evidente de ser encontrada utilizando linguagens de consultas tradicionais Analistas humanos podem levar semanas para correlacionar e descobrir alguma informação útil dentro de uma grande massa de dados O que é Mineração? Extração de padrões interessantes ou conhecimento de um grande volume de dados Também conhecido como KDD (Knowledge Discovery in Databases) Boa parte dos dados nunca é analisado: cemitério de dados 5 6 1

2 O que é Mineração? O que é Mineração? Para a comunidade de BD e DW Para a comunidade de BI 7 8 O que é Mineração? O que é Mineração? Para a comunidade de AM e Estatística Estatística e IA AM e Reconhecimento de Padrões Mineração de Dados Banco de Dados 9 10 Tarefas de Mineração Predição MD Consiste na predição do valor de algum atributo de um caso baseado em exemplos de experiências passadas Predição Descrição Classificação O atributo a ser predito deve ser mapeado em uma classe conhecida Diagnóstico Médico Detecção de Fraude Classificação Regressão Agrupamento Associação Regressão O atributo a ser predito é um valor contínuo Previsão de valor de ações Estimativa de Validade de Medição 11 1

3 Descrição Caso Bank of America Identificação de propriedades e relações características em um conjunto de dados Agrupamento Grupos de dados com características similares Identificação de categorias de clientes Sugestão antes de colocar no carrinho de compras Associação Relações existentes entre valores de subconjuntos de atributos Sugestão após colocar no carrinho de compras O banco usou técnicas de MD para selecionar entre seus 36 milhões de clientes aqueles com menor risco de dar calote num empréstimo. A partir desses relatórios, enviou cartas oferecendo linhas de crédito para os correntistas cujos filhos tivessem entre 18 e 1 anos e, portanto, precisassem de dinheiro para ajudar os filhos a comprar o próprio carro, uma casa ou arcar com os gastos da faculdade. Resultado: em três anos, o banco lucrou 30 milhões de dólares Caso Walmart A empresa identificou um hábito curioso dos consumidores. Há cinco anos, ao procurar eventuais relações entre o volume de vendas e os dias da semana, o software de data mining apontou que, às sextas-feiras, as vendas de cervejas cresciam na mesma proporção que as de fraldas. Crianças bebendo cerveja? Não, uma investigação mais detalhada revelou que, ao comprar fraldas para seus bebês, os pais aproveitavam para abastecer o estoque de cerveja para o final de semana. Ambiente WEKA Experimento Linha de Comando Java API Explorer Workflow Weka: Explorer Base de Dados: ARFF

4 Base de Dados: CSV Base de Dados: SGBD CSV (Comma-separated values) 19 0 Conceitos Parte II Classificação: Conceitos, Métodos e Métricas de Avaliação Base de Exemplos Composta por exemplos contendo valores de atributos bem como a classe associada Conceitos Tipos de Atributos Exemplo (ou instância) Um exemplo descrito por certo número de atributos Um dia descrito por temperatura, umidade e situação das nuvens Atributo (ou característica) Uma característica mensurável de um exemplo A temperatura do dia Classe (ou rótulo) Atributo especial que descreve o conceito que se deseja aprender e poder fazer previsões a respeito Tipo de defeito de equipamento Nominais: categorias cor do cabelo: {loiro, ruivo, preto, branco, castanho} Ordinais: a ordem importa, mas o valor que representa cada categoria não é conhecido altura: {baixo, médio, alto, muito alto} Numéricos salário, temperatura Discreto x Contínuo número finito de estados normalmente representado por um número real 3 4 4

5 Base de Exemplos Classificação: Introdução Aparência Temperatura Umidade Vento Jogo Sol Quente 85 Falso Não Sol Quente 90 Verdadeiro Não Encoberto Quente 86 Falso Sim Chuvoso Agradavel 96 Falso Sim Chuvoso Frio 80 Falso Sim Chuvoso Frio 70 Verdadeiro Não Encoberto Frio 65 Verdadeiro Sim Sol Agradavel 95 Falso Não Sol Frio 70 Falso Sim Chuvoso Agradavel 80 Falso Sim Sol Agradavel 70 Verdadeiro Sim Encoberto Agradavel 90 Verdadeiro Sim Encoberto Quente 75 Falso Sim Chuvoso Agradavel Mineração de Dados com 91 a Ferramenta Verdadeiro Weka Não 5 Classificação Classificar um objeto (registro, amostra, exemplo) é determinar com que grupo de entidades, já classificadas anteriormente, esse objeto apresenta mais semelhanças É uma das técnicas mais utilizadas na mineração 6 Exemplos de Tarefas de Classificação Spam de Upgrade de Pacotes Concessão de Empréstimo Potenciais Assinantes 7 Classificação Supervisionada: Definição Dada uma coleção de registros (conjunto de treinamento) cada registro contém um conjunto de atributos, e um dos atributos é a classe Encontrar um modelo para determinar o valor do atributo classe em função dos valores de outros atributos Objetivo: definir a classe de novos registros O conjunto de dados é dividido em conjunto de treinamento (usado para gerar o modelo) e conjunto de teste Um conjunto de DADOS de teste é usado para avaliar o modelo Tid Attrib1 Attrib Attrib3 Class 1 Yes Large 15K No No Medium 100K No 3 No Small 70K No 4 Yes Medium 10K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 0K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib Attrib3 Class 11 No Small 55K? 1 Yes Medium 80K? 13 Yes Large 110K? 14 No Small 95K? 15 No Large 67K? Test Set Induction Deduction Learning algorithm Learn Model Apply Model A classe deve ser atribuída o mais corretamente possível 8 Model Métodos de Classificação Classificadores eager (espertos) A partir da amostragem inicial (conjunto de treinamento), constroem um modelo de classificação capaz de classificar novos registros Uma vez o modelo pronto, o conjunto de treinamento não é mais utilizado na classificação de novos objetos (registros) Árvores de Decisão Naïve Bayes e Redes Bayesianas Redes Neurais Regras de Decisão Máquinas de Vetores de Suporte (SVM) Classificadores lazy (preguiçosos) Cada novo registro é comparado com todo o conjunto de treinamento e é classificado segundo a classe do registro que é mais similar Método knn (k-nearest-neighbor) Case-Based Reasoning (CBR) Como criar uma Árvore de Decisão? Tid Attrib1 Attrib Attrib3 Class 1 Yes Large 15K No No Medium 100K No 3 No Small 70K No 4 Yes Medium 10K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 0K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib Attrib3 Class 11 No Small 55K? 1 Yes Medium 80K? 13 Yes Large 110K? Induction Deduction Tree Induction algorithm Learn Model Apply Model Model Decision Tree Outros Métodos Algoritmos Genéticos e Conjuntos Fuzzy 9 14 No Small 95K? 15 No Large 67K? Test Set 30 5

6 Método Árvore de Decisão Ordem dos Atributos: CasaPrópria, EstCivil, Rendim. atributos Método Árvore de Decisão Ordem dos Atributos: EstCivil, CasaPrópria, Rendim. Casa Mau Id própria EstCivil Rendim. Pagador 1 S Solteiro 15K NÃO N Casado 100K NÃO 3 N Solteiro 70K NÃO 4 S Casado 10K NÃO 5 N Divorc. 95K SIM 6 N Casado 60K NÃO 7 S Divorc. 0K NÃO 8 N Solteiro 85K SIM 9 N Casado 75K NÃO 10 N Solteiro 90K SIM Dados de Treinamento valores de atributos S NÃO NÃO CasaPr. Rendim. N EstCivil Solteiro, Divorc. <= 80K > 80K SIM Casado NÃO classe Modelo: Árvore de Decisão Casa Mau Id própria EstCivil Rendim. Pagador 1 S Solteiro 15K NÃO N Casado 100K NÃO 3 N Solteiro 70K NÃO 4 S Casado 10K NÃO 5 N Divorc. 95K SIM 6 N Casado 60K NÃO 7 S Divorc. 0K NÃO 8 N Solteiro 85K SIM 9 N Casado 75K NÃO 10 N Solteiro 90K SIM Casado NÃO EstCivil S Solteiro, Divorc. CasaPr. NÃO Rendim. <= 80K > 80K NÃO Pode haver mais de uma árvore para o mesmo conjunto de dados!!! N SIM 31 3 Testando o Modelo Tid Attrib1 Attrib Attrib3 Class 1 Yes Large 15K No No Medium 100K No 3 No Small 70K No 4 Yes Medium 10K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 0K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Yes Training Set Tid Attrib1 Attrib Attrib3 Class 11 No Small 55K? Induction Tree Induction algorithm Learn Model Apply Model Model Decision Tree Aplicando o Modelo nos Dados de Teste Comece pela raiz da árvore S NÃO CasaPr. Rendim. N Solteiro, Divorc. EstCivil <= 80K > 80K Casado NÃO Dados para Teste Casa Estado Própria Civil Rendim. Mau pagador N Casado 80K? Atribua o valor NÃO à classe 1 Yes Medium 80K? 13 Yes Large 110K? Deduction NÃO SIM 14 No Small 95K? 15 No Large 67K? Test Set Como criar uma Árvore de Decisão? Algoritmo ID3 Algoritmos de Indução: Algoritmo de Hunt (um dos mais antigos) CART ID3, C4.5 SLIQ, SPRINT Seleção dos nodos Teoria da Informação de Shannon Conceitos de entropia e ganho de informação Entropia Quantidade necessária de informação para identificar a classe de um caso (incerteza / confusão) p1 p pn Entropia (S) (p1 log p log... pn log ) onde: S é o conjunto de amostras (registros) n é o número de valores possíveis da classe p i é a proporção de amostras da classe i em relação ao total de amostras

7 Entropia Entropia: Exemplos Considerando apenas valores possíveis da classe, a entropia é dada pela fórmula: P= (p; n) Onde: p Entropia (S) (p,n) ( log p n p é a quantidade de amostras positivas n é a quantidade de amostras negativas p pn n log p n n pn ) P = (0,5 ; 0,5) P = (0,67 ; 0,33) P = (1,0 ; 0,0) entropia(p) = 1 entropia(p) = 0,9 entropia(p) = 0,0 Exemplo: Se S é uma coleção de 14 exemplos com 9 instâncias positivas (classe=sim) e 5 negativas (classe=não), então, Entropia (S)=: = (9/14) Log (9/14) (5/14) Log (5/14) = ( 0,64* 0,6439) ( 0,36 * 1,4739) = 0,41 + 0,53 = 0, Ganho de Informação Exemplo Redução esperada da entropia ao utilizarmos um atributo na árvore Ganho (S, A) Entropia(S) - E (A) Onde: Ganho (S, A) é o ganho do atributo A sobre o conjunto S E (A) é o ganho esperado do atributo A do subconjunto Onde: v pi ni E (A) Entropia (pi ni) p n i1 p é a quantidade de amostras positivas do conjunto n é a quantidade de amostras negativas do conjunto p i é a quantidade de amostras positivas do subconjunto n i é a quantidade de amostras negativas do subconjunto Cria o modelo de classificação e utilize-o nos dados de teste Selecione o classificador ID3 e execute com os parâmetros default Compreenda a saída fornecida Métricas de Avaliação e Métodos de Particionamento Visualize a árvore gerada Exemplo de Treinamento AD: Modelo Construído Aparência Temperatura Umidade Vento Jogo Sol Quente Alta Falso Não Sol Quente Alta Verdadeiro Não Encoberto Quente Alta Falso Sim Chuvoso Agradavel Alta Falso Sim Chuvoso Frio Normal Falso Sim Chuvoso Frio Normal Verdadeiro Não Encoberto Frio Normal Verdadeiro Sim Sol Agradavel Alta Falso Não Sol Frio Normal Falso Sim Chuvoso Agradavel Normal Falso Sim Sol Agradavel Normal Verdadeiro Sim Encoberto Agradavel Alta Verdadeiro Sim Encoberto Quente Normal Falso Sim Chuvoso Agradavel Alta Verdadeiro Não

8 Treinamento: Formato ARFF AD: Modelo Construído (Weka) Save model Métricas - Avaliação de Desempenho Foco na capacidade preditiva do modelo E não no tempo que leva para classificar ou criar um modelo, na escalabilidade... Precisão e Revocação - Recuperação de Informação Elementos Recuperados FN VN Baseadas na Matriz de Confusão VP FP Classe prevista Sim Não Classe real Sim Não Verdadeiro Positivo (VP) Falso Positivo (FP) Falso Negativo (FN) Verdadeiro Negativo (VN) Nº de elementos relevantes recuperados Precisão Nº totalde elementos recuperados Nº de elementos relevantes recuperados Revocação Nº totalde elementos relevantes VP Precisão VP FP VP Revocação VP FN Precisão e Revocação Exemplo Relevantes = Tem-câncer Precisão e Revocação - Inteligência Artificial Irrelevantes = Não-tem-câncer Classe prevista Sim Não Classe real Sim 10 VP 30 FN Não 40 FP 310 VN Sim = Tem-câncer Não = Não-tem-câncer Precisão 0,75 Revocação 0, VP 10 VP 10 Precisão 0,75 Revocação 0, 8 VP FP 160 VP FN

9 Medida-F (F-Measure) Resumo Métricas - Avaliação de Desempenho Derivada por van Rijsbergen (1979) ¹ Baseada na medida de eficiência Medida F Medida F *Precisão * Revocação Medida F Precisão Revocação 0,775 *0,75*0,8 0,77 0,75 0,8 0,675 *0,45*0,9 0,6 0,45 0,9 Medida F 0,6 *0,3*0,9 0,45 0,3 0,9 ¹ VAN RIJSBERGEN, C. J. Information retrieval. nd ed. Butterworth-Heinemann, p. Taxa de VP : (Sensibilidade, Revocação, Recall) VP 100% VP FN VP Precisão: 100% VP FP F-measure:. precisão. recall precisão recall Classe real Classe prevista Sim Não Sim VP FN Não FP VN (Média harmônica entre precisão e recall) Métodos de Particionamento Métodos de Particionamento Holdout % p para treinamento p-1 para teste Holdout Cross-Validation Normalmente p>1/ Típico p = /3 Treinamento 67% Teste 33% Cross-Validation 51 5 Cross-Validation: Validação Cruzada 4-fold Cross-Validation: Exemplo Uso dos mesmos dados, repetidas vezes, divididos diferentemente Escolhidos aleatoriamente e exclusivos Conjunto de Exemplos subconj 1 subconj subconj 3 subconj 4 Treinamento k-1 Teste fold restante 3-fold Cross-Validation Modelo 1 treino subconj 1 treino subconj treino subconj 3 teste subconj 4 treino treino teste treino Modelo subconj 1 subconj subconj 3 subconj 4 Modelo 3 treino subconj 1 teste subconj treino subconj 3 treino subconj 4 Modelo 4 teste subconj 1 treino subconj treino subconj 3 treino subconj

10 AD: Modelo Construído (Weka) Exemplo de Teste Aparência Temperatura Umidade Vento Jogo Predição Sol Frio Alta Verdadeiro Sim Não Chuvoso Quente Normal Falso Sim Sim Encoberto Frio Alta Verdadeiro Não Sim Sol Quente Normal Verdadeiro Sim Sim Sol Agradavel Alta Falso Não Não Chuvoso Frio Normal Verdadeiro Não Não Chuvoso Frio Alta Falso Não Sim Encoberto Quente Normal Falso Sim Sim Salvar o modelo de novo? Sol Agradavel Normal Verdadeiro Sim Sim Chuvoso Agradavel Alta Verdadeiro Não Não Exemplo de Teste: Matriz de Confusão Métricas de Avaliação FN VN Precisão? VP 4 Precisão 0,67 VP FP 6 VP FP Recall? VP 4 Revocação 0,8 VP FN 5 Classe prevista F-Measure? P R 0,67 0,8 1,07 Revocação 0,73 P R 0,67 0,8 1,47 Classe real Sim Não Sim VP = 4 FP = Não FN = 1 VN = 3 Acurária? VP VN 7 Acurária 0,7 VP VN FN FP Teste: Formato ARFF AD: Exemplo Testado (Weka) Load model

11 Relembrando o Exemplo Cria o modelo de classificação e utilize-o nos dados de teste Selecione o classificador ID3 e execute com os parâmetros default Compreenda a saída fornecida Métricas de Avaliação e Métodos de Particionamento Parte III Associação: Conceitos, Métodos e Métricas de Avaliação Visualize a árvore gerada 61 Motivação Mineração de Regras de Associação Dado um conjunto de transações, encontre regras para a predição da ocorrência de itens baseado na ocorrência de outros itens na transação TID Itens 1 pão, leite pão, fralda, cerveja, ovos 3 leite, fralda, cerveja, coca 4 pão, leite, fralda, cerveja 5 pão, leite, fralda, coca Exemplos de Regras de Associação {fralda} {cerveja}, {leite, pão} {ovos, coca}, {cerveja, pão} {leite}, Implicação significa coocorrência, e não causa!!! Definições: Frequent Itemsets Itemset (conjunto de itens) Um conjunto de um ou mais items Exemplo: {leite, pão, fralda} k-itemset Um itemset com k itens Contador de Suporte () Frequência de ocorrência de um conjunto de itens (itemset) Ex: ({leite, pão}) = 3 Suporte (s) Fração das transações que contêm um itemset Ex: s({leite, pão, fralda}) = /5 Frequent Itemsets TID 1 pão, leite Um itemset cujo suporte é maior ou igual a um dado limite minsup Itens pão, fralda, cerveja, ovos 3 leite, fralda, cerveja, coca 4 pão, leite, fralda, cerveja 5 pão, leite, fralda, coca 65 Definição: Regra de Associação Regras de Associação: Uma expressão da forma X Y, onde X e Y são conjuntos disjuntos de itens Exemplo: {leite, fralda} {cerveja} (significado: quem compra leite e fralda também compra cerveja na mesma transação) Métricas de Avaliação das Regras: Suporte (s) Fração das transações que contêm X e Y Confiança (c) Mede a frequência com que Y aparece nas transações que contêm X TID 1 pão, leite Itens pão, fralda, cerveja, ovos 3 leite, fralda, cerveja, coca 4 pão, leite, fralda, cerveja 5 pão, leite, fralda, coca Exemplo: { leite,fralda} {cerveja} (leite,fralda, cerveja) s 0.4 T 5 (leite, fralda, cerveja) c 0.67 (leite,fralda)

12 Métricas de Avaliação das Regras Suporte de A, B, C número de transações que ocorrem A, B, C, D Total de Transações Confiança de A, B, C número de transações que ocorrem A, B, C, D número de transações que ocorrem A, B, C D D Mineração de Regras de Associação Objetivo da Mineração de Regras de Associação: Dado um conjunto de transações T, é encontrar todas as regras com suporte minsup confiança minconf Abordagem da Força Bruta: liste todas as possíveis regras de associação calcule o suporte e a confiança para cada regra corte as regras que não satisfazem minsup ou minconf Computacionalmente proibitivo! Problema: Número de Regras Geradas Considerando 4 itens: A, B, C e D, sem considerar suporte e confiança, podemos ter quantas regras? Conjunto Regras Possíveis Número de regras {AB} AB; BA {AC} AC; CA {AD} AD; DA {BC} BC; CB {BD} BD; DB {CD} CD; DC {ABC} ABC; BAC; CAB; BCA; ACB; ABC 6 {ABD} ABD; BAD; DAB; BDA; ADB; ABD 6 {ACD} ADC; DAC; CAD; DCA; ACD; ADC 6 {BCD} {ABCD} DBC; BDC; CDB; BCD; DCB; DBC ABCD; BACD; CABD; DABC; ABCD; ACBD; ADBC; BCAD; BDAC; CDAB; BCDA; ACDB; ABDC; ABCD; d R 3 d TID Minerando Regras de Associação 1 pão, leite Observações: Itens pão, fralda, cerveja, ovos 3 leite, fralda, cerveja, coca 4 pão, leite, fralda, cerveja 5 pão, leite, fralda, coca Exemplos de Regras: {leite,fralda} {cerveja} (s=0.4, c=0.67) {leite,cerveja} {fralda} (s=0.4, c=1.0) {fralda,cerveja} {leite} (s=0.4, c=0.67) {cerveja} {leite,fralda} (s=0.4, c=0.67) {fralda} {leite,cerveja} (s=0.4, c=0.5) {leite} {fralda,cerveja} (s=0.4, c=0.5) 1. Todas as regras acima são partições binárias do mesmo itemset: {leite, fralda, cerveja}. Regras originadas do mesmo itemset têm o mesmo suporte mas podem ter confianças diferentes 3. Então, podemos separar o suporte da confiança 70 Minerando Regras de Associação Reduzindo o Número de Candidatos Abordagem em dois passos: Geração dos Items frequentes (Etapa 1) gerar todos os itemsets com suporte minsup Geração das Regras (Etapa ) gerar regras de alta confiança para cada itemset, onde cada regra é um partição binária de um itemset frequente A geração dos conjuntos de items frequentes ainda é computacionalmente custosa Etapa 1 varre a base de dados Mais custosa Etapa não há a varredura da base de dados Princípio do Algoritmo Apriori: Se um itemset é frequente, então todos os seus subconjuntos também são frequentes Este princípio é devido a seguinte propriedade do suporte: X, Y J :( X Y) f ( X ) f ( Y) Se X for um subconjunto de Y, então f(x) não deve exceder f(y) Propriedade anti-monotônica da medida do suporte

13 Ilustrando o Princípio do Apriori O Algoritmo Apriori Conjunto de itens não frequentes null A B C D E AB AC AD AE BC BD BE CD CE DE ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE Conjuntos Podados ABCD ABCE ABDE ACDE BCDE ABCDE Método: seja k=1 Obtenha conjuntos frequentes de tamanho 1 Repita enquanto novos itemsets frequentes forem obtidos Obtenha itemsets candidatos de tamanho (k+1) a partir de itemsets de tamanho k (não inclua itemsets candidatos contendo subconjuntos de tamanho k infrequentes) Conte o suporte de cada candidato varrendo o BD Elimine candidatos não frequentes, deixando só os frequentes Exemplo: Descoberta Regras de Associação Itemsets Frequentes (1-itemsets) Dada a tabela abaixo onde cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item, descobrir todas as regras associativas com suporte >= 0,3 e grau de certeza (confiança) >= 0,8. TID leite café cerveja pão manteiga arroz feijão 1 não sim não sim sim não não sim não sim sim sim não não 3 não sim não sim sim não não 4 sim sim não sim sim não não 5 não não sim não não não não 6 não não não não sim não não 7 não não não sim não não não 8 não não não não não não sim 9 não não não não não sim sim 10 não não não não não sim não Conjunto de itens suporte {leite} {café} 3 {cerveja} {pão} 5 {manteiga} 5 {arroz} {feijão} C 1 1-itemsets Conjunto de itens suporte {café} 3 {pão} 5 {manteiga} 5 L Itemsets Frequentes: -itemsets e 3-itemsets -itemsets Conjunto de itens suporte {café, pão} 3 {café, manteiga} 3 {pão, manteiga} 4 C, L 3-itemsets Conjunto de itens suporte {café, pão, manteiga} 3 C 3, L 3 Regras Candidatas: -itemsets Regras candidatas com dois itens com o seu valor de certeza: Conjunto de itens: {café, pão} Se café Então pão conf = 1,0 Se pão Então café conf = 0,6 Conjunto de itens: {café, manteiga} Se café Então manteiga conf = 1,0 Se manteiga Então café conf = 0,6 Conjunto de itens: {pão, manteiga} Se pão Então manteiga conf = 0,8 Se manteiga Então pão conf = 0,

14 Regras Candidatas: 3-itemsets Regras candidatas com três itens com o seu valor de certeza: Conjunto de itens: {café, manteiga, pão} Se café, manteiga Então pão conf = 1,0 Se café, pão Então manteiga conf = 1,0 Se manteiga, pão Então café conf = 0,75 Se café Então manteiga, pão conf = 1,0 Se manteiga Então café, pão conf = 0,6 Se pão Então café, manteiga conf = 0,6 Padrões Descobertos Padrões descobertos, minsup = 0,3 e minconf = 0,8: Se café Então pão conf = 1,0 Se café Então manteiga conf = 1,0 Se café, manteiga Então pão conf = 1,0 Se café, pão Então manteiga conf = 1,0 Se café Então manteiga, pão conf = 1,0 Se pão Então manteiga conf = 0,8 Se manteiga Então pão conf = 0,8 Total de Regras e Total de Itemsets? d R 3 d Itemsets d Teste: Formato ARFF Apriori no Weka 81 8 Aprendizado Indutivo Parte IV Agrupamento: Conceitos, Métodos e Métricas de Avaliação 84 14

15 Classificação x Agrupamento Classificação x Agrupamento Classificação Aprendizado Supervisionado Amostras de treinamento são classificadas Número de Classes é conhecido Aprendizado por Exemplo Agrupamento/Clusterização Aprendizado Não Supervisionado Aprendizado por Observação Clustering/Agrupamento: Conceito O que é formação de agrupamentos? A partir de um conjunto de dados (de objetos), tentar agrupá-los de forma que os elementos que compõem cada grupo sejam mais parecidos entre si do que parecidos com os elementos dos outros grupos Colocar os objetos iguais (ou quase iguais) juntos num mesmo grupo e os desiguais em grupos distintos Dado um conjunto de objetos, colocar os objetos em grupos baseados na similaridade entre eles Inerentemente é um problema bem definido? Como agrupar os seguintes animais? Água Terra Com Ave bico Sem Mamífero bico Medidas de Similaridade Medidas de similaridade fornecem valores numéricos que expressam a distância entre dois objetos Quanto menor o valor desta distância, mais semelhantes serão os objetos, e tenderão a ficar no mesmo cluster Quanto maior a distância, menos similares serão os objetos e, em consequência, eles deverão estar em grupos distintos 89 Medidas de Similaridade Variáveis numéricas: Distancia Euclidiana é a medida que é normalmente usada para computar as dissimilaridades de objetos descritos por variáveis numéricas Normalização: Faz com que todas as variáveis tenham um peso igual Deve ser efetuada para todos os atributos 90 15

16 Tamanho (y) Distância Euclidiana Taxonomia de Agrupamento d( X i, X j ) ( ( X ik X n k1 jk ) ),5 Sejam os objetos A(1, 1) e B(3, ): d( A, B) (31) ( 1),3 1,5 1 0,5 A B k-means ou k-médias - MacQueen, 1967 Algoritmo k-means Abordagem por particionamento Cada cluster está associado a um centróide (ponto central) Cada ponto é associado ao cluster cujo centróide está mais próximo Número de clusters, K, precisa ser especificado O algoritmo básico é bem simples Sim Não Exemplo k-means Iteração 0 Classe da Planta Iris Setosa Ponto Atributo 1 (X): largura Atributo (Y): tamanho A B Iteração 0 C D Iris Virginica C D A B K =, sendo os pontos A e B os centróides iniciais Usar a Distância Euclidiana 0 0 0,5 1 1,5,5 3 Largura (X)

17 Tamanho (y) Tamanho (y) Iteração 1 Iteração 6 Iteração 1 6 Iteração ,5 1 1,5,5 3 Largura (X) 0 0 0,5 1 1,5,5 3 Largura (X) Agrupamento Classe da Planta Iris Setosa Iris Virginica Atributo 1 (X): largura Atributo (Y): tamanho Grupo Iris Dados Iris k-means

18 Cluster = Cluster =

19 Mineração Base de Dados MySQL Parte V Mineração de Dados em um SGBD 110 Base de Dados: Tabela Conexão com BD Weka Não é tão óbvio assim!!! Arquivos Necessários (1/3) Arquivos Necessários (/3) API do Weka Extrair o arquivo DatabaseUtils.props.mysql localizado em weka\experiment\ Driver JDBC do MySQL Renomear este arquivo para DatabaseUtils.props Editar o DRIVER e o BD

20 Arquivos Necessários (3/3) Conexão com BD Weka Criar arquivo.bat para executar o Weka Arquivo RunWeka.bat java -cp mysql-connector-java bin.jar;weka.jar weka.gui.guichooser Agora sim!!! Material do Minicurso Bibliografia Básica Material Minicurso MD Week-IT HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. nd ed. San Francisco, CA: Morgan Kaufmann, p. TAN, P-N.; STEINBACH, M.; KUMAR, V. Introdução ao Data Mining. Rio de Janeiro: Ciência Moderna, p. WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and Techniques. nd ed. San Francisco, CA: Morgan Kaufmann, p Bibliografia Complementar II Semana de Tecnologia da Informação SANTOS, R. Weka na munheca Disponível em: < Acesso em: 7 maio 014. IFBA Campus Vitória da Conquista 7 a 30 de maio de 014 WIKISPACES. Use WEKA in your Java code Disponível em: < +code>. Acesso em: 7 maio 014. Mineração de Dados com a Ferramenta Weka WEKA. Data mining with open source machine learning software in Java. Disponível em: < Acesso em: 7 maio 014. DEVMEDIA. Revista SQL Magazine. Prof. MSc Pablo Freire Matos Informática - Instituto Federal da Bahia (IFBA) pablofmatos@gmail.com 119 0