MINERAÇÃO DE DADOS 1

Documentos relacionados
Inteligência Artificial

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Inteligência Artificial

Inteligência nos Negócios (Business Inteligente)

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Aprendizado de Máquina (Machine Learning)

KDD E MINERAÇÃO DE DADOS

KDD E MINERAÇÃO DE DADOS

Data Mining. O Processo de KDD. Mauricio Reis

Associações & Freqüentes

KDD, Mineração de Dados e Algoritmo Apriori

Mineração de Dados em Biologia Molecular

Data Mining. Rodrigo Leite Durães

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente)

Prof. Daniela Barreiro Claro

Inteligência nos Negócios (Business Inteligente)

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

Descoberta de Conhecimento em Bancos de Dados - KDD

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio

Evandro Deliberal Aula 01

Aula 03. Evandro Deliberal

Introdução ao Data Mining (Mineração de Dados)

Agenda. Conceitos Iniciais. Modelos de aprendizado. Oportunidades e casos de uso. Ferramentas. Desafios

Disciplina: SIG. Assunto: SIG

JOGOS DE EMPRESAS. MBA Administração e Gestão de Negócios. Valdick Sales Mestre

Universidade Federal do Paraná

Prof. Martius Vicente Rodriguez y Rodriguez, DSc.

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

Aprendizado de Máquina (Machine Learning)

Extração de Conhecimento & Mineração de Dados

Exemplo: vendas casadas Sei que quem compra A também compra B. Mineração de Dados. Técnicas de Associação. prof. Luis Otavio Alvares

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

Metodologia de Desenvolvimento de Sistemas Informação

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

DATA MINING. Prof. Fulvio Cristofoli. Mineração De Dados.

Regras Rudimentarias

Banco de Dados Data Mining Data Warehouse Big Data

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Introdução à Descoberta de Conhecimento e Mineração de Dados. Rodrigo Leite Durães.

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Clustering: k-means e Agglomerative

SEFAZ INFORMÁTICA Data Mining Prof. Márcio Hunecke

Aplicações de Sistemas Inteligentes

SBC - Sistemas Baseados em Conhecimento

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Microsoft Innovation Center

10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

Aprendizado de Máquina (Machine Learning)

Data Mining: Conceitos e Técnicas

Minerando regras de associação

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

ANALYTICS: Dados e Atenção

Aprendizagem de Máquinas

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Integração de Mineração de Dados com SGBD Detecção de Agrupamentos

Fundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados by Prentice Hall

BUSINESS INTELLIGENCE BI FERNANDO ESCOBAR, PMP, MSC.

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

Aprendizado de Máquina

Redes Neurais (Inteligência Artificial)

INF 1771 Inteligência Artificial

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Minerando Padrões Sequenciais para Bases de Dados de Lojas Virtuais

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Descoberta de conhecimento em redes sociais e bases de dados públicas

Aprendizado de Máquinas

Arquitetura de um Ambiente de Data Warehousing

Aprendizado de Máquina (Machine Learning)

Aula 13: Regras de Associação. Rafael Izbicki

A Inteligência Artificial no Auxílio de Tomadas de Decisão

Aula 02. Evandro Deliberal

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Arquitetura de um Ambiente de Data Warehousing

Introdução ao Data Mining. Sumário

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

KDD E MINERAÇÃO DE DADOS:

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Aula 02: Conceitos Fundamentais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. Disciplina: Laboratório de Data Warehouse e Business Intelligence Professor: Fernando Zaidan

MINERAÇÃO DE DADOS EM REDES COMPLEXAS

Aprendizado indutivo. Marcelo K. Albertini. 17 de Abril de 2014

Mineração de dados: Por que? O que é? O processo de descoberta de conhecimento. Tarefas de mineração: preditivas, descritivas

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

Inteligência nos Negócios (Business Inteligente)

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

VÁ ALÉM DO BI TRADICIONAL ADICIONANDO PODER ANALÍTICO... MARIANA FONTANEZI ESTATÍSTICA

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Arquitetura de um Ambiente de Data Warehousing

2COP229 Inteligência Computacional. Aula 3. Clusterização.

Transcrição:

MINERAÇÃO DE DADOS 1

CONCEITOS BÁSICOS CONHECIMENTO INFORMAÇÃO DADO 2

CONCEITOS BÁSICOS DADOS Os dados são elementos brutos, sem significado, desvinculados da realidade. São, segundo Davenport (1998, p. 19), "observações sobre o estado do mundo". São símbolos e imagens que não dissipam nossas incertezas. Eles constituem a matéria-prima da informação. Dados sem qualidade levam a informações e decisões da mesma natureza. Sendo o dado considerado a matéria-prima para a informação: o que são informações? 3

CONCEITOS BÁSICOS INFORMAÇÕES As informações são dados com significado. "São dados dotados de relevância e propósito" (Drucker apud Davenport, 1998, p.18). Elas são o resultado do encontro de uma situação de decisão com um conjunto de dados, ou seja, são dados contextualizados que visam a fornecer uma solução para determinada situação de decisão (MacDonough apud Lussato, 1991). A informação pode assim ser considerada como dados processados e contextualizados, mas para Sveiby (1998) a informação também é considerada como "desprovida de significado e de pouco valor", e Malhotra (1993) a considera como "a matériaprima para se obter conhecimento". 4

CONHECIMENTO CONCEITOS BÁSICOS Para Davenport (1998, p.19), o "conhecimento é a informação mais valiosa (...) é valiosa precisamente porque alguém deu à informação um contexto, um significado, uma interpretação (...)". O conhecimento pode então ser considerado como a informação processada pelos indivíduos. O valor agregado à informação depende dos conhecimentos anteriores desses indivíduos. Assim sendo, adquirimos conhecimento por meio do uso da informação nas nossas ações. Desta forma, o conhecimento não pode ser desvinculado do indivíduo; ele está estritamente relacionado com a percepção do mesmo, que codifica, decodifica, distorce e usa a informação de acordo com suas características pessoais, ou seja, de acordo com seus modelos mentais ou necessidade. 5

CONCEITOS BÁSICOS Exemplo Um carro BMW, último tipo, conversível, zero quilômetro, totalmente destruído em um acidente no qual o motorista bateu em uma árvore centenária derrubando-a pode ser codificado, decodificado e distorcido das seguintes maneiras. Algumas pessoas serão levadas a decodificar as informações baseadas em seus valores materiais: "Logo um carro tão caro! Será que ele está segurado? 6

CONCEITOS BÁSICOS Exemplo Enquanto outras pessoas, com valores humanos mais aguçados, terão seu foco no ser humano: "Será que o acidente resultou em feridos?" Outras pessoas com interesses ecológicos ainda terão suas atenções voltadas ao destino da árvore centenária: "Logo nesta árvore! Não poderia ter sido em uma outra?". 7

MAIS UM INGREDIENTE NA CONCEPÇÃO DA UTILIZAÇÃO DA INFORMAÇÃO 8

UM NOVO CONCEITO DADOS DADOS CONTEXTO INFORMAÇÃO INFORMAÇÃO EXPERIÊNCIA CONHECIMENTO CONHECIMENTO HABILIDADE COMPETÊNCIA 9

TOMADA DE DECISÕES Cadeia do Processo Decisório Decisão Competência Conhecimento Informação BI : OLAP, CRM, DATAWAREHOUSE, DATA MINING, etc; ERP, Sistemas Individuais Dados 10

HISTÓRICO Era da Inteligência Era das aplicações Era dos bancos de dados 1980 1990 2000 2010 11

A IMPORTÂNCIA DA INFORMAÇÃO 12

DUPLO PAGAMENTO O consumidor paga duas vezes por cada compra: A primeira com dinheiro e a segunda ao fornecer informação que vale dinheiro. Por exemplo, se o freguês pagar com cartão de crédito, é claro, que muita coisa é revelada. Agora o freguês também está fornecendo: (1) nome, (2) endereço e CEP, (3) informação sobre crédito, (4) base para inferir na renda familiar, e muitas coisas mais. A pergunta essencial que paira no ar é: Quem possui os dados sobre o freguês? E quando custa. 13

DUPLO PAGAMENTO O consumidor paga duas vezes por cada compra: A primeira com dinheiro e a segunda ao fornecer informação que vale dinheiro. Por exemplo, se o freguês pagar com cartão de crédito, é claro, que muita coisa é revelada. Agora o freguês também está fornecendo: (1) nome, (2) endereço e CEP, (3) informação sobre crédito, (4) base para inferir na renda familiar, e muitas coisas mais. A pergunta essencial que paira no ar é: Quem possui os dados sobre o freguês? E quando custa. 14

O PODER DA INFORMAÇÃO O maior capital das empresas não são mais os seus colaboradores. Mas sim, as suas informações. As informações passaram a ser os resultados de todas as ações operacionais que fazem a empresa funcionar. 15

OBTENDO INFORMAÇÕES Quais informações poderíamos obter em uma simples Nota Fiscal e que cruzamentos poderíamos fazer? 16

UMA NOTA FISCAL 17

UMA NOTA FISCAL 18

O QUE É MAIS IMPORTANTE? A INFORMAÇÃO! 19

REFLEXÃO... ADMINISTRAR BEM UM NEGÓCIO É ADMINISTRAR SEU FUTURO; E ADMINISTRAR SEU FUTURO É ADMINISTRAR INFORMAÇÕES ( Marion Harper Jr.) 20

REFLEXÃO O mundo não está interessado nas tempestades que você enfrentou, quer apenas saber se você trouxe o navio William Mac Fee E como você acha que as organizações pensam? 21

... Não estamos aqui para prever o futuro,mas sim para criar a certeza de tê-lo Peter Ferdinand Drucker E com quais ferramentas? 22

ESPÉCIES DE ORGANIZAÇÕES AS QUE FAZEM AS COISAS ACONTECEREM. AS QUE OBSERVAM AS COISAS ACONTECEREM. AS QUE PERGUNTAM O QUE ACONTECEU. 23

REFLEXÃO DIGA-ME, POR FAVOR, QUE CAMINHO DEVO TOMAR PARA SAIR DAQUI?, perguntou Alice. ISTO DEPENDE DE PARA ONDE VOCÊ QUER IR, disse o gato. NÃO FAZ DIFERENÇA PARA MIM, retrucou Alice. ENTÃO, NÃO FAZ DIFERENÇA QUE CAMINHO VOCÊ TOMA, respondeu-lhe o gato. ALICE NO PAÍS DAS MARAVILHAS Lewis Carroll 24

... Comentários? 25

NECESSIDADES DE UM GESTOR 26

NECESSIDADE DO GESTOR INFORMAÇÃO ANÁLISE DECISÃO AÇÃO VELOCIDADE RESULTADOS 27

Informação NECESSIDADE DO GESTOR QUANTO MAIOR A QUANTIDADE E QUALIDADE DAS INFORMAÇÕES DISPONÍVEIS, MAIS FÁCIL ACHARMOS ONDE ATUAR PARA ALCANÇARMOS NOSSOS OBJETIVOS. Análise QUANTO MAIS FÁCIL PUDERMOS MANIPULAR TAIS INFORMAÇÕES, PERMITINDO ESTUDAR CENÁRIOS POR DIFERENTES PERSPECTIVAS, MAIS CLARAS, FÁCEIS E FIÉIS SERÃO NOSSAS CONCLUSÕES. 28

NECESSIDADE DO GESTOR Decisão CONCLUSÕES EMBASADAS EM DADOS REAIS NOS LEVAM A TOMAR DECISÕES ASSERTIVAS, NA DIREÇÃO EXATA DE NOSSOS OBJETIVOS. Ação TAIS DECISÕES DEVEM SER IMPLANTADAS DE MANEIRA RÁPIDA E ABRANGENTE, SENDO TRANSFORMADAS EM AÇÕES. 29

NECESSIDADE DO GESTOR Velocidade AÇÕES QUE POR SUA VEZ DEVEM SER PROCESSADAS RAPIDAMENTE, COM QUALIDADE, EM QUANTIDADE E ABRANGÊNCIA. Resultados SÓ ASSIM CHEGAMOS AOS RESULTADOS POSITIVOS QUE BUSCAMOS. NÃO POR MÁGICA E SIM COMO CONSEQÜÊNCIA LÓGICA E NORMAL DE UM TRABALHO REALIZADO. 30

NECESSIDADES DO USUÁRIO 31

NECESSIDADES DO USUÁRIO Quero toda a Informação..." Informação Integrada Processo de Business Análise Retorno Gerado pelo Computador Medias Importantes Experiência out in 32

REFLEXÃO INFORMAÇÃO NÃO É FONTE DE PODER, É FONTE DE GESTÃO 33

NECESSIDADES CORPORATIVAS INFORMAÇÕES CONHECIMENTO Foco em Resultados BASE DE Métrica dos objetivos Estratégicos 34

Data Mining Mineração de Dados 35

Mineração de Dados 36

Mineração de Dados - Justificativa O volume de dados duplica a cada ano! 37

DM - MOTIVAÇÃO Os recursos de análise de dados tradicionais são inviáveis para acompanhar esta evolução e velocidade da Tecnologia da Informação em busca de conhecimento. Morrendo de sede por conhecimento em um oceano de dados 38

DATA MINING O que é? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (nãotrivial, implícita, previamente desconhecida e potencialmente útil) dos dados armazenados em grandes massas de dados conhecimento para tomada de decisão. 39

DATA MINING KDD Knowledge Discovery in Database Descoberta de Conhecimento em Banco de Dados 40

DATA MINING KDD é o processo, não trivial, de extração de informações, implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados [Frawley, Piatetsky-Shapiro & Matheus,1991] 41

DATA MINING Como identificar conhecimento em uma grande massa de dados: Padrões ( X acontece se...) Exceções (isto é diferente de... por causa de...) Tendências (ao longo do tempo, Y deve acontecer...) Correlações (se M acontece, N também deve acontecer) 42

DATA MINING O que é? Nomes alternativos: Descoberta (mineração) de conhecimento em banco de dados (KDD - Knowledge Discovery in Database ), extração de conhecimento, análise de dados/padrões, business intelligence, etc. O que não é data mining? Processamento de consultas dedutivo. Sistemas especialistas ou pequenos programas estatísticos ou de aprendizado de máquina. 43

DATA MINING - MOTIVAÇÃO Problema da explosão de dados Processo de tomada de decisão exige análise de grandes massas de dados Solução: Data Warehousing e Data Mining Data warehousing: Visão multidimensional dos dados para processamento OLAP Data mining: Extração de conhecimento interessante (regras, padrões, restrições) dos dados em grandes bases de dados. 44

DATA MINING - APLICAÇÕES Análise de dados e suporte a decisões Análise de mercado Marketing sob demanda, relação entre clientes, análise e segmentação de mercado, análise cruzada de dados, etc. Análise de risco Previsão, controle de qualidade, análise competitiva, análise de seguros Detecção de fraude Outras Aplicações Mineração de texto (news group, email, documentos XML) 45

DM ANÁLISE DE MERCADO Quais são as fontes de dados para Análise de Mercado? Transações de cartões de crédito, cartões de fidelidade, cupons de desconto, serviços de televendas, estudos de comportamento (questionários públicos, web, etc.) Marketing sob demanda Descobrir grupos de modelos de clientes que compartilham as mesmas características: interesses, hábitos de compras, etc. Determinar padrões de compras. Análise cruzada de dados. Associações/corelações entre vendas de produtos Previsão baseada nas associações determinadas 46

DM ANÁLISE DE MERCADO Preferências do Cliente Data mining pode mostrar que tipos de clientes compram que tipos de produtos (clustering ou classificação). Identificação das necessidades dos clientes Melhores produtos para diferentes clientes; Modelos de predição para descobrir que fatores vão atrair novos clientes Informações sumárias Relatórios multidimensionais e estatísticos 47

DATA MINING ANÁLISE DE RISCOS Planejamento de finanças e orçamento Análise e predição de fluxo de caixa Análise de contingência para provisão de bens Análise de séries temporais Planejamento de recursos: Resume e compara os recursos e os gastos Competição: Monitorar concorrentes e direções de mercado Agrupar clientes em classes e elaborar métodos para ajustar preços competitivos com os concorrentes do mercado 48

DM DETECCÃO DE FRAUDES Aplicações Largamente usada em serviços de saúde, cartões de créditos, telecomunicações (fraude de ligações telefônicas), etc. Técnicas Dados históricos para construir modelos de comportamento fraudulentos e usar mineração de dados para identificar instâncias similares Exemplos Seguro de automóveis: detecta um grupo de pessoas que são potenciais coletores de sinistros Lavagem de dinheiro: detecta transações suspeitas de dinheiro Seguro de saúde: detecta pacientes profissionais e grupo de outores usados para receber seguro destes pacientes 49

DM DETECCÃO DE FRAUDES Detecção inapropriada de tratamento médico Comissão de Seguro de Saúde da Austrália identificou que em muitos casos os tratamentos não eram necessários (economia de $1milhão/ano). Detecção de fraudes telefônicas Modelo de ligações telefônicas: destino da ligação, duração, hora do dia, dia da semana. Análise de padrões que desviam do padrão esperado. 50

DM - DESCOBERTA DO CONHECIMENTO EM BD (KDD) INTERPRETAÇÃO/ AVALIAÇÃO CONHECIMENTO DATA MINING? PADRÕES TRANSFORMAÇÃO PRÉ-PROCESSAMENTO SELEÇÃO DADO PROCESSADO DADO TRANSFORMADO FAYYAD 1996 DADOS DADO ANALISADO 51

DM - DESCOBERTA DO CONHECIMENTO EM BD (KDD) 1 - SELEÇÃO 2 - PRÉ-PROCESSAMENTO (Limpeza + Enriquecimento) 3 - TRANSFORMAÇÃO 4 - MINERAÇÃO 5 - INTERPRETAÇÃO 4 5 Conhecimento 1 2 Dados Pré-processados 3 Dados Transformados Regras e Padrões Dados Dados Selecionados 52

DM - ETAPAS DO PROCESSO DE KDD Conhecer o domínio da aplicação. Conhecimento relevante e metas da aplicação Criar a base de dados alvo: seleção de dados Limpeza dos dados e pré-processamento: (até 60% do esforço!) Transformação dos dados: Contemplar propriedades importantes e dimensões. Escolha das funções do data mining sumarização, classificação, associação, clustering. Escolha dos algortimos de mineração Data mining: busca dos padrões de interesse Avaliação dos padrões descobertos e apresentação do conhecimento visualização, transformação, remoção de padrões redundantes, etc. Uso do conhecimento descoberto 53

DM - ETAPAS DO PROCESSO DE KDD Lógica Condicional Descoberta Afinidades e Associações Tendências e Variações Data Mining Modelagem de Prognóstico Resultado do Prognóstico Previsão Análise Prévia Detecção de Desvio Análise de Ligações 54

ARQUITETURA DE UM SISTEMA DE DATA MINING Graphical user interface Pattern evaluation Data cleaning & data integration Data mining engine Database or data warehouse server Databases Data Warehouse Filtering Knowledge-base 55

ALGUMAS TÉCNICAS DE MINERAÇÃO DE DADOS 56

TÉCNICAS DE MINERAÇÃO DE DADOS Classificação Descoberta de Regras de Associação Clustering 57

Mineração de Dados - Classificação Usamos o Indutor, como por exemplo uma Árvore de decisão (ID3, C4.5), para indicar classes para estes dados. Assumimos que dados desconhecidos próximos de dados conhecidos terão a mesma classe dos dados conhecidos. O processo pode ser avaliado se usarmos dados com classes conhecidas, fizermos a sua classificação e compararmos os resultados previstos com os obtidos. 58

Mineração de Dados - Classificação Classificação - REGRAS Regras possuem: antecedentes (condições) e conseqüentes (classe): SE COND1 E COND2 E... ENTÃO CLASSE(A) Condições relacionam valores dos atributos: Atributos : Cliente, Data Vencimento, Pagamento, Valor,... Relações: <, >, =,... 59

Mineração de Dados - Classificação Classificação REGRAS - Exemplo SE 06:00hs< hora_sinistro < 08:30hs E oficina oficinas_suspeitas E prêmio_seguro < R$ 2300 E registro_policial = NÃO E........... custo_sinistro > 2,4 prêmio_seguro ENTÃO FRAUDE 60

Mineração de Dados - Classificação Classificação - Exemplo Sexo País Idade Comprar M França 25 sim M Inglaterra 21 sim F Franca 23 sim F Inglaterra 34 sim F França 30 não M Alemanha 21 não M Alemanha 20 não F Alemanha 18 não F França 34 não M França 55 não 61

Mineração de Dados - Classificação Classificação SE (país = Alemanha ) ENTÃO (comprar= não ) Se (país = Inglaterra ) ENTÃO (comprar = sim ) SE (país = França E idade 25) ENTÃO (comprar = sim ) SE (país = França E idade > 25) ENTÃO (comprar = não ) 62

Mineração de Dados - Classificação Algoritmo ID3 [Quinlan 86] Passos para construção de uma árvore de decisão: 1. Seleciona um atributo como sendo o nodo raiz ; 2. Arcos são criados para todos os diferentes valores do atributo selecionado no passo 1; 3. Se todos os exemplos de treinamento sobre uma folha pertencerem a uma mesma classe, esta folha recebe o nome da classe. Se todas as folhas possuem uma classe, o algoritmo termina; 4. Senão, o nodo é determinado com um atributo que não ocorra no trajeto da raiz, e arcos são criados para todos os valores. O algoritmo retorna ao passo 3. 63

Mineração de Dados - Classificação Exemplo ID Salário Idade Tipo Emprego Classe 1 3.000 30 Autônomo B 2 4.000 35 Indústria B 3 7.000 50 Pesquisa C 4 6.000 45 Autônomo C 5 7.000 30 Pesquisa B 6 6.000 35 Indústria B 7 6.000 35 Autônomo A 8 7.000 30 Autônomo A 9 4.000 45 Indústria B Árvore de Decisão ou Árvore de Classificação Salário 5.000 5.000 B Idade 40 40 T.Empr. C Ind.,Pesq. Autônomo Regras de Classificação (Sal 5.000) Classe = B B A (Sal 5.000) (Idade 40) Classe = C (Sal 5.000) (Idade 40) (TEmpr = Autônomo) Classe = A (Sal 5.000) (Idade 40) ((TEmpr = Indústria) (TEmpr = Pesquisa)) Classe = B 64

Mineração de Dados - Classificação Algoritmo ID3: restrições O algoritmo ID3 não contempla todos os casos: Quando atributos forem numéricos? Esquemas de discretização. Identificação de categorias discretas em atributos numéricos (particionamento do atributo). Quando dados estiverem incompletos? Usar classe faltando. Substituir valores inexistentes (pré-processamento). Complexidade da árvore resultante Pruning (poda) Outros algoritmos: C4.5 / J4.8 65

Mineração de Dados Associação 66

Mineração de Dados - Associação Descoberta de Regras de Associação Regras de associação ou regras associativas têm a forma {X 1, X 2,..., X n } Y significando que se encontrarmos todos os itens X 1, X 2,..., X n numa transação, então temos uma boa chance de encontrar também Y. (Freitas,2000) 67

Mineração de Dados - Associação Precisamos de métricas que indiquem: Significância em uma associação: ela pode existir mas ser muito rara em uma base de dados (ex. Compra cerveja e fraldas). Suporte X Λ Y : número de casos que contém X e Y dividido pelo número total de registros. Confiança em uma associação: o antecedente pode ocorrer várias vezes na base de dados mas nem sempre com o mesmo conseqüente associado. Confiança X Λ Y : número de registros que contém X e Y dividido pelo número de registros que contém X. (Freitas,2000) 68

Mineração de Dados - Associação Descoberta de Regras de Associação dada a regra de associação X Y X implica Y se X então Y se compra X então compra Y, define-se (Freitas,2000) suporte = confiança = Número de registros com X e Y Número total de registros Número de registros com X e Y Número de registros com X Grau de Certeza 69

Mineração de Dados - Associação Tarefa é descobrir todas a regras de associação com suporte ao suporte mínimo (minsup) e confiança confiança mínima (minconf), definidas pelo usuário. (Freitas,2000) 70

Mineração de Dados - Associação Descoberta de Regras de Associação Cada registro corresponde a uma transação de um cliente, com itens assumindo valores binários (sim/não), indicando se o cliente comprou ou não o respectivo item. num leite café cerveja pão manteiga arroz feijão 1 não sim não sim sim não não 2 sim não sim sim sim não não 3 não sim não sim sim não não 4 sim sim não sim sim não não 5 não não sim não não não não 6 não não não não sim não não 7 não não não sim não não não 8 não não não não não não sim 9 não não não não não sim sim 10 não não não não não sim não (FREITAS & LAVINGTON 98) 71

Mineração de Dados - Associação Descoberta de Regras de Associação SE (café) ENTÃO (pão) SE (café) ENTÃO (manteiga) SE (pão) ENTÃO (manteiga) SE (manteiga) ENTÃO (pão) SE (café E pão) ENTÃO (manteiga) SE (café E manteiga) ENTÃO (manteiga) SE (café) ENTÃO (manteiga E manteiga) sup=0.3 conf.=1 sup=0.3 conf.=1 sup=0.4 conf.=0.8 sup=0.4 conf.=0.8 sup=0.3 conf.=1 sup=0.3 conf.=1 sup=0.3 conf.=1 (Freitas, 2000) 72

Mineração de Dados - Associação Algoritmos de regras de Associação AIS Apriori Apriori-Hybrid MiRABIT SETM Apriori -TID Dense Miner 73

TÉCNICAS DE MINERAÇÃO DE DADOS Algoritmo Apriori (1) Dado um limiar de suporte minsup, no primeiro passo encontre os itens que aparecem ao menos numa fração das transações igual a minsup. Este conjunto é chamado L 1, dos itens freqüentes. (2)Os pares dos itens em L 1 se tornam pares candidatos C 2 para o segundo passo. Os pares em C 2 cuja contagem alcançar minsup são os pares freqüentes L 2. (3) As trincas candidatas C 3 são aqueles conjuntos {A, B, C} tais que todos os {A, B}, {A, C} e {B, C} estão em L 2. No terceiro passo, conte a ocorrência das trincas em C 3 ; aquelas cuja contagem alcançar minconf são as trincas freqüentes, L 3. (4) Proceda da mesma forma para tuplas de ordem mais elevada, até os conjuntos se tornarem vazios. L i são os conjuntos freqüentes de tamanho i; C i+1 é o conjunto de tamanho i+1 tal que cada subconjunto de tamanho i está em L i. 74

TÉCNICAS DE MINERAÇÃO DE DADOS Algoritmo Apriori Conjunto de itens suporte {leite} 2 {café} 3 {cerveja} 2 {pão} 5 {manteiga} 5 {arroz} 2 {feijão} 2 C 1 L1 será os itens de C1 com suporte >= 3 (0,3) Conjunto de itens suporte {café} 3 {pão} 5 {manteiga} 5 L 1 75

TÉCNICAS DE MINERAÇÃO DE DADOS Algoritmo Apriori C 2, L 2 Os pares dos itens de L1 tornam-se Candidatos para o C2 Conjunto de itens suporte {café, pão} 3 {café, manteiga} 3 {pão, manteiga} 4 Conjunto de itens suporte {café, pão, manteiga} 3 C 3, L 3 76

TÉCNICAS DE MINERAÇÃO DE DADOS Algoritmo Apriori Regras candidatas com dois itens com o seu grau de certeza(confiança): Conjunto de itens: {café, pão} Se café Então pão conf = 1,0 Se pão Então café conf = 0,6 Conjunto de itens: {café, manteiga} Se café Então manteiga conf = 1,0 Se manteiga Então café conf = 0,6 Conjunto de itens: {pão, manteiga} Se pão Então manteiga conf = 0,8 Se manteiga Então pão conf = 0,8 77

TÉCNICAS DE MINERAÇÃO DE DADOS Algoritmo Apriori Regras candidatas com três itens com o seu valor de certeza: Conjunto de itens: {café, manteiga, pão} Se café, manteiga Então pão conf = 1,0 Se café, pão Então manteiga conf = 1,0 Se manteiga, pão Então café conf = 0,75 Se café Então manteiga, pão conf = 1,0 Se manteiga Então café, pão conf = 0,6 Se pão Então café, manteiga conf = 0,6 78

Mineração de Dados - Associação Descoberta de Regras de Associação Padrões descobertos, minsup = 0,3 e minconf = 0,8: Se café Então pão conf = 1,0 Se café Então manteiga conf = 1,0 Se pão Então manteiga conf = 0,8 Se manteiga Então pão conf = 0,8 Se café, manteiga Então pão conf = 1,0 Se café, pão Então manteiga conf = 1,0 Se café Então manteiga, pão conf = 1,0 79

Mineração de Dados Clustering Agrupamento 80

Mineração de Dados - Clustering Cluster É o resultado da identificação de um conjunto finito de categorias (ou grupos - clusters) que contêm objetos similares. Grupos esses que não são previamente definidos. 81

Mineração de Dados - Clustering Análise de Cluster Esta técnica agrupa informações homogêneas de grupos heterogêneos entre os demais e aponta o item que melhor representa cada grupo, permitindo, desta forma, que consigamos perceber a característica de cada grupo. Instintivamente as pessoas visualizam os dados segmentados em grupos discretos, como por exemplo, tipos de plantas ou animais. Na criação desses grupos discretos pode-se notar a similaridade dos objetos em cada grupo. GTI (2002) - Deborah R. Carvalho 82

Mineração de Dados - Clustering Análise de Cluster Marketing: ajuda na descoberta de grupos distintos de clientes, e uso deste conhecimento para criar campanhas dirigidas; Uso de terras: identificação de áreas de uso similar a partir de uma base de observação via satélite; Seguros: identificação de grupos de assegurados com alto custo de sinistro; Planejamento urbano: identificação de grupos de casa de acordo com seu tipo, valor e localização geográfica; Estudos sobre clientes: identificação dos tipos de clientes em função de pagamentos de duplicatas Meu Caso. 83

Mineração de Dados - Clustering O que é bom Clustering: Um bom método de agrupamento (clustering) deve produzir clusters de qualidade com: Alta similaridade intra-classe; Baixa similaridade inter-classes. A qualidade do resultado de um processo de clustering depende da medida de similaridade, do método utilizado e de sua implementação; A qualidade um um processo de clustering também deve ser avaliada pela sua habilidade de descobrir alguns ou todos os padrões escondidos (hidden patterns). 84

Mineração de Dados - Clustering Medida da qualidade do cluster Métrica de similaridade / dissimilaridade: expressa em termos de função de distância d(i, j) Existe uma função de qualidade que é uma medida da adequação de um cluster; Existem definições de funções de distância que são diferentes para variáveis intervalares, booleanas, categóricas e proporções; Pesos devem ser associados às variáveis baseados na aplicação e na semântica dos dados; É difícil definir suficientemente similar, pois tipicamente esta avaliação é subjetiva. 85

86 Similaridade entre objetos: distâncias q q p p q q j x i x j x i x j x i x j i d )... ( ), ( 2 2 1 1 Distância típica: de Minkowski; Onde i = (x i1, x i2,, x ip ) e j = (x j1, x j2,, x jp ) são vetores p-dimensionais e q é um inteiro positivo. Mineração de Dados - Clustering

87 Similaridade entre objetos: distâncias q =1: distância de Manhattan: q =2: distância euclidiana:... ), ( 2 2 1 1 p p j x i x j x i x j x i x j i d )... ( ), ( 2 2 2 2 2 1 1 p p j x i x j x i x j x i x j i d Mineração de Dados - Clustering

Mineração de Dados - Clustering O método k-means (k-médias) Dado k, o algoritmo k-means é implementado em quatro passos: 1. Partição dos objetos em k conjuntos não vazios; 2. Cálculo de pontos semente como os centróides (médias) dos clusters das partições correntes; 3. Assinalação de cada objeto ao cluster (centróide) mais próximo de acordo com a função de distância; 4. Retorno ao passo 2 até que não haja mais alterações de assinalação. 88

Mineração de Dados - Clustering O método k-means (k-médias) - Exemplo 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 89

Estudo de Caso Extração de conhecimento na base de clientes da Organização Arnon de Mello 90

Estudo de Caso - OAM Ferramentas Observadas Bayesialab KnowledgeMiner Miner3D Mineset 3.2 PolyAnalyst Weka WizRule WizWhy XpertRule 91

Estudo de Caso - OAM INTERPRETAÇÃO/ AVALIAÇÃO CONHECIMENTO DATA MINING? PADRÕES TRANSFORMAÇÃO PRÉ-PROCESSAMENTO SELEÇÃO DADOS SQL Server DADO ANALISADO DADO PROCESSADO DADO TRANSFORMADO Planilha EXCEL Filtros para os atributos: Cliente,Vencimento,Baixa, Valor FAYYAD 1996 92

Estudo de Caso - OAM 93

Estudo de Caso - OAM 94

MineSet - Tools Estudo de Caso - OAM 95

Estudo de Caso - OAM 96

Estudo de Caso - OAM Histograma Cliente X Clientes por quantidade de transações financeiras (Nº de Duplicatas) Cerca de 75% da carteira pagam até 21 dias de atraso Cliente Tipo A pagam entre 0 e 30 dias de atraso 97

Estudo de Caso - OAM Dispersão 98

Estudo de Caso - OAM Dispersão O cliente 105414 paga com mais de 360 dias de atraso e seu volume é de R$717.544 Requer providências imediatas. 99

Estudo de Caso - OAM Mapa 100

Estudo de Caso - OAM Classificação 101

Estudo de Caso - OAM Classificação Indutor: Àrvore de decisão 102

Classificação 103

Estudo de Caso - OAM Associação 104

Estudo de Caso - OAM O cliente 105414 se mantém na faixa de atraso em (241.5...360) Regra: Se for cliente 105414 paga com mais de 240 dias de atraso 105

Estudo de Caso - OAM Regra1: Se for cliente 108017 paga até 30 dias de atraso Regra2: Se for cliente 113009 paga no prazo (atraso = 0) 106

Estudo de Caso - OAM Clustering 107

Estudo de Caso - OAM Clustering 108

Estudo de Caso - OAM Clustering 109

Estudo de Caso - OAM Clustering 110