Data Mining. O Processo de KDD. Mauricio Reis

Documentos relacionados
KDD E MINERAÇÃO DE DADOS

KDD E MINERAÇÃO DE DADOS

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

SBC - Sistemas Baseados em Conhecimento

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Descoberta de Conhecimento em Bancos de Dados - KDD

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

KDD E MINERAÇÃO DE DADOS

Extração de Conhecimento & Mineração de Dados

ANALYTICS: Dados e Atenção

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

KDD, Mineração de Dados e Algoritmo Apriori

KDD E MINERAÇÃO DE DADOS:

Banco de Dados Data Mining Data Warehouse Big Data

Data Mining. Rodrigo Leite Durães

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

Metodologia de Desenvolvimento de Sistemas Informação

Inteligência nos Negócios (Business Inteligente)

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Aula 02. Evandro Deliberal

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Introdução ao Data Mining. Sumário

Agenda. Conceitos Iniciais. Modelos de aprendizado. Oportunidades e casos de uso. Ferramentas. Desafios

Data Mining. Felipe E. Barletta Mendes. 21 de maio de 2008

Fundamentos de Mineração de Dados

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

Universidade Federal do Paraná

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Inteligência Artificial

Minerando Padrões Sequenciais para Bases de Dados de Lojas Virtuais

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Aprendizado de Máquina (Machine Learning)

Sistemas de Informação e Decisão. Douglas Farias Cordeiro

Data Mining. Rodrigo Leite Durães

Aprendizado de Máquina

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Metodologia Aplicada a Computação.

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio

A contribuição de Mineração de Dados no processo de Autoavaliação dos cursos superiores do Instituto Federal de Sergipe

Aula 03. Evandro Deliberal

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

Aprendizado de Máquina

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Aplicações de Sistemas Inteligentes

Redes Neurais e Sistemas Fuzzy

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

Metodologia CRISP-DM. NeuroTech Ltda.

Descoberta de conhecimento em redes sociais e bases de dados públicas

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

Prof. Martius Vicente Rodriguez y Rodriguez, DSc.

Fundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados by Prentice Hall

Arquitetura de um Ambiente de Data Warehousing

Evandro Deliberal Aula 01

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR

Figura 4.2: Matriz Curricular

Informática. Business Intelligence (BI), Data Warehouse, OLAP e Data Mining. Prof. Márcio Hunecke

Mineração de Textos na Web

Introdução ao Data Mining (Mineração de Dados)

O QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2

- Prototipação Iterativa - Observação Direta

KDD E MINERAÇÃO DE DADOS

INTELIGÊNCIA COMPUTACIONAL

Aula 01. Prof. Diemesleno Souza Carvalho

CC-226 Introdução à Análise de Padrões

Prof. Daniela Barreiro Claro

Arquitetura de um Ambiente de Data Warehousing

DATA MINING DATA MINING ICA ELÉTRICA PUC-RIO KDD KNOWLEDGE DISCOVERY DATA BASE POSICIONAMENTO

Arquitetura de um Ambiente de Data Warehousing

Informática Parte 19 Prof. Márcio Hunecke

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA

Mineração de Dados em Biologia Molecular

Prof. Ms. Ronaldo Martins da Costa

5 Processo de Reificação e de Desenvolvimento com ACCA

Considerações de Desempenho

Mineração de Dados em Biologia Molecular

MINISTÉRIO DA EDUCAÇÃO SECRETARIA DE EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA INSTITUTO FEDERAL DO NORTE DE MINAS GERAIS CAMPUS MONTES CLAROS 1 PERÍODO

Redes Neurais (Inteligência Artificial)

Back Propagation. Dicas para o BP

Tecnologia RFID aplicada a agrocomputação: Um estudo de caso utilizando descoberta de conhecimento em base de dados

Introdução a Sistemas Inteligentes

II Workshop de Computação Científica da UENF II WCC

INF 1771 Inteligência Artificial

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará

Sistemas Especialistas (SE)

CRÉDITOS DO CURSO. Carga Horária Créditos IN1030 Seminários 30 2

SEFAZ INFORMÁTICA Data Mining Prof. Márcio Hunecke

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

KDD E MINERAÇÃO DE DADOS

Ementário das disciplinas do curso de Engenharia de Software

Introdução. Construção. Dificuldades. Exemplos

Roteiro. PCC142 / BCC444 - Mineração de Dados. Por que pré-processar os dados? Introdução. Limpeza de Dados

Transcrição:

1 Data Mining O Processo de KDD Mauricio Reis prof_uva@mreis.info http://mreis.info/uva-2016-9-datamining

2 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

3 KDD Knowledge Discovery in Databases É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados. [Fayyad et al., 1996] Interação Especialista de Domínio Especialista em KDD Etapas Operacionais do Processo de KDD Pré-Processamento Mineração de Dados Pós-Processamento Iteração

4 KDD Knowledge Discovery in Databases É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados. [Fayyad et al., 1996] Processo: uma série de etapas (várias!)

5 KDD Knowledge Discovery in Databases É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados. [Fayyad et al., 1996] Não trivial: relativamente complexo.

6 KDD Knowledge Discovery in Databases É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados. [Fayyad et al., 1996] Interação: combinação de ações homem-máquina.

7 KDD Knowledge Discovery in Databases É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados. [Fayyad et al., 1996] Iteração: refinamentos sucessivos.

8 KDD Knowledge Discovery in Databases É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados. [Fayyad et al., 1996] Padrão: forma de representação do conhecimento.

9 KDD Knowledge Discovery in Databases É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados. [Fayyad et al., 1996] Compreensão: padrão representado de forma intelegível.

10 KDD Knowledge Discovery in Databases É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados. [Fayyad et al., 1996] Validade: aplicação adequada a um contexto.

11 KDD Knowledge Discovery in Databases É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados. [Fayyad et al., 1996] Inovação: mudança de conhecimentos anteriores para conhecimentos descobertos.

12 KDD Knowledge Discovery in Databases É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de bases de dados. [Fayyad et al., 1996] Utilidade: benefícios da aplicação.

13 Padrões Preditivos: prever valore com bases em outros já conhecidos Descritivos: descobrir características ainda não conhecidas. O padrão descreve atos ou tendências com algum grau de certeza Raramente um padrão é válido para todos os dados Impossibilidade de avaliar todos os dados Amostras dos dados

14 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

Aplicação de KDD: Envolve problema, recursos e resultados: PROBLEMA RECURSOS RESULTADOS ESPECIALISTA DO DOMÍNIO CONJUNTO DE DADOS ESPECIALISTA EM KDD ALGORITMOS E TÉCNICAS MODELO DE CONHECIMENTO TRILHAS DO PROCESSO DESCOBERTO OBJETIVOS DA APLICAÇÃO PLATAFORMA COMPUTACIONAL 15

16 FORMALIZAÇÃO DO MODELO PROPOSTO Tipos de profissionais em aplicações de KDD: Especialista em KDD Especialista do domínio da aplicação de KDD Tipos de conhecimento em aplicações de KDD: Independente do domínio da aplicação Dependente do domínio da aplicação Em KDD aplicado ao domínio da aplicação

17 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

18 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos do problema: PROBLEMA ESPECIALISTA DO DOMÍNIO CONJUNTO DE DADOS OBJETIVOS DA APLICAÇÃO

19 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos do problema: conjunto de dados Estrutura tabular bidimensional (R dom(a 1 ) x dom(a 2 ) x x dom(a n )) Contém casos (aspecto extensional) Contém características (aspecto intensional) Esquema é o conjunto de características Não necessariamente um data warehouse

FORMALIZAÇÃO DO MODELO PROPOSTO Elementos do problema: conjunto de dados Cada caso corresponde a um vetor em um espaço n-dimensional 20 Fundamentação: Álgebra Linear. Conceito de similaridade ou distância entre pontos (vetores). Qto menor a distância entre 2 pontos, maior a similaridade entre os objetos representados. Renda

21 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos do problema: conjunto de dados distância O conceito de distância é formalizado como uma função D : E x E R (a cada par de pontos associa um valor real) que atende às seguintes restrições: - D(x,x) = 0 x - D(x,y) = D(y,x) x y - D(x,y) D(x,z) + D(z,y) x z y

22 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos do problema: especialista do domínio da aplicação Conhecimento sobre o domínio da aplicação background knowledge Consenso quando possível Dispõe de metadados sobre o conjunto de dados Papel importante na formulação dos objetivos Papel importante na avaliação de resultados

23 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos do problema: objetivos da aplicação Retratam restrições e expectativas acerca do modelo a ser gerado Em geral dependem da opinião dos especialistas no domínio da aplicação Nem sempre conseguem ser bem definidos no início do processo de KDD

24 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

FORMALIZAÇÃO DO MODELO PROPOSTO Elementos dos recursos: RECURSOS ESPECIALISTA EM KDD ALGORITMOS E TÉCNICAS PLATAFORMA COMPUTACIONAL 25

26 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos dos recursos: especialista em KDD Dispõe de conhecimento prévio sobre como realizar KDD Deve ter experiência neste tipo de trabalho técnico Interage com o especialista no domínio da aplicação Em geral pertence a uma equipe Responsável pela condução do processo de KDD

27 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos dos retcursos: algoritmos e técnicas (ferramentas) Referem-se aos recursos de software disponíveis para aplicação nas etapas do processo de KDD. Algoritmos podem ser adaptados. Devem ser compatíveis com a plataforma computacional disponível. Uma mesma operação de KDD pode ser implementada por diversos destes recursos, de forma isolada ou conjugada.

28 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos dos recursos: plataforma computacional Referem-se aos recursos de hardware disponíveis para execução das operações de KDD. São de grande relevância em aplicações de KDD devido ao grande consumo de tempo em geral requerido. Mais memória e mais capacidade de processamento maior dinâmica ao processo de KDD. Plataformas que viabilizem computação paralela e distribuída podem otimizar o desempenho de inúmeras Aplicações de KDD.

29 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

30 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos dos resultados: RESULTADOS MODELO DE CONHECIMENTO TRILHAS DO PROCESSO DESCOBERTO

31 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos dos resultados: modelo de conhecimento descoberto Abstração de dados expressa em alguma linguagem obtida a partir da aplicação de KDD. Deve ser avaliado em relação ao cumprimento das expectativas formuladas nos objetivos da aplicação. Comparação entre modelos de conhecimento é muito comum. Conjugação de modelos pode ocorrer.

32 FORMALIZAÇÃO DO MODELO PROPOSTO Elementos dos resultados: trilhas do processo de KDD Estruturas de dados que permitem armazenamento conciso de fatos, ações e resultados intermediários registrados ao longo do processo (históricos). O conteúdo destas estruturas pode ser utilizado como problema em aplicações de KDD cujo objetivo seja extrair conhecimento sobre como realizar o processo de KDD. Podem viabilizar um processo de aprendizado para uma máquina de assistência à orientação do processo de KDD.

33 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

34 Áreas de origem: ESTATÍSTICA RECONHECIMENTO DE PADRÕES DATA WAREHOUSING KDD VISUALIZAÇÃO INTELIGÊNCIA ARTIFICIAL BANCO DE DADOS APRENDIZADO DE MÁQUINA

35 Áreas de Origem: ESTATÍSTICA RECONHECIMENTO DE PADRÕES DATA WAREHOUSING KDD VISUALIZAÇÃO INTELIGÊNCIA ARTIFICIAL BANCO DE DADOS APRENDIZADO DE MÁQUINA

36 Áreas de Origem: Aprendizado de Máquina - Inteligência Artificial: Redes Neurais Algoritmos Genéticos Lógica Nebulosa Lógica Indutiva Árvores de Decisão

37 Áreas de Origem: ESTATÍSTICA RECONHECIMENTO DE PADRÕES DATA WAREHOUSING KDD VISUALIZAÇÃO INTELIGÊNCIA ARTIFICIAL BANCO DE DADOS APRENDIZADO DE MÁQUINA

38 Áreas de Origem: Banco de Dados / Data warehouses: Data warehousing SQL OLAP DMQL NoSQL Structured Query Language Online Analytical Processing Data Mining Query Language

39 Áreas de Origem: ESTATÍSTICA RECONHECIMENTO DE PADRÕES DATA WAREHOUSING KDD VISUALIZAÇÃO INTELIGÊNCIA ARTIFICIAL BANCO DE DADOS APRENDIZADO DE MÁQUINA

40 Áreas de Origem: Estatística: Classificadores Bayesianos Redes Bayesianos EDA - Exploratory Data Analysis

Uma Taxonomia: Atividades em KDD Desenvolvimento Tecnológico Execução de KDD Aplicação de Resultados Tarefas, Algoritmos e Técnicas Otimização de Desempenho Processo de KDD 41 [Goldschmidt et al., 2002a]

42 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

43 Gerações da Mineração de Dados [Piatetsky-Shapiro, 2001] 1ª Geração Anos 90 Ferramentas de pesquisa voltadas a uma única tarefa, sem suporte às demais etapas de KDD Exemplos: c4.5, Rede Neural, Autoclass, etc

44 Gerações da Mineração de Dados [Piatetsky-Shapiro, 2001] 2ª Geração Meados dos anos 90 Ferramentas chamadas suites : pacote para aplicação com suporte ao pré-processamento e à visualização Requerem conhecimento significativo da teoria estatística Exemplos SPSS, Intelligent Miner, SAS, etc

45 Gerações da Mineração de Dados [Piatetsky-Shapiro, 2001] 3ª Geração Final dos anos 90 Soluções orientadas à resolução de problemas específicos em empresas Possuem interfaces orientadas aos usuários Escondem a complexidade da MD Exemplos: Falcon (Detecção Fraude em Cartão)

46 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

47 Processo de Descoberta do Conhecimento em Bases de Dados Visão pragmática [Goldschmidt et al., 2002a]: Interação Especialista de Domínio Especialista em KDD Etapas Operacionais do Processo de KDD Pré-Processamento Mineração de Dados Pós-Processamento Iteração Operações e métodos de KDD

48 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

49 Processo de Descoberta do Conhecimento em Bases de Dados Exemplos de Operações de KDD pré-processamento: Seleção: redução de dados vertical e/ou horizontal Limpeza: remoção de inconsistências, preenchimento valores ausentes Codificação: categórica-numérica, numérica-categórica Normalização de Dados: linear, máximo, soma Partição dos dados: treino-teste, K-folders

50 Operações de Pré-Processamento: seleção de dados Horizontal: escolha de casos Amostragem Segmentação do BD Vertical: escolha de características Atributos relevantes Redução de dimensionalidade

51 Operações de Pré-Processamento : limpeza Verificação de consistência entre informações Correção de erros Eliminação de informações redundantes Eliminação de valores não pertencentes ao domínio Exemplo: data de nascimento Corretas nas seguradoras de vida 30% a 40% em branco ou incorretas nos bancos

52 Operações de Pré-Processamento : limpeza Complementação de valores ausentes A complementação utiliza técnicas de diferentes níveis de complexidade na tentativa de recuperar valores que se perderam com o tempo. Apóia-se em abordagens estatísticas e de Inteligência Artficial. Pode inclusive utilizar de recursos de mineração de dados para descobrir valores durante o pré-processamento.

53 Operações de Pré-Processamento : limpeza Complementação de valores ausentes Conjunto de Treino Conjunto de Complementação Dados Restaurados

54 Operações de Pré-Processamento: codificação Divide valores de atributos contínuos em intervalos codificados. Ex: Renda [0, 1000] Faixa 1 [1001, 3000] Faixa 2 [3001, 5000] Faixa 3 etc Representa valores de atributos categóricos por códigos. Ex: Sexo M 1 F 0

55 Operações de Pré-Processamento: enriquecimento Ex: Perfil do Cliente Atributos: Atributos: Renda Despesas Tipo de residência Bairro consulta à Renda base externa Despesas Tipo de residência Bairro Valor médio de imóvel

56 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

57 Processo de Descoberta do Conhecimento em Bases de Dados Exemplos de Operações de KDD Mineração de Dados: Associação: fralda e cerveja! Classificação: bom pagador? Regressão: estimativa de sobrevivência? Agrupamento (clustering): grupo de clientes para mala direta Sumarização: quais as características comuns? Detecção de desvios: apresenta valores atípicos (outliers)? Sequências: quais produtos comprados ao longo do tempo?

58 Operações de Mineração de Dados: classificação Exemplo de aplicação: Sexo País Idade Comprar M França 25 Sim M Inglaterra 21 Sim F França 23 Sim F Inglaterra 34 Sim F França 30 Não M Alemanha 21 Não M Alemanha 20 Não F Alemanha 18 Não F França 34 Não M França 55 Não

59 Operações de Mineração de Dados: classificação Exemplo de aplicação: Algumas regras: SE (País = Alemanha) ENTÃO Comprar = Não SE (País = Inglaterra) ENTÃO Comprar = Sim SE (País = França e Idade 25) ENTÃO Comprar = Sim SE (País = França e Idade > 25) ENTÃO Comprar = Não

60 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

61 Processo de Descoberta do Conhecimento em Bases de Dados Exemplos de Operações de KDD pós-processamento: Análise de modelos Corte de regras / Poda de árvores (tree pruning) Visualização de gráficos Avaliação do modelo de conhecimento gerado Conversão de representações

62 Operações de Pós-Processamento: análise de modelos Exemplo: Árvore de decisão

63 Operações de Pós-Processamento: visualização de gráficos Exemplo: Despesa (R$ 100) 100 20 10 JAN FEV MAR ABR Meses

64 Operações de Pós-Processamento: avaliação do modelo Exemplo: Modelo de Conhecimento: SE renda > R$ t ENTÃO Crédito = SIM Avaliação do Modelo: Interpretável Precisão:11/14=78,6% Renda

65 Operações de Pós-Processamento: conversão de representações Exemplo: SE (País = Alemanha) ENTÃO Comprar = Não SE (País = Inglaterra) ENTÃO Comprar = Sim SE (País = França e Idade 25) ENTÃO Comprar = Sim SE (País = França e Idade > 25) ENTÃO Comprar = Não

66 A importância do usuário no processo KDD META "INSIGHT" FATORES EXTERNOS COMPLEMENTARES CONSULTAS ANÁLISE E VISUALIZAÇÃO APRESENTAÇÃO BANCO DE DADOS DADOS PROCESSADOS SAÍDAS

67 Macro-objetivos da Mineração de Dados [Zaki, 2002]: Predição: histórico x novas situações Descrição: modelo descritivo do conhecimento Orientação das tarefas de mineração de dados [Zaki, 2002]: Para verificação: hipótese postulada x validação Para descoberta: extração de novos conhecimentos

68 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

69 Operações de KDD: etapa operacional de KDD Terafas de Mineração de Dados: operações de KDD na etapa de Mineração de Dados

70 Tarefas de Mineração de Dados: Associação Descoberta de sequências Classificação / regressão Agrupamento (clusterização) Detecção de Desvios Sumarização / Descrição etc

71 ROTEIRO 1. Definição 2. Aplicação KDD problema recursos resultados 3. Área de origem 4. Histórico DM 5. Processo de Descoberta do Conhecimento Pré-processamento Mineração de dados Pós-processamento 6. Tarefas 7. Técnicas

72 Método de Mineração de Dados: implementação específicas de uma operação Apriori: regra de associação Técnica de Mineração de Dados: toria que fundmenta um método

73 Técnicas de Mineração de Dados: Tradicionais Específicas Híbridas

74 Técnicas de MD Tradicionais Baseadas em tecnologias consagradas fora do contexto da MD Exemplos: Redes Neurais Lógica Nebulosa (Fuzzy) Algoritmos Genéticos Estatística

75 Técnicas de MD específicas Desenvolvidas especificamente para aplicação em Mineração de Dados. Exemplos: Apriori GSP (Generalized Sequential Pattern) MaxEclat, ParMaxEclat (versão paralelizada) MaxClique, ParMaxClique (versão paralelizada)

Técnicas de MD Híbridas Utilizam combinações entre as técnicas tradicionais e as técnicas específicas Formas de associação entre duas técnicas para a construção de sistemas híbridos (Souza, 1999): Híbrido Sequencial Subsistema 1 (Paradigma 1) Subsistema 2 (Paradigma 2) Ex.: algoritmo fuzzy gera dados para uma RNA Híbrido Incorporado Paradigma 1 + Paradigma 2 Ex.: neuro-fuzzy (sistema fuzzy com a estrutura de uma RNA) Híbrido Auxiliar Subsistema 1 (Paradigma 1) Ex.: RNA chama um algoritmo genético para otimização de seus pesos 76 Subsistema 2 (Paradigma 2)

77 Considerações Técnicas quanto à Realização de MD - Algumas Diretrizes: Disponibilidade de dados suficientes Suporte a grandes volumes de dados Verificação da relevância dos atributos Busca por baixo nível de ruído Utilização de conhecimento prévio

78 Considerações Técnicas quanto à Realização de MD - Algumas Diretrizes: Suporte a vários recursos de aprendizado (aprendizado híbrido) Buscar integração com DSS - Decision Suport Systems Utilização de plataformas com arquitetura expansível Suporte a Bancos de Dados Heterogêneos

79 Considerações Técnicas quanto à Realização de MD - Algumas Diretrizes: Buscar estabelecer data warehouses Disponibilidades de recursos para limpeza de dados Facilidades de codificação dinâmica de atributos

80 Considerações Técnicas quanto à Realização de MD - Check-list inicial: Fazer um levantamento do hardware e software existente. Fazer uma lista de necessidades. Qual o propósito do KDD? Quais são os critérios de sucesso do KDD? Como será mensurado esse sucesso? Bancos de Dados, redes, aplicações, servidores, etc. Avaliar a qualidade dos dados disponíveis. Para que propósito foi coletado?

81 Considerações Técnicas quanto à Realização de MD - Check-list inicial: Fazer um inventário dos Banco de Dados disponíveis. Internamente e Externamente Verificar a existência de um data warehouse. Que tipo de dados estão disponíveis Podemos verificar os detalhes dos dados operacionais? Formular o conhecimento que a organização necessita.

82 Considerações Técnicas quanto à Realização de MD - Check-list lnicial: Identificar os grupos de engenheiros de conhecimento ou os grupos de decisão que aplicarão os resultados. Que tipo de decisões precisam ser tomadas? Quais padrões são úteis? Analisar se o conhecimento encontrado é realmente útil para a organização. Listar os processos e as transformações que serão aplicados aos BD s antes que esses possam ser utilizados no KDD.