KDD, Mineração de Dados e Algoritmo Apriori

Documentos relacionados
Extração de Conhecimento & Mineração de Dados

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

SBC - Sistemas Baseados em Conhecimento

Minerando regras de associação

Aprendizado de Máquina (Machine Learning)

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará

Exemplo: vendas casadas Sei que quem compra A também compra B. Mineração de Dados. Técnicas de Associação. prof. Luis Otavio Alvares

Data Mining. O Processo de KDD. Mauricio Reis

Mineração de padrões frequentes


Prof. Daniela Barreiro Claro

Sarajane M. Peres e Clodoaldo A. M. Lima. 19 de novembro de 2015

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Kira:Uma Ferramenta Instrucional para Apoiar a Aplicação do Processo de Mineração de Dados

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

Sistemas de Banco de Dados

MODELO DE BANCO DE DADOS RELACIONAL

Mineração de Dados (Regras de associação)

IMAGE MINING: CONCEITOS E TÉCNICAS

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

Introdução à Descoberta de Conhecimento e Mineração de Dados. Rodrigo Leite Durães.

Projeto de módulo de Data Mining para Scout Voleibol

Análise do Desempenho Acadêmico Utilizando Redes Bayesianas: um estudo de caso

Uso de Índices na Otimização e Processamento de Consultas. Otimização e Processamento de Consultas. Otimização e Processamento de Consultas

INE 5423 Banco de Dados I

INE 5423 Banco de Dados I

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

Curso de Data Mining. Sandra de Amo. Aula 18 - Mineração de padrões em caminhos percorridos por usuários da Internet

Modelo Entidade Relacionamento

PREDIÇÃO DE CASOS DE ALTÍSSIMO CUSTO E DETECÇÃO AUTOMÁTICA DE IMPROPRIEDADES EM CONTAS MÉDICAS. Marcelo Rosano Dallagassa

Aula 13: Regras de Associação. Rafael Izbicki

Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa

Apresentação da Disciplina

KDD UMA VISAL GERAL DO PROCESSO

MINERAÇÃO DE DADOS 1

Aula 01. Prof. Diemesleno Souza Carvalho

SCC0173 Mineração de Dados Biológicos

Sistema Gestor de Bancos de Dados (SGBD)

Bancos de Dados Não- Convencionais

Introdução a Sistemas Inteligentes

M08. Introdução a Técnicas de Data Mining DM


KDD E MINERAÇÃO DE DADOS:

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1

Banco de Dados Geográficos

Mineração de Dados em Biologia Molecular

Conjuntos Fuzzy e Lógica Fuzzy

MINERAÇÃO DE DADOS EM REDES COMPLEXAS

Identificação de Padrões em Registros de Doenças com Técnicas de Mineração de Dados

Sistemas de Apoio à Decisão

Estatística. Professor Jair Vieira Silva Júnior.

Rozelma Soares de França 1,2, Haroldo José Costa do Amaral 1. CEP Garanhuns PE Brasil. CEP Recife PE Brasil

UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

BANCO DE DADOS. Engenharia da Computação Univasf. Modelo Entidade-Relacionamento. Aula 2. Conjuntos de Entidades - Representação Exemplo:

Banco de Dados Data Mining Data Warehouse Big Data

Rodada #1 Análise de Informações

Banco de Dados. Banco de Dados

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini /

Sistemas de Informação (SI) Gestão da informação e de banco de dados (II)

Extração de Conhecimento a partir dos Sistemas de Informação

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Sistemas de Apoio à Tomada de Decisão. Prof a. Dr a. Silvia Inês Dallavalle de Pádua

SAMiRA UMA PROPOSTA DE SISTEMA DE APOIO À MINERAÇÃO DE REGRAS DE ASSOCIAÇÃO

Padronização de Processos: BI e KDD

Passos para o Aprendizado de Máquina com Pentaho. Prof. Marcos Vinicius Fidelis UTFPR/UEPG

Banco de Declarações Ambientais - BDA Cadastro de Áreas Impactadas pela Mineração

Aprendizado de Máquina voltado para Mineração de Dados: Árvores de Decisão

Otimização da Paleta de Cores

Banco de Dados. Modelo Entidade - Relacionamento. João Eduardo Ferreira Osvaldo Kotaro Takai jef@ime.usp.br DCC-IME-USP

Transcrição:

Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC KDD, Mineração de Dados e Algoritmo Apriori Aluno: Rodrigo Moura J. Ayres Orientadora: Dra. Marilde T. P. Santos Área: Banco de Dados

Mineração de Dados Segundo o dicionário Aurélio (versão on-line) Minerar significa Extrair(minério) da mina. Portanto, Minerar dados significa extrair(conhecimento) dos dados.

Mineração de Dados Para (Elmasri e Navathe, 2005) mineração de dados se refere à descoberta de novas informações em função de padrões em grandes quantidades de dados.

Mineração de Dados (Han e Kamber, 2006) consideram o termo mineração de dados inadequado, pois o que se faz não é extração de dados, mas sim extração de conhecimento. Mineração de Conhecimento a Partir de Dados.

O que é KDD? KDD - Discovery Knowledge from Data, ou seja, Descobrimento de Conhecimento a partir de Dados. Processo não trivial de extração de padrões válidos, novos, potencialmente úteis e compreensíveis a partir de dados. (Frawley, Piatetsky-Shapiro et al., 1992)

KDD e Data Mining Os dois estão associados a questão de descoberta de conhecimento. Para muitos, KDD é sinônimo de Data Mining, ou seja, KDD e Data Mining são a mesma coisa. Outros afirmam que o KDD é um processo, e a mineração de dados é uma etapa desse processo.

KDD Segundo (Han e Kamber, 2006) esse processo pode ser sumarizado em sete passos principais: Limpeza dos Dados (para remover dados inconsistentes e ruídos); Integração dos Dados (onde múltiplas fontes de dados podem ser combinadas); Seleção dos Dados (onde dados relevantes para a tarefa de análise são recuperados do banco de dados);

KDD Transformação dos Dados (onde os dados são transformados ou consolidados em formas apropriadas para a mineração, por exemplo, fazendo um sumário ou agregando operações); Mineração de Dados (processo essencial onde métodos inteligentes são aplicados com o objetivo de extrair padrões de dados); Avaliação dos Dados (para identificar os verdadeiros padrões de interesse que representam o conhecimento baseado em alguma medida de interesse); Apresentação do Conhecimento (onde visualização e técnicas de representação de conhecimentos são utilizadas para representar o conhecimento minerado para o usuário).

KDD O KDD é um processo cujo objetivo é a descoberta de conhecimento útil. Esse conhecimento depende dos dados a serem analisados e do tipo de informação que será obtida, na etapa de MD. Essas informações estão relacionadas a duas categorias de padrões: descritivos e preditivos.

Tarefas de MD no KDD Sendo assim, é necessário que se defina o que se chama de Tarefa de MD. O tipo de tarefa deve ser definido logo no início do processo, devendo estar de acordo com o conhecimento que se queira obter.

Tarefas As tarefas podem ser classificadas em duas categorias: descritivas e preditivas. Descritivas: caracterizam as propriedades gerais dos dados na base de dados. Preditivas: fazem inferências nos dados presentes, para fazer predições sobre dados futuros.

Tarefas As principais tarefas são: Associação; Agrupamento; Classificação; Regressão. Tarefas Preditivas: Regressão e Classificação; Tarefas Descritivas: Associação e Agrupamento.

Regras de Associação A tarefa de associação consiste na descoberta de regras de associação. Uma regra de associação é uma implicação do tipo: X Y antecedente conseqüente

Regras de Associação O BD é tratado como uma coleção de transações, sendo que cada uma delas envolve um conjunto de itens. O significado dessas regras é que transações da base de dados que contém o antecedente tendem a conter o conseqüente também. Por exemplo: pão presunto, queijo

Regras de Associação Cada regra possui uma medida de suporte e confiança. Suporte: O suporte de uma regra é um valor que denota a quantidade de transações (registros) na base de dados em que antecedente e conseqüente aparecem juntos, ou seja, simultaneamente na transação, esse valor pode ser expresso percentualmente. Confiança: indica a porcentagem de registros que contém antecedente + conseqüente sobre a porcentagem de registros que possuem o antecedente, ou seja, seria: suporte da regra/suporte do antecedente

Regras de Associação pão presunto, queijo Se a regra tiver 20% de suporte, significa que em 20% de todas as transações da base de dados, os itens pão, presunto e queijo apareceram na mesma transação. Se a regra tiver 50% de confiança, significa que em 50% das vezes que o item pão apareceu em uma transação, também ocorreu a presença de presunto e queijo.

Itemset itemset: é um conjunto de itens. Suporte de um itemset: é a quantidade de transações que contém todos os itens do itemset, percentualmente seria: quantidade/número de transações. Itemset freqüente: é o itemset que possui valor de suporte maior ou igual a um valor de suporte préestabelecido pelo usuário, chamado de minsup.

Suporte Itemset

Suporte Regra I1 I2

Mineração de Regras de Associação Tarefa: 1. Encontrar todos os itemsets freqüentes. 2. Gerar regras de associação a partir dos itemsets freqüentes. Regra de associação relevante: possui grau de suporte e grau de confiança >= minsup e minconf. Obs. minconf é um grau de confiança estabelecido pelo usuário. 21

Apriori Algoritmo de mineração de regras de associação Objetivo: identificar os itemsets freqüentes e construir regras relevantes a partir deles. É dividido em duas etapas: 1. Geração de itemsets candidatos; 2. Geração das regras de associação, a partir dos itemsets frequentes. 22

Apriori - Exemplo Considerando o minsup = 2

Apriori - Funcionamento Varredura da Base para contar ocorrência de cada item Conjunto de candidatos Compara o suporte do candidato com o minsup. Conjunto de itemsets freqüentes

Apriori - Funcionamento Conjunto de candidatos Conjunto de itemsets freqüentes Gerar os candidatos C2, a partir de L1. Varredura da base para contar o suporte de cada candidato. Compara o suporte do candidato com o minsup.

Apriori - Funcionamento Conjunto de candidatos Conjunto de itemsets freqüentes Gerar os candidatos C3, a partir de L2. Varredura da base para contar o suporte de cada candidato. Compara o suporte do candidato com o minsup. Regras: I2 I3, I4 suporte = 2 confiança = 2/3 I3 I2, I4 suporte = 2 confiança = 2/3 I4 I2, I3 suporte = 2 confiança = 2/3 I2, I3 I4 suporte = 2 confiança = 2/2 I2, I4 I3 suporte = 2 confiança = 2/2 I3, I4 I2 suporte = 2 confiança = 2/3 O suporte pode ser obtido pelo itemset da regra; A confiança é o suporte da regra/suporte do antecedente

Referências ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 4. ed. São Paulo: Pearson Addison Esley, 2005. HAN, J.; KAMBER, M. Data Mining: Concepts and Techiniques. 2. ed. San Francisco, CA: Morgan Kaufmann, 2006. (The Morgan Kaufmann Series in Data Management Systems). FRAWLEY, W. J. et al. Knowledge Discovery in Databases: An Overview. AI Magazine [S.I.], v. 13, 1992.

Obrigado