Aula 20: Regras de Associação

Documentos relacionados
Exemplo: vendas casadas Sei que quem compra A também compra B. Mineração de Dados. Técnicas de Associação. prof. Luis Otavio Alvares

Aprendizado de Máquina (Machine Learning)

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes

Inteligência Artificial

KDD, Mineração de Dados e Algoritmo Apriori

Inteligência Artificial

Mineração de Dados em Biologia Molecular

Mineração de itemsets e regras de associação

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Análise de Associação. Mineração de Regras de Associação

Introdução a Sistemas Inteligentes

Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP

Sarajane M. Peres e Clodoaldo A. M. Lima. 19 de novembro de 2015

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Minerando regras de associação

Universidade Federal de Uberlândia. Programa de Mestrado em Ciência da Computação. Solução da Primeira Prova de Data Mining - 25/10/2006

Mineração de padrões frequentes

Associações & Freqüentes

Mineração de Dados (Regras de associação)

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Mineração de Textos. Mineração de Textos

Minerando Padrões Sequenciais para Bases de Dados de Lojas Virtuais

Curso de Data Mining

CURSO DE DATA MINING. Sandra A. de Amo

Algoritmo Genético aplicado ao Sistema de Análise de Concessão de Crédito (SACC) Rosini Antonio Monteiro Bezerra Professor Marco Aurélio

Relatório de Atividades

Os Dados. Mineração de Dados 2011

MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

SSC510 Arquitetura de Computadores 1ª AULA

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Árvores de Decisão. David Menotti.

Regras de Associação. Roteiro da Aula. Exemplos de perguntas a responder. Motivação e Relevância. Motivação e relevância. Regras de associação:

Curso de Data Mining. Sandra de Amo. Aula 18 - Mineração de padrões em caminhos percorridos por usuários da Internet

Universidade Federal de Uberlândia - Mestrado em Ciência da Computação. Profa. Sandra A. de Amo

Vestibular da Faculdade Israelita de Ciências da Saúde Albert Einstein/2016

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Estágio II. Aula 01 Qualidade de Software. Prof. MSc. Fred Viana

Descoberta direta e eficiente de regras de associação ótimas. Alinson Sousa de Assunção

Acadêmico do Curso de Ciência da Computação. 2

Engenharia de Requisitos

AULA 10 CRIPTOGRAFIA E SEGURANÇA DE DADOS CERTIFICADOS DIGITAIS ESTRUTURA DE UMA ICP 26/03/2016 PROF. FABIANO TAGUCHI

Regras Rudimentarias

EXTRAÇÃO DE REGRAS DE ASSOCIAÇÃO EM UMA BASE DE DADOS RELACIONAL. Hélcio Gomes de Souza Filho TESE SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS

Análise e Síntese de Algoritmos

Análise e Síntese de Algoritmos. Problemas NP-Completos CLRS, Cap. 34

Aulas Anteriores. Detalhes da linguagem de programação

Módulo III Medidas de Tendência Central ESTATÍSTICA

Aprendizado de Máquina (Machine Learning)

M08. Introdução a Técnicas de Data Mining DM

ORDENAÇÃO EXTERNA DE ARQUIVOS: GERAÇÃO DE PARTIÇÕES CLASSIFICADAS. Vanessa Braganholo Estruturas de Dados e Seus Algoritmos

Aprendizagem de Máquina

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução

SI04 FUNDAMENTOS DOS SISTEMAS DE INFORMAÇÕES II

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

SSC Introdução à Programação para Engenharias. Lista 01 Entrega em 06/04/ h10

Aprendizado de Máquina

Fundamentos de Teste de Software

Estatística Computacional Profª Karine Sato da Silva

Inferência Estatística:

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Inteligência nos Negócios (Business Inteligente)

Laboratóriode Bases de Dados Aula12. ÁlgebraRelacional-Revisão. Professora: Fátima L. S. Nunes

MAE Introdução à Probabilidade e Estatística I 2 o semestre de 2017 Gabarito da Lista de Exercícios 2 - Estatística Descritiva II - CASA

Explorando a Técnica de Indexação de Conjuntos Candidatos na Mineração de Conjuntos Freqüentes. Adriana Bechara Prado

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO

Estudo de Caso. Índice. Descrição da Área. Daniel Gomes Dosualdo Solange Oliveira Rezende

COMPUTADORES COM UM CONJUNTO REDUZIDO DE INSTRUÇÕES. Adão de Melo Neto

IND 1115 Inferência Estatística Aula 7

BCC390 - Monografia I

Teoria dos Grafos. Valeriano A. de Oliveira Socorro Rangel Departamento de Matemática Aplicada.

Criptografia Simétrica e Assimétrica, Hash, e Assinatura Digital

Medidas de Dispersão para uma Amostra. Conteúdo: AMPLITUDE VARIÂNCIA DESVIO PADRÃO COEFICIENTE DE VARIAÇÃO

MiRABIT: Um Novo Algoritmo para Mineração de Regras de Associação

Aula Anterior. Decomposição algorítmica (continuação)

Análise Estruturada. Modelagem de Software Prof. Flávio de Oliveira Silva, Ph.D.

Aula 10 Comandos de Repetição For e Do While

Conteúdo. Introdução. Notas. Programação Inteira Cortes. Notas. Notas. Considere o Programa Inteiro PI : Maximize: Haroldo Gambini Santos

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Fundamentos. É um conjunto de operações que são aplicadas sobre determinadas informações para transformá-las em outras, ou gerar novas informações.

CE05 O CONSUMIDOR ON LINE

PROGRAMAÇÃO de COMPUTADORES: LINGUAGEM FORTRAN 90/95

Relatório do teste de habilidade

Descoberta de Conhecimento. A fast APRIORI Implementation. Por: Ivan Medeiros Monteiro

Desenvolvimento de um sistema computacional para gerenciamento de dados de monitoração in vivo de radionuclídeos

Tópicos da Aula. O que é anunciado. Falha de Comunicação no Desenvolvimento de Software. Engenharia de Software: Conceitos Fundamentais

COMO FUNCIONA A SIMULAÇÃO

FACULDADE DE CIÊNCIA DE ENGENHARIA DE SOFTWARE MATRIZ CURRICULAR DO CURSO DE ENGENHARIA DE SOFTWARE PRIMEIRO PERÍODO SEGUNDO PERÍODO

COMO FUNCIONA A SIMULAÇÃO

Inteligência nos Negócios (Business Inteligente)

Documento de Requisitos SISTEMA DE APOIO À ESCRITA (SAPES)

Nelma Moreira. Departamento de Ciência de Computadores da FCUP. Aula 12

È um tipo estruturado homogêneo

Número: Nome:

Banco de Dados. SGBD - Sistema de Gerenciamento de Banco de Dados Parte 1. Prof. Leonardo Vasconcelos

Sistema de mineração de dados para descoberta de padrões em dados médicos

JOÃO GUILHERME RODRIGUES GALLO

Sistemas especialistas Fuzzy

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

Projeto e Análise de Algoritmos

Transcrição:

Aula 20: Regras de Associação Profa. Ms. Rosângela da Silva Nunes 1 de 22

Motivação 2 de 22

Market Basket Aplicações 43% das pessoas que compram computadores também compram software de gestão financeira Web Mining 45% dos visitantes que acessam páginas sobre Voleibol também acessam páginas sobre Handebol Medicina doenças coronárias IF SEX = M PSTROKE = Y 250 <= CHOL < 500 THEN not (0 <= LAD < 50), s=0.01 c=0.73 3 de 22

Document 1 Document 2 Document 3 Representação dos dados Dados de transação Atributos assimétricos Apenas a presença(um valor diferente de zero) é importante team coach pla y ball score game wi n lost timeout 3 0 5 0 2 6 0 2 0 2 0 0 7 0 2 1 0 0 3 0 0 1 0 0 1 2 2 0 3 0 season TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk 4 de 22

Conjunto de itens I = {i1, i2,., in} Exemplo: Conceitos básicos I = {Bread, Milk, Beer, Eggs, Diaper, Coke} Conjunto de transações D = {T1, T2,., Tn} TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke 5 de 22

Conceitos básicos Seja A um conjunto de itens: A I Uma transação T contém A se, somente se, TID Items A T Exemplo T = {Bread, Diaper, Beer, Eggs} A = {Bread, Diaper} 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke 6 de 22

Regra de associação Conceitas básicos A B, onde A I, B I e A B = φ Implicação significa co-ocorrência e não causalidade 7 de 22

Conceitos básicos Exemplo A = {Milk, Beer} B = {Diaper} {Milk, Beer} TID Items {Diaper} 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke 8 de 22

Conjuntos de itens (itemsets) Seja um conjunto de itens I = {i1, i2,., in} Um conjunto S I é um item set S = k, então S é um k-itemset 9 de 22

Conjunto de itens I = {Bread, Milk, Beer, Eggs, Diaper, Coke} A = {Bread} é um 1-itemset B = {Milk, Coke} é um 2-itemset C = {Beer, Bread, Coke} é um 3-itemset 10 de 22

Contador de suporte Número de transações que contém um itemset σ(x) = {T X T, T D} Exemplo X= {Bread, Milk} σ(x) = 3 TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke 11 de 22

Suporte de uma regra de associação Seja a regra de associação A Suporte s é a porcentagem de transações em D que contém A B S = P(A B) = σ(α Β)/Ν, onde N é o número de transações Exemplos {Bread} {Beer} σ({bread} {Beer}) = 2 s = 2/5 = 0.4 TID B Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke 12 de 22

Confiança de uma regra de associação Seja a regra de associação A Confiança c é a porcentagem de transações em D que contém A e também contém B S = P(A B) = σ(α Β)/σ(Α) Exemplos {Bread} {Beer} σ({bread} {Beer} = 2 σ({bread} = 4 c = 2/4 = 0.5 B 13 de 22

Suporte e confiança Suporte Regra com baixo suporte Pode ser coincidência Pode não ter interesse Muitas vezes é usada para eliminar regras sem interesse Confiança Mede a confiabilidade de inferência feita pela regra 14 de 22

Formulação do problema Dado um conjunto de transações D, encontre todas as regras que tenham suporte minsup e confiança minconf onde minsup e minconf são os limites de suporte e confiança correspondentes Frequent itemset Satisfaz minsup Regras fortes Satisfazem minsup e minconf 15 de 22

Minerando regras de associação Exemplo de regras {Milk, Diaper} {Beer} (s=0.4, c=0.67) {Milk, Beer} {Diaper} (s=0.4, c=1.0) {Diaper, Beer} {Milk} (s=0.4, c=0.67) {Beer} {Milk, Diaper} (s=0.4, c=0.67) {Diaper} {Milk., Beer} (s=0.4, c=0.5) {Milk} {Diaper, Beer} (s=0.4, c=0.5) 16 de 22

Minerando regras de associação Todas as regras são partições binárias do mesmo itemsetn {Milk, Diaper, Beer} Regras originadas do mesmo itemset possuem o mesmo suporte mas a confiança podm ser diferentes Então, podemos desacoplar os requisitos de confiança e suporte 17 de 22

Minerando regras de associação Passo 1 Gerar todos os frequente itemset Encontrar todos os itemsets que satisfazem minsup Passo 2 Gerar regras de associação fortes Extrair todas as regras dos itemsets gerados no passo 1 que satisfazem minconf Obs. A performance é determinada pelo passo 1 18 de 22

Passo 1 Geração dos frequent itemsets Método da força bruta Calcular o contador de suporte para cada itemset candidato σ(x), onde X é um itemset candidato TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke 19 de 22

Complexidade computacional Complexidade ~O(NMw) Abordagem custosa M = 2 d 1, onde d = I N Transactions TID Items 1 Bread, Milk 2 Bread, Diaper, Beer, Eggs 3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke w List of Candidates M 20 de 22

21 de 22 Complexidade computacional Seja d o número de itens Número total de possíveis itemsets 2 d 1 Número total de possíveis regras de associação 1 2 3 1 1 1 1 + = = + = = d d d k k d j j k d k d R Se d=6, R = 602 regras

Estratégias para geração dos frequent itemsets Reduzir o número de candidatos (M) Busca Completa: M = 2 d Usar técnicas de poda para reduzir M Reduzir o número de comparações (NM) Evitar corresponder cada conjunto de itens candidatos com cada transação Uso de estruturas de dados eficientes para armazenar os candidatos e transações 22 de 22