Mineração de padrões frequentes
|
|
|
- Afonso Leão Silva
- 9 Há anos
- Visualizações:
Transcrição
1 Mineração de padrões frequentes Fabrício J. Barth Setembro de 2016
2 Objetivos Os objetivos desta aula são: Apresentar e discutir métodos para identificar associações úteis em grandes bases de dados (transacionais) usando medidas estatísticas simples, e; Apresentar e discutir todas as etapas necessárias para executar uma análise de market basket. Mineração de padrões frequentes Objetivos 2
3 Sumário A ideia geral do market basket analysis. Algoritmo Apriori: mineração de itens frequentes. Definição de suporte, confiança e lift. Interpretando as regras. Visualização das regras. Referências e leituras adicionais. Mineração de padrões frequentes Sumário 3
4 Resultado esperado de uma market basket analysis {pãozinho, pão de queijo} {suco de laranja} A regra acima representa a seguinte informação: se uma pessoa compra pãozinho e pão de queijo então existe uma possibilidade desta pessoa comprar também suco de laranja. Os itens indicados ente {} fazem parte de um mesmo itemset. Mineração de padrões frequentes Resultado esperado de uma market basket analysis 4
5 Cenários de uso Algoritmos de regras de associação são geralmente utilizados em problemas de market basket analysis. Exemplos de market basket analysis são: Que produtos devem ser incluídos os excluídos de um estoque a cada mês. Propaganda cruzada entre produtos. Modificação física ou lógica de produtos dentro de categorias de produtos. Programas promocionais: incentivo de compra de múltiplos produtos. Mineração de padrões frequentes Cenários de uso 5
6 Além disso, pode-se utilizar algoritmos de regras de associação em outros cenários: Busca por padrões de sequência de DNA e proteinas que ocorrem frequentemente em dados sobre câncer. Identificação por padrões de compra em transações fraudulentas. Desenvolvimento de sistemas de recomendação. Clickstream analysis. Mineração de padrões frequentes Cenários de uso 6
7 Regras de associação são utilizadas para procurar por conexões interessantes entre um grande número de variáveis. Pessoas são capazes de gerar tais insights, mas geralmente é necessário um nível de experiência bem alto no domínio da aplicação e muito tempo pensando sobre o problema. Mineração de padrões frequentes Cenários de uso 7
8 Algoritmo Apriori: mineração de itens frequentes Dado: um conjunto A = {a 1,, a m } de itens, uma tabela T = (t 1,, t n ) de transações sobre A, um número β min que 0 < β min 1, o suporte mínimo. Objetivo 1: encontrar o conjunto de itens frequentes, tais que o suporte de cada conjunto de itens é maior ou igual ao β min definido pelo usuário. Mineração de padrões frequentes Algoritmo Apriori: mineração de itens frequentes 8
9 Exemplo de transações Figure 1: Um banco de dados de transações, com 10 transações, e a enumeração de todos os conjuntos de itens frequentes usando o suporte mínimo = 0,3 Mineração de padrões frequentes Exemplo de transações 9
10 Algoritmo Apriori: mineração de itens frequentes Objetivo 2: encontrar o conjunto de regras de associação com confiança maior ou igual que um mínimo definido pelo utilizador. Mineração de padrões frequentes Algoritmo Apriori: mineração de itens frequentes 10
11 Suporte e Confiança O suporte de um conjunto de itens Z, suporte(z), representa a porcentagem de transações na base de dados que contêm os itens de Z. A confiança de uma regra de associação A B, confianca(a B), é dado por: confianca(a B) = Suporte(A B) Suporte(A) (1) Mineração de padrões frequentes Suporte e Confiança 11
12 Exemplos de confiança Se suporte({pão, ovos, leite}) = 0.15 e suporte({pão, ovos}) = 0.15 então confianca({pão, ovos} {leite}) = 1. Se suporte({pão, ovos}) = 0.15 e suporte({pão}) = 0.6 então confianca({pão} {ovos}) = Mineração de padrões frequentes Exemplos de confiança 12
13 Exemplo de regras geradas Figure 2: Regras extraídas com confiança maior que 0.8 Mineração de padrões frequentes Exemplo de regras geradas 13
14 Confiança Uma confiança alta indica que uma regra (X Y ) é mais interessante ou mais confiável, baseada no dataset analisado. Mineração de padrões frequentes Confiança 14
15 No entanto, o fato de apenas analisar X Y e X, sem analisar Y pode gerar alguns problemas. Mineração de padrões frequentes Confiança 15
16 Exemplo Considere transações, onde: leite ocorre em 400 pão ocorre em 900 manteiga ocorre em 300 leite e pão ocorrem em 300 manteiga e leite ocorrem em 300 Mineração de padrões frequentes Exemplo 16
17 Sendo assim: confianca({leite} {pao}) = 0,3 0,4 = 0, 75 confianca({leite} {manteiga}) = 0,3 0,4 = 0, 75 Pão é algo que ocorre com muita frequência neste dataset. Esta informação não é levada em consideração pela confianca({leite} {pao}). Talvez, esta correlação seja apenas uma coincidência. Mineração de padrões frequentes Exemplo 17
18 Lift ou coeficiente de interesse Lift(X Y ) = Suporte(X Y ) Suporte(X) Suporte(Y ) Lift ou coeficiente de interesse: um valor de lift para uma regra (A B) superior a 1 indica que A e B acontecem mais frequentemente juntos do que o esperado, isso significa que a ocorrência de A tem um efeito positivo sobre a ocorrência de B. (2) Mineração de padrões frequentes Lift ou coeficiente de interesse 18
19 Exemplos lift({leite} {pao}) = 0,3 0,4 0,9 = 0, 834 lift({leite} {manteiga}) = 0,3 0,4 0,3 = 2, 5 Assim, fica claro que a ocorrência de leite tem um efeito positivo sobre a ocorrência da manteiga. Mas isto não se aplica ao leite e pao. Mineração de padrões frequentes Exemplos 19
20 Medida Lift Dada uma regra de associação A B, esta medida indica o quanto mais freqüente torna-se B quando ocorre A. Se Lift(A B) = 1, então A e B são independentes. Se Lift(A B) > 1, então A e B são positivamente dependentes. Se Lift(A B) < 1, A e B são negativamente dependentes. Esta medida varia entre 0 e e possui interpretação simples: quanto maior o valor de Lift, mais interessante a regra, pois A aumenta B. Mineração de padrões frequentes Medida Lift 20
21 Exemplo básico de uso Exemplo Básico sobre Regras de Associação Mineração de padrões frequentes Exemplo básico de uso 21
22 Exemplo: Grocery Store Exemplo usando um dataset de uma Grocery Store Mineração de padrões frequentes Exemplo: Grocery Store 22
23 Pontos fortes e fracos Fortes: É facilmente aplicável em um volume grande de dados transacionais. Resultados no formato de regras é fácil de compreender. É útil na descoberta de padrões impĺıcitos em bases de dados. Mineração de padrões frequentes Pontos fortes e fracos 23
24 Fracos: Não é muito útil para bases pequenas. Às vezes é difícil separar insights de senso comum. É fácil gerar conclusões incorretas a partir de padrões aleatórios. Mineração de padrões frequentes Pontos fortes e fracos 24
25 Material de consulta Capítulo 5 do livro EMC Education Services, editor. Data Science and Big Data Analytics: Discovering, Analysing, Visualizing and Presenting Data. John Wiley & Sons, Mineração de padrões frequentes Material de consulta 25
26 Fabrício Barth. Mineração de regras de associação em servidores Web com RapidMiner a. Gonçalves. Regras de Associação e suas Medidas de Interesse Objetivas e Subjetivas. INFOCOMP Journal of Computer Science, 2005, 4, a Mineração de padrões frequentes Material de consulta 26
27 Data Mining Algorithms in R - Apriori Algorithm. Mining Algorithms In R/ Frequent Pattern Mining/The Apriori Algorithm. Acessado em 13 de junho de RDataMining.com: Association Rules. Acessado em 13 de junho de Mineração de padrões frequentes Material de consulta 27
28 Próximas etapas Exercícios, e; Projeto! Mineração de padrões frequentes Próximas etapas 28
Mineração de Dados (Regras de associação)
Aplicações Mineração de Dados (Regras de associação) Perfis de clientes ( Market basket analysis ) Merchandizing Detecção de fraudes em seguros de saúde Organização de produtos em vitrines de lojas M.
Aula 13: Regras de Associação. Rafael Izbicki
Mineração de Dados Aula 13: Regras de Associação Rafael Izbicki 1 / 6 O Problema Imagine que temos um banco de dados em que cada linha representa a ida de uma pessoa a um supermercado, e cada coluna representa
KDD, Mineração de Dados e Algoritmo Apriori
Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC KDD, Mineração de Dados e Algoritmo Apriori Aluno: Rodrigo Moura J.
Sarajane M. Peres e Clodoaldo A. M. Lima. 19 de novembro de 2015
Sarajane M. Peres e Clodoaldo A. M. Lima 19 de novembro de 2015 Material baseado em: HAN, J. & KAMBER, M. Data Mining: Concepts and Techniques. 2nd. 2006 Sarajane M. Peres e Clodoaldo A. M. Lima Regras
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 14 Regras de Associação Max Pereira Regras de Associação Motivação O que é geralmente comprado junto com o produto x? Que pares de produtos são comprados juntos?
Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP
Regras de Associação A compra de um produto quando um outro produto é comprado representa uma Regra de Associação Regras de Associação são frequentemente utilizadas para apoiar campanhas de marketing e
Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.
Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise de dados e algoritmos
Minerando regras de associação
Minerando regras de associação Proposto por Rakesh Agrawal em 1993. É o modelo de mineração de dados mais estudado pela comunidade de banco de dados. Utiliza dados categóricos. Não há bons algoritmos para
Algoritmos de Agrupamento - Aprendizado Não Supervisionado
Algoritmos de Agrupamento - Aprendizado Não Supervisionado Fabrício Jailson Barth [email protected] Agosto de 2016 Sumário Introdução e Definições Aplicações Algoritmos de Agrupamento Agrupamento
Estatística e Modelos Probabilísticos - COE241
Estatística e Modelos Probabilísticos - COE241 Aula passada Análise da dados através de gráficos Introdução a Simulação Aula de hoje Introdução à simulação Geração de números aleatórios Lei dos Grandes
Estatística e Modelos Probabilísticos - COE241
Estatística e Modelos Probabilísticos - COE241 Aula passada Somas aleatórias Aula de hoje Introdução à simulação Geração de números aleatórios Lei dos Grandes Números Simulação de Sistemas Discretos É
Contexto de Big Data, Ciência de Dados e KDD
Contexto de Big Data, Ciência de Dados e KDD Fabrício J. Barth! Disciplina de Modelagem Descritiva e Preditiva! Pós-Graduação em Big Data e Analytics 100 10 quantidade de informações Sempre houve:!! Produção
Prof. Daniela Barreiro Claro
O volume de dados está crescendo sem parar Gigabytes, Petabytes, etc. Dificuldade na descoberta do conhecimento Dados disponíveis x Análise dos Dados Dados disponíveis Analisar e compreender os dados 2
Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa
Bancos de Dados IV Data Warehouse Conceitos Rogério Costa [email protected] 1 Data Warehouse - O que é? Conjunto de dados orientados por assunto, integrado, variável com o tempo e nãovolátil Orientado
Sistema de mineração de dados para descoberta de padrões em dados médicos
Sistema de mineração de dados para descoberta de padrões em dados médicos Matheus Felipe MIRANDA¹; Marcos Roberto RIBEIRO² ¹ Estudante do curso de Tecnologia em Análise e Desenvolvimento de Sistemas e
Conteúdo. 1 Introdução. Histograma do Quarto Sorteio da Nota Fiscal Paraná 032/16. Quarto Sorteio Eletrônico da Nota Fiscal Paraná
Quarto Sorteio Eletrônico da Nota Fiscal Paraná Relatório parcial contendo resultados 1 da análise estatística dos bilhetes premiados Conteúdo 1 Introdução Este documento apresenta a análise dos resultados
Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri
Mineração de Dados Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri 1 Motivação Aumento da capacidade de processamento e de armazenamento de dados; Baixo custo; Grande quantidade de dados
Mineração de itemsets e regras de associação
Mineração de itemsets e regras de associação Marcelo K. Albertini 3 de Novembro de 2015 2/46 Conteúdo Regras de associação A-priori FP-Tree 3/46 Análise de cestas de compras Uma cadeia de supermercados
SBC - Sistemas Baseados em Conhecimento
Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O
Renda x Vulnerabilidade Ambiental
Renda x Vulnerabilidade Ambiental ANEXO D ANÁLISE EXPLORATÓRIA E PREPARAÇÃO DOS DADOS Identificamos tendência linear positiva. A correlação entre as variáveis é significativa, apresentando 99% de confiança.
Descoberta de conhecimento aplicando regras de associação na ferramenta WEKA
Descoberta de conhecimento aplicando regras de associação na ferramenta WEKA RESUMO Elio Ribeiro Faria Junior 58 Marcos Jesus de Oliveira Nielsen 59 Nos últimos anos vem aumentando o uso das técnicas de
Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas
Material Complementar - BI Grinaldo Lopes de Oliveira ([email protected]) Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas Business Intelligence - Conceito Coleta de dados a partir
ESCOLA C/ PE 1º CICLO REFEITÓRIO Semana de 3 a 6 de janeiro de 2017 Lanche
Semana de 3 a 6 de janeiro de 2017 2 Pão com banana 1 659 157 0,8 0,2 33,2 4,2 0,5 12,6 1 Cereais com leite 1,7,8 375 89 1,5 0,8 15,2 3,7 0,4 4,3 2 Pão com queijo e leite 1,3,7 448 107 3,7 0,7 12,5 5,9
O ALEATÓRIO EM COMPUTAÇÃO. Por Diogo Anderson Integrante do Grupo PET Computação
O ALEATÓRIO EM COMPUTAÇÃO Por Diogo Anderson ([email protected]) Integrante do Grupo PET Computação AGENDA Introdução Definição Aplicações Números aleatórios Números aleatórios vs pseudo-aleatórios
Fundamentos de Mineração de Dados
Fundamentos de Mineração de Dados Prof. Ricardo Fernandes [email protected] O que é Mineração de Dados? Uso de ferramentas matemáticas, clássicas ou inteligentes, no processo de descoberta de conhecimento
Aprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo (knn) Um algoritmo supervisionado usado para classificar
Exemplo: vendas casadas Sei que quem compra A também compra B. Mineração de Dados. Técnicas de Associação. prof. Luis Otavio Alvares
Mineração de Dados Técnicas de Associação Exemplo: vendas casadas Sei que quem compra A também compra B. Apresentação adaptada do material do livro: Introduction to Data Mining Tan, Steinbach e Kumar PRODUTO
Banco de Dados Data Mining Data Warehouse Big Data
Universidade Estadual de Mato Grosso do Sul Curso de Computação, Licenciatura Banco de Dados Data Mining Data Warehouse Big Data Prof. José Gonçalves Dias Neto [email protected] Data Mining: Introdução
Modelo de Desenvolvimento Concorrente
Trabalho de Engenharia de Software Modelo de Desenvolvimento Concorrente Universidade Federal do Paraná Professora: Letícia M. Peres Juliana Campos Franchi GRR20093224 Leonardo Ternes Santos GRR20093550
Extração de Conhecimento & Mineração de Dados
Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática
10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR
10 FORMAS PARA USAR MODELAGEM ESTATÍSTICA Introdução Conheça um pouco mais sobre algumas modelagens estatísticas e como você pode implantar dentro da sua organização A análise preditiva é capaz de descobrir
PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados -- Profs. Celso Kaestner e Heitor Lopes Trabalho #2 Regras de Associação
UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) Mineração de Dados 2016/3 Professores Celso e Heitor Jean Avila Rangel 1801317 - PPGCA PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados --
BIG DATA,DATA SCIENCE e ANALYTICS aplicados ao MARKETING MANUAL DO CURSO ESPM. Rua Joaquim Távora, 1240 Vila Mariana São Paulo/SP.
BIG DATA,DATA SCIENCE e ANALYTICS aplicados ao MARKETING MANUAL DO CURSO ESPM Rua Joaquim Távora, 1240 Vila Mariana São Paulo/SP Informações Central de Relacionamento: (11) 5081-8200 (opção 1) Segunda
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que
Mineração de Dados Aplicada no Contexto Educacional
Giana da Silva Bernardino ¹ e Alexandre Leopoldo Gonçalves Universidade Federal de Santa Catarina ¹[email protected] RESUMO Este trabalho faz uso da mineração de dados com o objetivo de encontrar informações
Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra
Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura da Terra Introdução 1 2 3 4 Capacidade de Armazenamento X Análise e Interpretação
Introdução ao Data Mining (Mineração de Dados)
Introdução ao Data Mining (Mineração de Dados) Quem é da área de TI, provavelmente já ouviu sobre Data Mining, mesmo que não saiba o que é. É uma das últimas modas relacionados à BD. Para se ter uma noção
Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -
Mineração de Dados - Contextualização Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/ Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento; Manter, disseminar, organizar,
Trabalho 1 - Relatório Técnico
Trabalho 1 - Relatório Técnico Aluno: Adenir Pedro da Silva Junior Orientador: Heitor Silvério Lopes Co-orientador: Celso Antonio Alves Kaestner Disciplina: Mineração de Dados - PPGCA fase 3 / 2016 1.
Fabrício Jailson Barth BandTec
Introdução à Inteligência Artificial Fabrício Jailson Barth [email protected] BandTec 1 o semestre de 2012 Objetivos e Sumário O que é Inteligência Artificial (IA)? Objetivos da IA. Influência
Mineração de Dados voltada para Recomendação no Âmbito de Marketing de Relacionamento
Livia Fonseca Fracalanza Mineração de Dados voltada para Recomendação no Âmbito de Marketing de Relacionamento Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do título
Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21
MINERAÇÃO DE DADOS Thiago Marzagão 1 1 [email protected] ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos
Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento
Contabilometria Aula 9 Regressão Linear Inferências e Grau de Ajustamento Interpretação do Intercepto e da Inclinação b 0 é o valor estimado da média de Y quando o valor de X é zero b 1 é a mudança estimada
Distribuições de Probabilidades
Distribuições de Probabilidades 1 Distribuições Contínuas 1.1 Distribuição Uniforme - U(a,b) Uso mais comum: Primeira tentativa em casos em que apenas os limites dos dados são conhecidos. f() 1/(b-a) a
Engenharia de Requisitos
DCC / ICEx / UFMG Engenharia de Requisitos Eduardo Figueiredo http://www.dcc.ufmg.br/~figueiredo Motivação Motivação Porque levantar Requisitos é importante? Motivação Porque levantar Requisitos é importante?
ESTATÍSTICA DESCRITIVA MEDIDAS DE POSIÇÃO / CESPE / FUNPRESP
ESTATÍSTICA DESCRITIVA MEDIDAS DE POSIÇÃO 01. 2016 / CESPE / FUNPRESP Considerando que os dados na tabela mostram salários de diferentes servidores que aderiram (1) ou não aderiram (0) a determinado plano
Aplicações de Sistemas Inteligentes
Aplicações de Sistemas Inteligentes Germano C. Vasconcelos Centro de Informática - UFPE 14/6/2010 1 Roteiro Inteligência Computacional Aplicações Mineração de Dados Métodos Exemplo em Análise de Crédito
KDD E MINERAÇÃO DE DADOS:
KDD E MINERAÇÃO DE DADOS: Prof. Ronaldo R. Goldschmidt Instituto Militar de Engenharia Seção de Engenharia de Computação (SE/8) [email protected] / [email protected] Coleta de dados em vários
Sistemas de Medição de Desempenho
Sistemas de Medição de Desempenho Sumário 1. 2. 3. 4. 5. 6. Introdução Indicadores de Desempenho: resultados e tendência Produtividade e Eficiência Modelos de Sistemas de medição de Desempenho Sistema
2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados
2 Mineração de Dados 2 Mineração de Dados A mineração de dados, ou data mining, é uma das principais etapas do processo de busca de conhecimento. Este conceito é utilizado para identificar técnicas avançadas
Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada
Aula 2 Regressão Linear Simples Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada Conceitos Gerais A análise de regressão é utilizada para explicar ou modelar a relação entre
CURSO DE DATA MINING. Sandra A. de Amo
CURSO DE DATA MINING Sandra A. de Amo [email protected] Universidade Federal de Uberlândia Faculdade de Computação Agosto 2003 2 Conteúdo 1 Introdução - Slides 7 2 Mineração de Regras de Associação 28 2.1 Formalização
COMO FUNCIONA A SIMULAÇÃO
COMO FUNCIONA A SIMULAÇÃO Capítulo 2 - Aula 3 1 Terminologia Básica Variáveis de Estado Eventos Entidades e Atributos Recursos e Filas de Recursos Atividades e Períodos de Espera Tempo (Real) Simulado
