Segmentação: exemplo chocolate

Documentos relacionados
Segmentação: exemplo snacks (Lawlesss, 2013)

Sensometria, Segmentação. Adilson dos Anjos

Análise de Componentes Principais

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

Análise de agrupamentos por métodos hierárquicos aglomerativos

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel

Análise de Agrupamento (Cluster analysis)

Agrupamento Espectral e Hierárquico

ANÁLISE DE CONGLOMERADOS E OS INDICADORES DE GOVERANÇA MUNDIAL

EXECUTIVE MASTER EM APPLIED BUSINESS ANALYTICS

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa

Níveis descritivos de testes estatísticos de variabilidade como medidas de similaridade entre objetos em análises de agrupamento

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

Módulo 18- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico

Perfil Livre: Procrustes/Análise Fatorial Múltipla

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 9 de junho de Departamento de Estatística Universidade Federal do Paraná

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

Técnicas Estatísticas de Agrupamento

Descrição do Método de Análise de Clusters

Análise de dados: clustering e redução de dimensionalidade

Consistência do padrão de agrupamento de cultivares de milho

Análise de Agrupamento. Cluster Analysis

ANÁLISE DE DADOS ANÁLISE PARCIAL DOS RESULTADOS DOS EXAMES NACIONAIS DO ENSINO SECUNDÁRIO DE Sérgio Sobral Nunes

Clustering: k-means e Agglomerative

Estatística Aplicada à Administração II

Clustering: K-means and Aglomerative

PRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)

Módulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico

Análise de Correspondência: introdução

Análise de dados multivariados I

REGRESSÃO LOGÍSTICA E INDICADORES DE GOVERNANÇA GLOBAL

Extracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Análise de Agrupamento

MB 756 PESQUISA OPERACIONAL APLICADA À PRODUÇÃO. Professor: Rodrigo A. Scarpel

6 Clustering: Definindo Grupos Estratégicos

Análise Multivariada Aplicada à Contabilidade

Inteligência nos Negócios (Business Inteligente)

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

VARIEDADES DE SOBREMESAS DO MCDONALDS SEGUNDO SUAS CARACTERÍSTICAS NUTRICIONAIS: UMA APLICAÇÃO DE ANÁLISE DE AGRUPAMENTO

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

Consistência do padrão de agrupamento de cultivares de feijão conforme medidas de dissimilaridade e métodos de agrupamento

Dia 5: Análise de dados II

ANÁLISE DE AGRUPAMENTO UTILIZANDO VARIÁVEIS QUANTITATIVAS E QUALITATIVAS PARA O ESTUDO DA DIVERSIDADE GENÉTICA EM GENÓTIPOS DE MANDIOCA SILVESTRE

Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining

Inteligência nos Negócios (Business Inteligente)

Foram avaliadas as produções quinzenais de leite nas primeiras e segundas lactações de vacas da raça Holandesa, entre 5 a 305 dias de lactação,

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

Classificação de Empresas Familiares de Acordo com a "Familiaridade"

Atividade 1 - Análise estatística

Aprendizagem de Máquina

SCC5895 Análise de Agrupamento de Dados

A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP

Chapter 4: Unsupervised Learning

2COP229 Inteligência Computacional. Aula 3. Clusterização.

Exercício 1 resolvido Mauricio Camargo 13 de setembro de 2017

A Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.

ANÁLISE DE AGRUPAMENTO DE OPERADORAS DE PLANOS DE ASSISTÊNCIA À SAÚDE: Estudo de caso da carteira de clientes de uma consultoria atuarial

A análise de aglomerados

ANÁLISE DE AGRUPAMENTO EM ÁREA DE POTENCIAL EÓLICO NA REGIÃO DO SUBMÉDIO SÃO FRANCISCO

Análise de componentes principais (PCA)

A cophenetic correlation coefficient for the modified Tocher s method

Pacotes Ofertados. Pacote Global + A La Carte HD + Adulto Pacote Global + Filmes HD + A La Carte HD + Adulto

ESTATÍSTICA MULTIVARIADA 1º. Semestre 2008/09

ATLAS BRASIL 2013 DIMENSÃO EDUCAÇÃO

Métodos de Análise de Dados (AO-802)

4 ANÁLISE DE DADOS. Erro do balanço iônico (%) = Σ cátions - Σ ânions x 100 Σ (cátions + ânions) (1)

Aprendizagem de Máquina

Um Estudo Comparativo dos Indicadores de Governança e Corrupção da. OECD e países da América Latina SUSAN DE FARIA

ANÁLISE MULTIVARIADA DA POPULAÇÃO DE PLANTAS DANINHAS EM MANEJO CONSERVACIONISTA

[DataSet11] D:\Fmh\Doutoramento\Tese\Dados\Quantitativos\Questionário Prof essores.sav

ATLAS BRASIL 2013 ANALISE DE ALGUMAS DIMENSÕES DO ATLAS E OUTRAS VARIÁVEIS

Factor Analysis (FACAN) Abrir o arquivo ven_car.sav. Clique Extraction. Utilizar as 10 variáveis a partir de Vehicle Type.

Aula 3: Análise Exploratória de Dados Espaciais (AEDE) Prof. Eduardo A. Haddad

SKATER. Esse arquivo deve conter as informações de cada área dispostas em uma linha, seguindo a estrutura abaixo:

Aula 2: Tipos de variáveis

Análise de Clusters. Aplicações da formação de Grupos (Clustering)

Função discriminante linear de Fisher

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO

Recuperação de Informação em Bases de Texto. Aula 10

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada

PROPOSTA DE NOVAS CLASSES DE RISCO DE ACIDENTE DO TRABALHO NO BRASIL COM A UTILIZAÇÃO DE MÉTRICAS DE VALIDAÇÃO DE AGRUPAMENTOS

Créditos. SCC5895 Análise de Agrupamento de Dados. Relembrando... Aula de Hoje. Algoritmos Hierárquicos: Parte I. [ x ] T. Algoritmos Hierárquicos

ANÁLISE DISCRIMINANTE. Análise discriminante. Função discriminante. Análise de agrupamentos e Análise das componentes principais

SCC5895 Análise de Agrupamento de Dados

Centro de Tratamento de Águas para Plantas

4 Agrupamento de documentos

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

Projected Clustering Algorithm

ATLAS BRASIL 2013 DIMENSÕES DEMOGRAFIA E HABITAÇÃO

Avaliação do conteúdo de potássio em grãos de soja em função dos níveis de água a potássio aplicados

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

PROJETO ORIBER. TEMA: Bem Estar e Qualidade de Vida ANÁLISE DISCRIMINANTE

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

Escalonamento Multidimensional

ATLAS BRASIL 2013 DIMENSÃO DESVULNERABILIDADE

BOLETIM DE ANÁLISE ESTATÍSTICO BASTA 2017 Vol. 1 IDHM

Transcrição:

Segmentação: exemplo chocolate Adilson dos Anjos

Segmentação Pacotes utilizados library(factominer) library(readxl) library(graphics) library(cluster) library(fpc)

Dados sobre Chocolate choco<-read_excel('chocolate.xls') head(choco) # A tibble: 6 x 7 Amostra Marca1A Marca1L Marca2A Marca2L Marca3A Marca3L <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 C1 7 9 4 6 5 7 2 C2 7 9 2 6 1 7 3 C3 6 8 3 3 3 5 4 C4 8 9 6 6 4 7 5 C5 4 5 3 3 5 9 6 C6 5 7 6 7 8 9

Vamos utiliar apenas as notas atribuídas a cada marca por cada consumidor; No arquivo, as colunas 2:7 correspondem a essas notas: choco<-choco[,2:7]

Obtendo a matriz de distâncias euclidianas No R, esse é o tipo de objeto necesário para se obter os agrupamentos: d <- dist(as.matrix(choco)) head(d) [1] 4.472136 4.472136 2.449490 6.244998 5.099020 5.477226

Obtenção do agrupamento pelo Método hierárquico: Vamos utilizar o método de Ward: hc1 <- hclust(d, method = 'ward.d' ) # Método de Ward hc1 Call: hclust(d = d, method = "ward.d") Cluster method : ward.d Distance : euclidean Number of objects: 25

Obtenção do Dendrograma: Sensometria, 2018 Graficamente, pode-se obter o resultado do agrupamento por meio de um dendograma: plot(hc1,main= "Dendrograma - Dados dos chocolates", xlab="consumidores") Dendrograma Dados dos chocolates Height 0 5 10 20

Identificando os grupos formados Sensometria, 2018 Definimos 3 grupos: plot(hc1, main= "Dendrograma - Dados dos chocolates", xlab="consumidores", sub="ward - Dist. Euclidiana") rect.hclust(hc1, k = 3, border = "red") Dendrograma Dados dos chocolates Height 0 5 10 20 7 15 1 6 4 8 25 13 5 18 10 20 1 4 2 2 9 3 17 16 21 2 9 3 14

Definindo um ponto de corte para formar grupos: Aqui é possível obter os consumidores de cada agrupamento: groups <- cutree(hc1, k=3) groups [1] 1 2 2 1 3 3 3 3 2 1 3 1 3 2 3 2 2 3 1 1 2 1 1 3 3

Como seria o gráfico com 3 grupos: plot(hc1, main= "Dendrograma - Dados dos chocolates", xlab= rect.hclust(hc1, k=3, border="red") Dendrograma Dados dos chocolates Height 0 5 10 20 7 15 11 6 24 8 25 13 5 18 10 20 1 4 12 22 19 23 17 16 21 2 9 3 14

Método K médias cl <- kmeans(choco, 3) cl$cluster [1] 1 1 1 1 2 2 2 2 1 3 2 3 2 1 2 3 1 2 3 3 1 3 3 2 2

Centro do cluster para cada variável/atributo. Observe as médias para cada agrupamento: cl$centers Marca1A Marca1L Marca2A Marca2L Marca3A Marca3L 1 7.25 8.875000 3.875000 4.750000 3.625000 6.500000 2 4.90 6.000000 5.400000 5.700000 6.300000 8.700000 3 7.00 8.714286 5.857143 5.857143 6.571429 5.571429

Padronização das variáveis (opcional) Utilizar quando a escala das variáveis for diferente. choco.p<-scale(choco)

k-medias cl <- kmeans(choco.p, 2)

Tamanho do cluster Quantos indivíduos em cada cluster: cl$size [1] 15 10

Mostra o centróide A nota média (observe que a nota foi padronizada) de cada agrupamento para cada variável: cl$centers Marca1A Marca1L Marca2A Marca2L Marca3A M 1-0.2390022-0.2906867 0.6862981 0.5498491 0.4104465 0 2 0.3585033 0.4360301-1.0294472-0.8247736-0.6156697-0

Mostra os grupos Onde cada indivíduo foi localizado: cl$cluster [1] 2 2 2 1 2 1 1 1 2 2 1 1 1 2 1 2 2 1 1 1 2 1 1 1 1

Utilizando o método das Componentes Principais: Qual sua percepção de agrupamento? par(mfrow=c(1,2)) choco.pca<-pca(choco) Sensometria, 2018 Individuals factor map (PCA) Variables factor map (PCA) Dim 2 (27.18%) 4 2 0 1 2 3 20 12 19 22 23 16 1 4 6 14 11 24 17 10 8 7 21 25 2 9 13 15 18 3 5 Dim 2 (27.18%) 1.0 0.0 0.5 1.0 Marca1L Marca2L Marca2A Marca1A Marca3A Marca3L

Gerando os gráficos individuais Sensometria, 2018 Consumidores: par(mfrow=c(1,1)) plot(choco.pca,choix=c('ind')) Individuals factor map (PCA) Dim 2 (27.18%) 4 2 0 1 2 19 12 20 22 4 23 16 1 14 8 9 10 11 21 25 17 2 13 3 18 5 6 24 7 15

Marcas par(mfrow=c(1,1)) plot(choco.pca,choix=c('var')) Variables factor map (PCA) Dim 2 (27.18%) 1.0 0.5 0.0 0.5 1.0 Marca1A Marca1L Marca2L Marca2A Marca3A Marca3L 2 1 0 1 2

O argumento nb.clust=-1 utiliza o número de cluster sugerido pelo programa: par(mfrow=c(1,1)) choco.hpc<-hcpc(choco.pca,nb.clust=-1) 1.0 1.5 2.0 Hierarchical Clustering Hierarchical Classification 0.0 1.0 2.0 inertia gain Hierarchical cluste eight.0 1.5 2.0 2.5 cluster 1 cluster 2 cluster 3

Outra visualização gráfica: plot(choco.hpc) Hierarchical clustering on the factor map cluster 1 cluster 2 cluster 3 height 0.0 0.5 1.0 1.5 2.0 2.5 20 22 1 0 1 23 21 14 16 9 17 10 1 4 19 12 2 13 8 25 11 624 7 2 3 18 15 3 4 3 2 1 0 51 2 3 2 3 Dim 2 (27.18%) Dim 1 (40.75%)

Dim 1 (40.75%) Sensometria, 2018 Mais uma visualização gráfica: plot(choco.hpc,choice= "map") Factor map Dim 2 (27.18%) 4 2 0 1 2 cluster 1 cluster 2 cluster 3 16 14 cluster 1 21 9 2 3 4 1 17 10 19 20 22 12 23 cluster 2 13 6 11 24 8 25 7 cluster 3 18 15 5 6 4 2 0 2 4 6

Número de observações por grupo table(choco.hpc$data.clust$clus) 1 2 3 9 6 10

$quanti $quanti$`1` v.test Mean in category Overall mean sd in categ Marca1L 2.493042 8.777778 7.68 0.4157 Marca1A 2.091269 7.111111 6.24 1.1967 Descrição dos grupos Sensometria, 2018 choco.hpc$desc.var $quanti.var Eta2 P-value Marca1L 0.7189962 8.626491e-07 Marca2A 0.6614140 6.704392e-06 Marca3L 0.6443551 1.151285e-05 Marca1A 0.5112325 3.802989e-04 Marca2L 0.3276846 1.268538e-02 Marca3A 0.2520279 4.099579e-02

Outras descrições Consumidores típicos de cada cluster: choco.hpc$desc.ind$para Cluster: 1 14 9 1 21 17 0.8061739 1.3514587 1.3683779 1.5623851 1.6197491 -------------------------------------------------------- Cluster: 2 22 23 19 12 4 0.4627331 0.8777349 1.0237452 1.1859265 1.4611663 -------------------------------------------------------- Cluster: 3 7 8 24 6 15 0.7945292 1.2349760 1.4506663 1.5046516 1.5099218

para -> indivíduo típico o indivíduo 14 é típico do cluster 1

Consumidores mais distantes de cada cluster: choco.hpc$desc.ind$dist Cluster: 1 2 3 21 9 17 4.282977 4.206401 3.503739 3.077185 2.938673 -------------------------------------------------------- Cluster: 2 12 19 20 22 23 3.418109 3.160583 3.082706 2.854715 2.784526 -------------------------------------------------------- Cluster: 3 18 15 5 7 24 4.006121 4.001038 3.838864 3.306021 3.135607

dist -> distância do indivíduo e o centro dos outros clusters o indivíduo mais distante do cluster 1 é o 2