Técnicas Estatísticas de Agrupamento

Documentos relacionados
Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo. Disciplina: EAD 351. Técnicas Estatísticas de Agrupamento

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

APLICAÇÕES DE ESTATÍSTICA PARA TOMADA DE DECISÃO

APONTAMENTOS DE SPSS

Cap. 6 Medidas descritivas

Estatística 1. Resumo Teórico

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Análise Multivariada Aplicada à Contabilidade

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Prof. Estevam Martins

Estatística

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

QUESTÕES DE CONCURSOS PÚBLICOS ESTATÍSTICA DESCRITIVA

Unidade III Medidas Descritivas

Estatística Descritiva

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Grupo A - I semestre de 2014 Lista de exercícios 2 - Introdução à Estatística Descritiva C A S A (gabarito)

Bioestatística Básica

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

Lista 8 - Introdução à Probabilidade e Estatística

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

Medidas Descritivas de Posição, Tendência Central e Variabilidade

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

André Arruda e Rafael Medeiros

Módulo 18- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa

Módulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

SS714 - Bioestatística

Análise Descritiva de Dados

Estatística Descritiva

Medidas de Posição. Tendência Central. É um valor que representa uma entrada típica, ou central, de um conjunto de dados. média. mediana.

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

Estatística para Cursos de Engenharia e Informática

Conceito de Estatística

Medidas de Posição ou Tendência Central

ESTATÍSTICA DESCRITIVA

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

INE 7001 Estatística para Administradores I Turma Prática 1 15/08/2016 GRUPO:

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

CURSO BÁSICO SPSS Rosangela A. B. Assumpção 2008

Introdução à Probabilidade e Estatística I

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

Estatística Descritiva

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Curso de Especialização em Fisioterapia Traumato-Ortopédica / 2010 NOÇÕES DE STICA

Análise de dados multivariados I

ESTATÍSTICA DESCRITIVA

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

CURTA DURAÇÃO APLICAÇÕES DE ESTATÍSTICA

PARTE 3. Profª. Drª. Alessandra de Ávila Montini

Métodos Quantitativos II

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Correlação e Regressão

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

2. Estatística Descritiva

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

Módulo 19 - Análise Discriminante Geração de Tabelas

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Lista de Exercícios Cap. 2

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

Introdução à probabilidade e estatística I

Estatística Descritiva (I)

Fernando de Pol Mayer

PROCESSOS ESTOCÁSTICOS

Seção 2.1. Distribuições de freqüência e seus gráficos

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

Apontamentos de Introdução às Probabilidades e à Estatística

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

Estatística Aplicada à Administração II

Medidas resumo numéricas

Estatística Descritiva (I)

Excel INTERMEDIÁRIO Estatística. Prof. Cassiano Isler Turma 3

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

Seminário de Análise Multivariada

AGRUPAMENTO DE ESCOLAS DE VILA VIÇOSA GRUPO DE MATEMÁTICA ANO LECTIVO 2018 / 2019 MATEMÁTICA APLICADA ÀS CIÊNCIAS SOCIAIS 10º ANO

Distribuição de frequências:

Estatística Computacional Profª Karine Sato da Silva

IFF FLUMINENSE CST EM MANUTENÇÃO INDUSTRIAL

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

Medidas de Dispersão ou variabilidade

Medidas de dispersão. 23 de agosto de 2018

(a) Use cinco intervalos e construa um histograma e o polígono de frequência. (b) Determine uma medida de posição central e uma medida de dispersão.

Exploração e Transformação de dados

Elementos de Estatística

MEDIDAS DE TENDÊNCIA CENTRAL

Capítulo 1. Análise Exploratória de Dados

Estatística Descritiva

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Transcrição:

Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo Disciplina: EAD 351 Técnicas Estatísticas de Agrupamento

Avisos

Prova 1 21 de Setembro Trabalho Entrega até 24 de novembro Atividade em dupla Prova 2 Unificada 30 de novembro Pesos das Avaliações Prova 1 30 % ; Prova 2 50 % ; Exercícios 10 % ; Trabalhos 10 % 3

Trabalho As duplas devem obter uma base de dados com pelo menos 4 variáveis e 20 elementos. A entrega será feita por envio do trabalho até as 23:00 hs do dia 24 de novembro para um o email: estat.turma2@gmail.com. Deverá ser enviada a base de dados em Excel e o trabalho em Word.

Faltas As faltas serão abonadas somente com atestado médico do HU. O atestado será aceito desde que entregue ao professor até 7 dias após o retorno às aulas. 5

Turma 1 15h20 17h00 Turma 2-13h30 15h10 Horário das Aulas Para a entrada na aula será considerada uma tolerância de 15 minutos. Após a tolerância não será permitida a entrada. 6

Programa da Disciplina

Programa da Disciplina Introdução Revisão análise exploratória de dados Análise de Cluster Análise Fatorial

Análise de Cluster

Introdução

O que significa fazer um agrupamento?

Por que fazer agrupamento? Atender melhor as necessidades dos clientes / consumidores; Lançar produtos de acordo com a necessidade dos clientes / consumidores; Redução de custo; Controle de estoque; Controle de logística;

Análise estratégica para tomada de decisão Definição do Problema Análise Exploratória da Base de Dados Padronização das Variáveis Análise de Cluster Tomada de Decisão Empresarial

Objetivo

O objetivo da análise de cluster é agrupar as observações em grupos de tal forma que dentro de cada grupo as observações são semelhantes e distintas entre os grupos. Dentro de cada grupo a variabilidade deve ser mínima e a variabilidade entre os grupos deve ser máxima. GRUPO 1 GRUPO 2 GRUPO 3

Exemplos

Exemplos Agrupar países de acordo com as variáveis sócio demográficas.

Exemplos Agrupar municípios dentro de um país por meio de variáveis como: distribuição de renda, pib, população, importações, exportações dentre outras.

Exemplos Agrupar pessoas segundo hábitos alimentares semelhantes.

Exemplos Agrupar alimentos de acordo com as calorias.

Exemplos Agrupar clientes de acordo com o hábito de consumo. Alguns clientes adquirem mais produtos eletrônicos, outros adquirem cosméticos, viagem etc.

Métodos de Agrupamento

Métodos de Agrupamentos Método Hierárquico Método das K médias

Análise Exploratória de Dados

Tipos de Variáveis Qualitativas Ordinal (Nível de escolaridade) Nominal (Sexo) Quantitativas Discreta (Número de cursos de aperfeiçoamento realizados nos últimos 3 anos) Contínua (Salário anual) 25

Distribuição Simétrica Quantidade de cursos de aperfeiçoamento % 35,0 30,0 25,0 20,0 15,0 10,0 5,0 0,0 0 1 2 3 4 5 6 Dias de Uso do Cheque Especial 26

Distribuição Assimétrica à Direita Quantidade de cursos de aperfeiçoamento 35,0 30,0 25,0 % 20,0 15,0 10,0 5,0 0,0 0 1 2 3 4 5 6 Dias de Uso do Cheque Especial 27

Distribuição Assimétrica à Esquerda Quantidade de cursos de aperfeiçoamento 35,0 30,0 25,0 % 20,0 15,0 10,0 5,0 0,0 0 1 2 3 4 5 6 Dias de Uso do Cheque Especial 28

Distribuições 29

Resumo dos Dados Tabela de Freqüência Salário Anual Amostra Salário Anual 1 R$ 51.814,00 2 R$ 52.669,70 3 R$ 51.780,30 4 R$ 51.587,90...... 500 R$ 51.752,00 Salário anual Freqüência Freqüência Absoluta Relativa 49.500,00 a 49.999,99 2 0,004 50.000,00 a 50.499,99 16 0,032 50.500,00 a 50.999,99 52 0,104 51.000,00 a 51.499,99 101 0,202 51.500,00 a 51.999,99 133 0,266 52.000,00 a 52.499,99 110 0,220 52.500,00 a 52.999,99 54 0,108 53.000,00 a 53.499,99 26 0,052 53.500,00 a 53.999,99 6 0,012 Total 500 1 30

Resumo dos Dados Histograma Distribuição de Probabilidade do Salário Anual 31

Medidas de Posição Média Aritmética Moda Mediana Quartil Medidas de Dispersão Variância Desvio Padrão Amplitude Coeficiente de Variação 32

Medidas de Posição

Média Aritmética

A média aritmética é obtida a partir da soma das observações dividindo-se pelo total de observações. A média aritmética será denotada por X

Exemplo Considere os salários anuais dos quatro analistas apresentados na tabela A média aritmética para o salário dos analistas é dada por: X 52000 50000 4 48000 50000 50000

Moda

Moda É a realização mais freqüente do conjunto de valores observados Valor Freqüência 3.03 1 3.10 1 3.11 1 3.12 1 3.13 3 3.15 1 3.18 1 38

Mediana

Mediana É a realização que ocupa a posição central da série de observações arranjadas na ordem ascendente (classificação do menor valor para o maior). n ímpar 1 2 3 4 6 7 8 9 30,3 31,0 31,1 31,2 31,3 31,4 31,8 32,5 33,8 Quando o n for par a mediana é a média aritméticas das observações centrais. n par 1 2 3 4 5 6 7 8 9 10 30,3 31,0 31,1 31,2 31,3 31,4 31,8 32,5 35,8 37,0 Mediana = (31,3 + 31,4)/2 =31,35 40

Quartis

Primeiro quartil ( Q1 ) Percentil 25 % - valor da amostra tal que 25 % das observações são menores do que ele; Segundo quartil ( Q2 ) Percentil 50 % - valor da amostra tal que 50 % das observações são menores do que ele (mediana); Terceiro quartil ( Q3 ) Percentil 75 % - valor da amostra tal que 75 % das observações são menores do que ele; 42

Box-plot

Como saber se em sua base de dados existe alguma observação muito diferente das demais?

As observações muito diferente das demais são denominadas ponto fora da curva ou OUTLIER. 35000 30000 25000 20000 15000 10000 5000 0 0 20 40 60 80 100 120 140 160

O Gráfico apresentado é denominado Box-plot. O objetivo do Box-plot é deteminar se existe na base de dados alguma observação muito diferentes das demais (OUTLIER). 46

O primeiro quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3) são apresentados no Box-plot. Q1 Q3 Q2 47

A fronteira inferior é dada por: Q1-1,5(Q3-Q1) A fronteira superior é dada por: Q3 + 1,5(Q3-Q1) Fronteira inferior Fronteira superior 48

O valor mínimo do conjunto de observações e valor máximo do conjunto de observações são destacados no Box-plot. mínimo máximo 49

Quando o valor mínimo for superior a fronteira inferior e o valor máximo for inferior a fornteira supeior não existe OUTLIER, ou seja, não existe nenhuma observação fora do padrão. mínimo máximo 50

Quando o valor mínimo for inferior a fronteira inferior existe OUTLIER, ou seja, existe uma ou mais observações fora do padrão. Todas as observações inferiores a fronteira inferior são denominadas outlier. 51

Quando o valor máximo for superior a fronteira superior existe OUTLIER, ou seja, existe uma ou mais observações fora do padrão. Todas as observações superiores a fronteira superior são denominadas outlier. 52

O Box-plot contém as fronteiras que aparecem pontilhadas e deve-se ter atenção ao mínimo, máximo, primeiro quartil (Q1), segundo quartil (Q2) e terceiro quartil (Q3). Q1-1,5(Q3-Q1) Q1 Q3 Q3+1,5(Q3-Q1) Q2 5 7 9 11 13 15 17 19 mínimo máximo 53

Medidas de Dispersão

Desvio

O desvio é a distância de cada observação à média. 56

Variância Amostral e Desvio Padrão Amostral

A variância amostral, denotada por S 2, é obtida por meio da soma dos desvios elevados ao quadrado dividindo-se pelo total de observações menos um. A variância amostral é dada por: S 2 (2000) 2 (0) 2 ( 2000) 3 2 (0) 2 8.000.000 3 2.666.666,66 58

Como a variância amostral está na unidade ao quadrado, para retornar a unidade original deve-se obter a raiz quadrada da variância amostral. O desvio padrão amostral, denotado por S, é a raiz quadrada da variância amostral. S 2.666.666,66 1.633 59

Coeficiente de Variação

O Coeficiente de Variação é uma medida de dispersão relativa. O Coeficiente de Variação é obtido por meio da divisão do desvio padrão pela média multiplicando-se por 100. Desvio Padrão CV = x 100 Média 61

Exemplo Considere os salários anuais de quatro analistas e de quatro gerentes apresentados na tabela. O coeficiente de variação é obtido por meio da divisão do desvio padrão pela média multiplicando-se por 100. CV = Desvio Padrão x 100 Média Analista Gerente 52000 40000 50000 50000 48000 60000 50000 50000 Média 50000 50000 Desvio Padrão 1633 8165 Coef. de Variação 3,3 16,3 62

Como o coeficiente de variação para o grupo de gerentes é maior do que o coeficiente de variação do grupo de analistas há evidência de que a variabilidade de salários no grupo de gerentes é maior do que a variabilidade no grupo de analistas. Analista Gerente 52000 40000 50000 50000 48000 60000 50000 50000 Média 50000 50000 Desvio Padrão 1633 8165 Coef. de Variação 3,3 16,3 63

O grupo com o maior Coeficiente de Variação é considerado o grupo com maior variabilidade. Média 2000 4000 10000 20000 50000 Desvio Padrão 200 200 200 200 200 Coeficiente de Variação 10.00 5.00 2.00 1.00 0.40 Maior Variabilidade Menor Variabilidade 64

Padronização de variável

Para padronizar uma variável deve-se subtrar da variável original o valor da média e dividir o resultado pelo desvio padrão. A variável padronizada é denominada Z. Z (X S X) X: variável aleatória com média e desvio padrão S X Z: variável aleatória padronizada com média 0 e variância 1. 66

Exercício 1 Considere um executivo realizou uma pesquisa de preço para a compra de um computador. Com base nos preços obtidos com 5 fornecedores calcule as medidas descritivas. Qual foi o valor médio? Qual foi o valor mediano? Preço R$ 5.800,00 R$ 6.300,00 R$ 5.900,00 R$ 5.400,00 R$ 6.200,00 Obtenha o desvio padrão amostral. Obtenha o coeficiente de variação.

Medidas de Similaridade e Dissimilaridade

Na análise de cluster as observações são agrupadas de acordo com medidas de similaridade ou dissimilaridade. Existem várias formas de medir similaridade ou dissimilaridade depende do critério a ser considerado.

A leoa é mais parecida com a gata ou com a cadela?

Para determinar se a leoa é mais parecida com a gata ou com a cadela é necessário definir um critério de similaridade. Considere como critério de similaridade o porte do animal. Neste caso a leoa será mais parecida com a cadela.

Considere agora como critério de similaridade o formato da orelha. Neste caso a leoa será mais parecida com a gata.

Medidas de Similaridade: Quanto maior for a medida de similaridade maior será a semelhança entre os elementos. O coeficiente de correlação linear de Pearson é uma medida de similaridade. Medidas de Dissimilaridade: Quanto maior for a medida de dissimilaridade menor será a semelhança entre os elementos. A distância euclidiana e a distância euclidiana ao quadrado são medidas de dissimilaridade.

Exemplo 1 Banco de Dados: dados1.xls

Considere o exemplo de uma analista de gestão de pessoas que deseja agrupar os candidatos em três grupos considerando duas variáveis: o tempo de formação do candidato e o tempo que o candidato permaneceu na empresa anterior. A Tabela apresenta os valores das variáveis para os cinco candidatos.

Tempo na empresa anterior O Gráfico de dispersão apresenta os valores das variáveis para os cinco candidatos. Candidato 4 Candidato 3 Candidato 1 Candidato 5 Candidato 2 Tempo de formação

Tempo na empresa anterior Como a analista de gestão de pessoas deseja agrupar os candidatos em três grupos considerando duas variáveis o gráfico apresenta uma sugestão de agrupamento. Os candidatos foram agrupados de acordo com um critério. Candidato 4 Grupo 2 Candidato 3 Candidato 1 Grupo1 Candidato 2 Grupo 3 Candidato 5 Tempo de formação

Tempo na empresa anterior O grupo 1 é formado por candidatos com pouco tempo de formação e pouco tempo na empresa anterior. O grupo 2 é formado por candidatos com tempo de formação superior a 7 anos e com tempo na empresa anterior superior a 11 anos. O grupo 3 é formado por um candidato com 12 anos de formação e 2 anos na empresa anterior. Candidato 4 Grupo 2 Candidato 3 Candidato 1 Grupo1 Candidato 2 Grupo 3 Candidato 5 Tempo de formação

Tempo na empresa anterior Um critério de dissimilaridade que pode ser considerado para agrupar observações é a distância Euclidiana. A distância Euclidiana entre os candidatos 2 e 4 é dada pela reta vermelha. Candidato 4 Candidato 3 Candidato 1 Candidato 5 Candidato 2 Tempo de formação

A distância Euclidiana ao Quadrado entre os candidatos 2 e 4 é dada por: D 2 2 2 2 2 8 3 16 4 5 12 169 A distância Euclidiana entre os candidatos 2 e 4 é obtida por meio da raiz quadrada positiva da distância Euclidiana ao Quadrado. D 169 13

Tempo na empresa anterior A distância Euclidiana entre os candidatos 1 e 2 é dada pela reta vermelha. Candidato 4 Candidato 3 Candidato 1 Candidato 5 Candidato 2 Tempo de formação

A distância Euclidiana ao Quadrado entre os candidatos 1 e 2 é dada por: D 2 2 2 2 2 3 2 4 2 1 2 5 A distância Euclidiana entre os candidatos 1 e 2 é obtida por meio da raiz quadrada positiva da distância Euclidiana ao Quadrado. D 5 2,23

A matriz de distância Euclidiana ao Quadrado é uma matriz simétrica. As distâncias Euclidianas ao Quadrado, entre todos os elementos, localizadas acima da diagonal principal são apresentadas na matriz.

A distância Euclidiana é obtida por meio da raiz quadrada da distância Euclidiana ao quadrado. A matriz de distância Euclidiana é uma matriz simétrica. As distâncias Euclidianas, entre todos os elementos, localizadas acima da diagonal principal são apresentadas na matriz.

EXERCÍCIO 2 1 - Obter a matriz de distância Euclidiana para as variáveis padronizadas. 2 Quais os dois lanches mais parecidos?

EXERCÍCIO 3 1 - Obter a matriz de distância Euclidiana para as variáveis padronizadas. 2 Quais os dois lanches mais parecidos?

EXERCÍCIO 4 1 - Obter a matriz de distância Euclidiana para as variáveis padronizadas. 2 Quais os dois lanches mais parecidos?

Técnicas de Agrupamento Vizinho mais Próximo (Nearest Neighbor )

Para a realização dos agrupamentos considerando como técnica de agrupamento o vizinho mais próximo pode-se partir da matriz de distância Euclidiana entre todos os candidatos.

Passo 1 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 1 e 2 possuem as menores distâncias elas serão agrupadas no passo 1. Calcula-se a distância entre as observações 1 e 2 e as demais observações. Distância entre 1 e 3 = 14,14 Distância entre 2 e 3 = 12,04 A menor distância é 12,04. Distância entre 1 e 4 = 15,23 Distância entre 2 e 4 = 13,0 A menor distância é 13,0. Distância entre 1 e 5 = 10,0 Distância entre 2 e 5 = 9,22 A menor distância é 9,22. 90

Passo 1 Elabora-se uma nova matriz de distância com as observações 1 e 2 grupadas.

Passo 2 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 3 e 4 possuem as menores distâncias elas serão agrupadas no passo 2. Calcula-se a distância entre as observações 3 e 4 e as demais observações. Distância entre 3 e (1+2) = 12,04 Distância entre 4 e (1+2) = 13,00 A menor distância é 12,04. Distância entre 3 e 5 = 10,00 Distância entre 4 e 5 = 14,56 A menor distância é 10,00 92

Passo 2 Elabora-se uma nova matriz de distância com as observações 3 e 4 grupadas.

Passo 3 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações (1+2) e 5 possuem as menores distâncias elas serão agrupadas no passo 3. Calcula-se a distância entre as observações (1+2) e 5 e as demais observações. Distância entre (1+2) e (3+4)= 12,04 Distância entre 5 e (3+4) = 10,00 A menor distância é 10,00.

Passo 3 Elabora-se a matriz de distância final.

Técnicas de Agrupamento Vizinho mais Próximo (Nearest Neighbor ) Dendograma

O dendograma é um gráfico que tem como objetivo representar graficamente os passos realizados em um agrupamento feito por um método hierárquico. Com base na análise do dendograma é possível determinar o número de grupos para o conjunto de observações.

Distância Euclidiana Este é o Dendograma gerado a partir dos agrupamentos realizados nos passos de 1 a 3. Dendrograma 10,00 9,220 5,657 2,236 1 2 5 3 4

O elemento 1 foi agrupado ao elemento 2 na distância 2,236. Distância Euclidiana O elemento 3 foi agrupado ao elemento 4 na distância 5,657. O grupo (1+2) foi agrupado ao elemento 5 na distância 9,220. O grupo (1+2+5) foi agrupado ao grupo (3+4) na distância 10,00. 10,00 9,220 Dendrograma 5,657 2,236 1 2 5 3 4

Distância Euclidiana Por meio do dendograma pode-se sugerir o número de grupos a serem considerados. Em geral, observa-se quando o próximo agrupamento é realizado em uma distância muito superior ao agrupamento anterior. 10,00 9,220 Dendrograma 5,657 2,236 1 2 5 3 4

Os elementos 1 e 2 foram agrupados a uma distância de 2,236, os elementos 3 e 4 foram agrupados a uma distância de 5,657. O próximo agrupamento ocorreu na distância 9,220. Como distância entre 9,220 e 5,657 é grande pode-se sugerir separar os grupos em uma distância superior a 5,657 e inferior a 9,220. A linha vermelha representa a separação. Distância Euclidiana 10,00 9,220 Dendrograma 5,657 2,236 Profa. Dra. 1 Alessandra 2 5 de Ávila 3 Montini 4

Distância Euclidiana Considerando a linha vermelha como a separação dos grupos nota-se que os elementos 1 e 2 formam um grupo, o elemento 5 forma um grupo e os elementos 3 e 4 formam um grupo. 10,00 9,220 Dendrograma 5,657 2,236 1 2 5 3 4

Distância Euclidiana Caso o objetivo do problema seja separar os elementos em 2 grupos pode-se considerar a linha vermelha como a separação. Nota-se que os elementos 1, 2 e 5 formam um grupo e os elementos 3 e 4 formam o outro grupo. 10,00 9,220 Dendrograma 5,657 2,236 1 2 5 3 4

EXERCÍCIO 5 Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas.

EXERCÍCIO 6 Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas.

EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas.

Técnicas de Agrupamento Vizinho mais Distante (Furthest neighbor )

Para a realização dos agrupamentos considerando como técnica de agrupamento o vizinho mais distante deve-se partir da matriz de distância Euclidiana entre todos os candidatos.

Passo 1 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 1 e 2 possuem as menores distâncias elas serão agrupadas no passo 1. Calcula-se a distância entre as observações 1 e 2 e as demais observações. Distância entre 1 e 3 = 14,14 Distância entre 2 e 3 = 12,04 A maior distância é 14,14. Distância entre 1 e 4 = 15,23 Distância entre 2 e 4 = 13,0 A maior distância é 15,23. Distância entre 1 e 5 = 10,0 Distância entre 2 e 5 = 9,22 A maior distância é 10,00. 109

Passo 1 Elabora-se uma nova matriz de distância com as observações 1 e 2 grupadas. 1+2 3 4 5 1 + 2 14,14 15,23 10,00 3 5,66 10,00 4 14,56 5

Passo 2 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações 3 e 4 possuem as menores distâncias elas serão agrupadas no passo 2. 1+2 3 4 5 1 + 2 14,14 15,23 10,00 3 5,66 10,00 4 14,56 5 Calcula-se a distância entre as observações 3 e 4 e as demais observações. Distância entre 3 e (1+2) = 14,14 Distância entre 4 e (1+2) = 15,23 A maior distância é 15,23. Distância entre 3 e 5 = 10,00 Distância entre 4 e 5 = 14,56 A maior distância é 14,56 111

Passo 2 Elabora-se uma nova matriz de distância com as observações 3 e 4 grupadas.

Passo 3 Nesse passo deve-se agrupa-se as observações com as menores distâncias. Como as observações (1+2) e 5 possuem as menores distâncias elas serão agrupadas no passo 3. Calcula-se a distância entre as observações (1+2) e 5 e as demais observações. Distância entre (1+2) e (3+4)= 15,23 Distância entre 5 e (3+4) = 14,56 A maior distância é 15,23.

Passo 3 Elabora-se a matriz de distância final.

Técnicas de Agrupamento Vizinho mais Distante (Furthest neighbor ) Dendograma

Distância Euclidiana Este é o Dendograma gerado a partir dos agrupamentos realizados nos passos de 1 a 3. 15,23 Dendrograma Dendrograma 10,00 5,66 2,24 Profa. Dra. 1 Alessandra 2 de 5 Ávila Montini 3 4

Considerando a linha vermelha como a separação dos grupos notase que os elementos 1 e 2 formam um grupo, o elemento 5 forma um grupo e os elementos 3 e 4 formam um grupo. Distância Euclidiana 15,23 Dendrograma Dendrograma 10,00 5,66 2,24 Profa. Dra. 1 Alessandra 2 de 5 Ávila Montini 3 4

EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Considerando 3 grupos calcule a média para as variáveis originais em cada grupo e caracterize os grupos.

Grupo 1 Grupo 2 Grupo 3 Média - Valor Energético Média - Carboidratos Lanches Caracterização dos grupos :

EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Considerando 3 grupos calcule a média para as variáveis originais em cada grupo e caracterize os grupos.

Caracterização dos grupos :

EXERCÍCIO Obter o dendograma considerando o método do vizinho mais próximo e matriz de distância Euclidiana para as variáveis padronizadas. Considerando 3 grupos calcule a média para as variáveis originais em cada grupo e caracterize os grupos.

Caracterização dos grupos :

Técnicas de Agrupamento Método da Centróide (Centroid clustering)

Exemplo 2

Dada a matriz de distância agrupe os elementos por meio do método da centróide e construa o dendograma. 1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 126

Como a menor distância é entre os elementos 1 e 2 eles serão agrupados no passo 1. 1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 127

Passo 1 Os elementos 1e 2 eles serão agrupados no passo1. Os elementos que serão agrupados são denominados p e q A novo grupo (p+q) é denominado t. 1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 Neste caso p = 1, q = 2 e t = (1+2)

Os elementos que serão agrupados são denominados p e q A novo grupo (p+q) é denominado t. A distância entre o novo grupo t e o elemento/grupo r é dada por S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S Em que, Np é o número de observações no grupo p, Nq é o número de observações no grupo q, Sp,r é a distância entre p e r, Sq,r é a distância entre q e r, Sp,q é a distância entre p e q.

Cálculo da distância do grupo 1+2 para o elemento 3

1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 p = 1 e q=2 t = (1+2) r = 3 S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S S N N * N 1 2 1 2 ( 1 2),3 S1,3 S2,3 S 2 1,2 N1 N2 N1 N2 N1 N2 N 1 1 1*1 ( 1 2),3 S1,3 S2,3 S1,2 0,5*14,14 0,5*12,04 (0,25)*2,24 12,53 2 1 1 1 1 1 1

Cálculo da distância do grupo 1+2 para o elemento 4

1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 p = 1 e q=2 t = (1+2) r = 4 S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S S N N * N 1 2 1 2 ( 1 2),4 S1,4 S2,4 S 2 1,2 N1 N2 N1 N2 N1 N2 N 1 1 1*1 ( 1 2),4 S1,4 S2,4 S1, 0,5*15,23 0,5*13,00 (0,25)*2,24 13,55 2 1 1 1 1 1 1 S 2

Cálculo da distância do grupo 1+2 para o elemento 5 1 + 2 3 4 5 1+2 3 4 5

1 2 3 4 5 1 2,24 14,14 15,23 10,00 2 12,04 13,00 9,22 3 5,66 10,00 4 14,56 5 p = 1 e q=2 t = (1+2) r = 5 S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S S N N * N 1 2 1 2 ( 1 2),5 S1,5 S2,5 S 2 1,2 N1 N2 N1 N2 N1 N2 N 1 1 1*1 ( 1 2),5 S1,5 S2,5 S1, 0,5*10,00 0,5*9,22 (0,25)*2,24 2 1 1 1 1 1 1 S 2 9,05

Matriz de distância após agrupar os elementos 1 e 2 1+2 3 4 5 1 + 2 12,53 13,56 9,05 3 5,66 10,00 4 14,56 5

Passo 2 Os elementos 3 e 4 eles serão agrupados no passo 2. 1 + 2 3 4 5 1 + 2 12,53 13,56 9,05 3 5,66 10,00 4 14,56 5

Cálculo da distância do grupo 3+4 para o grupo (1+2) 1 + 2 3+4 5 1+2 3+4 5

1 + 2 3 4 5 1 + 2 12,53 13,56 9,05 3 5,66 10,00 4 14,56 5 p = 3 e q=4 t = (3+4) r = (1+2) S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S S N * N 3 4 3 4 ( 3 4),(1 2) S3,(1 2) S4,(1 2) S 2 3,4 N3 N4 N3 N4 N3 N4 N N 1 1 1*1 ( 3 4),(1 2) S3,(1 2) S4,(1 2) S3, 0,5*12,53 0,5*13,56 (0,25)*5,66 11,63 2 1 1 1 1 1 1 S 4

Cálculo da distância do grupo 3+4 para o elemento 5 1 + 2 3+4 5 1+2 3+4 5

1 + 2 3 4 5 1 + 2 12,53 13,56 9,05 3 5,66 10,00 4 14,56 5 S t,r N p N p N q S p,r N p N q N p = 3 e q=4 t = (3+4) q r = 5 S q,r N 2 p, q N N p p * N q q S S N N * N 3 4 3 4 ( 3 4),5 S3,5 S4,5 S 2 3,4 N3 N4 N3 N4 N3 N4 N 1 1 1*1 ( 3 4),5 S3,5 S4,5 S3, 0,5*10,00 0,5*14,56 (0,25)*5,66 10,86 2 1 1 1 1 1 1 S 4

Matriz de distância após agrupar os elementos 3 e 4 1+2 3+4 5 1 + 2 11,63 9,05 3+4 10,86 5

Passo 3 Os elementos (1+2) e 5 eles serão agrupados no passo 3. 1+2 3+4 5 1 + 2 11,63 9,05 3+4 10,86 5

Cálculo da distância do grupo (1+2)+5 para o grupo (3+4) 1 + 2 + 5 3+4 1+2+5 3+4

1+2 3+4 5 1 + 2 11,63 9,05 3+4 10,86 5 p = (1+2) e q=5 t = (1 + 2) + (5) r = (3+4) S t,r N p N p N q S p,r N p N q N q S q,r N 2 p, q N N p p * N q q S S N (1 2) 5 (1 2) 5 ( 1 2) 5,(3 4) S(1 2),(3 4) S5,(3 4) S N(1 2) N5 N(1 2) N5 (1 2) 5 N N * N 2 (1 2), 5 N N 2 1 2*1 ( 1 2) 5,(3 4) 11,63 10,87 9,05 2 1 2 1 2 1 S 2 9,36

Matriz de distância final 1+2+5 3+4 1 + 2 + 5 15,23 3+4

Técnicas de Agrupamento Método da Centróide (Centroid clustering) Dendograma

Distância Euclidiana Este é o Dendograma gerado a partir dos agrupamentos realizados nos passos de 1 a 3. 15,23 Dendrograma Dendrograma 9,05 5,66 2,24 Profa. Dra. 1 Alessandra 2 de 5 Ávila Montini 3 4

Considerando a linha vermelha como a separação dos grupos nota-se que os elementos 1 e 2 formam um grupo, o elemento 5 forma um grupo e os elementos 3 e 4 formam um grupo. Distância Euclidiana 15,23 Dendrograma Dendrograma 9,05 5,66 2,24 Profa. Dra. 1 Alessandra 2 de 5 Ávila Montini 3 4

Exercício Pokémon

HP (hit points) Representam a quantidade de vida, ou saúde do Pokémon e a quantidade de dano que ele consegue levar antes de ser liquidado. Quanto maior o HP, mais vida o Pokémon terá e, portanto, mais difícil será liquidá-lo. Attack (Ataque) Determina a quantidade de dano que um Pokémon pode infligir no outro usando um movimento de ataque físico. Quanto maior o ataque, mais dano o Pokémon pode infligir em seu adversário. Defense (Defesa) Mostra a capacidade do Pokémon se defender quando recebe um ataque físico. Quanto maior a Defense (defesa), menor dano ele receberá quanto atacado fisicamente.

Pokemon HP Attack Defense HP Attack Defense Chansey 250 5 5 1,50-1,47-1,33 Snorlax 160 110 65 0,39 0,42 0,00 Dragonite 91 134 95-0,46 0,85 0,66 Rhydon 105 130 120-0,29 0,78 1,22 Pikachu 35 55 40-1,15-0,57-0,55 Média 128,2 86,8 65 Desvio Padrão 81,32 55,53 45,14

Exercício 1

Considere o exemplo de um diretor que deseja agrupar seus vendedores de acordo com as vendas diárias realizadas no estado de São Paulo e no estado do Rio de Janeiro. A Tabela apresenta os valores das variáveis para os cinco vendedores para um dia de venda. Vendedor Venda SP Venda RJ 1 2 8 2 5 3 3 5 2 4 2 2 5 3 7

a - Obtenha os elementos que estão acima da diagonal principal da matriz de distância Euclidiana dos vendedores. Responder com 3 casas decimais. 1 2 3 4 5 1 2 3 4 5

b - Obtenha todas as matrizes de agrupamentos e faça o dendograma.

Exercício 2

Considere o exemplo de um diretor que deseja agrupar seus vendedores de acordo com as vendas diárias realizadas no estado de São Paulo e no estado do Rio de Janeiro. A Tabela apresenta os valores das variáveis para os cinco vendedores para um dia de venda. Vendedor Venda SP Venda RJ 1 1 8 2 3 3 3 5 5 4 2 2 5 3 8

a - Obtenha os elementos que estão acima da diagonal principal da matriz de distância Euclidiana dos vendedores. Responder com 3 casas decimais. 1 2 3 4 5 1 2 3 4 5

b - Obtenha todas as matrizes de agrupamentos e faça o dendograma.

Exercício 3

Considere o exemplo de um diretor que deseja agrupar seus vendedores de acordo com as vendas diárias realizadas no estado de São Paulo e no estado do Rio de Janeiro. A Tabela apresenta os valores das variáveis para os cinco vendedores para um dia de venda.

a - Obtenha os elementos que estão acima da diagonal principal da matriz de distância Euclidiana dos vendedores. Responder com 3 casas decimais. 1 2 3 4 5 1 2 3 4 5

b - Obtenha todas as matrizes de agrupamentos e faça o dendograma.

Aplicação no PASW Statistics

Exemplo 3

Considere o exemplo de uma analista de gestão de pessoas que deseja agrupar os candidatos em três grupos considerando duas variáveis: o tempo de formação do candidato e o tempo que o candidato permaneceu na empresa anterior. A Tabela apresenta os valores das variáveis para os cinco candidatos.

Neste exemplo será utilizado o software PASW Statistics versão 18.

Importar a Base de Dados

Para importar um arquivo clicar em File, localizar o arquivo no computador e clicar em open.

Caso a primeira linha do arquivo a ser importado tiver o nome das variáveis deixar a opção que está marcada selecionada e clicar em OK.

O PASW Statistics importou de forma adequada a a base de dados.

Clicar em Variable View para verificar o tipo de cada variável.

A variável candidato é uma string e não uma variável numérica. Para trocar o tipo de variável clicar em TYPE, selecionar o tipo desejado e clicar em OK.

Agora a variável candidato é uma string.

Cluster Hierárquico

Selecionar Analyze, Classify e Hierarchical Cluster

Selecionar as variáveis que deverão ser utilizadas para formar os grupos e selecionar a variável Label.

As variáveis que deverão ser utilizadas para formar os grupos e a variável Label foram selecionadas.

No menu Statistics, Fazer estas seleções :

No menu Plots. Fazer estas seleções :

No menu Method, Selecionar um dos métodos de agrupamento

Neste exemplo selecionar o vizinho mais próximo (Nearest Neighbor )

No menu Method, Selecionar uma das medidas

Neste exemplo selecionar a Distância Euclidiana

Após a seleção das opções clicar em ok

O PASW Statistics gera um output com todos os resultados.

Número de elementos da base de dados e a matriz com as distâncias Euclidianas.

O PASW Statistics mostra quais os elementos que foram agrupados e em que distância. No estágio 1, o elemento 1 foi agrupado ao elemento 2 na distância 2,236. No estágio 2, o elemento 3 foi agrupado ao elemento 4 na distância 5,657. No estágio 3, o grupo (1+2) foi agrupado ao elemento 5 na distância 9,220. No estágio 4, o grupo (1+2+5) foi agrupado ao grupo (3+4) na distância 10,00.

O PASW Statistics gera o dendograma. Neste dendograma o PASW Statistics não apresenta no eixo vertical as distâncias euclidianas originais. O PASW Statistics faz uma mudança de escala. Dendrograma

Exemplo 4 Banco de Dados: MCDONALDS.xls

Neste exemplo pretende-se agrupar os lanches do Mcdonalds de acordo com as variáveis apresentadas.

Método Hierárquico

As variáveis que deverão ser utilizadas no cluster foram selecionadas e a variável Label foi selecionada.

No menu Statistics, Fazer estas seleções :

No menu Plots, Fazer estas seleções :

Método Hierárquico Vizinho mais próximo (Nearest neighbor)

Selecionar: Cluster Method: Vizinho mais próximo (Nearest neighbor) Measure : Distância Euclidiana (Euclidian distance) Transform Values: Z scores (transforma cada variável e considera as variáveis padronizadas).

A variável padronizada é denominada Z. Z (X S X) X X: variável aleatória com média e desvio padrão S Z: variável aleatória padronizada com média 0 e variância 1.

Dendrograma

Método Hierárquico Vizinho mais distante (Furthest neighbor)

Selecionar: Cluster Method: Vizinho mais distante (Furthest neighbor) Measure : Distância Euclidiana (Euclidian distance) Transform Values: Z scores (transforma cada variável e considera as variáveis padronizadas

Dendrograma

Método Hierárquico Centróide

Selecionar: Cluster Method: Centróide (Centroid clustering) Measure : Distância Euclidiana (Euclidian distance) Transform Values: Z scores (transforma cada variável e considera as variáveis padronizadas

Dendrograma

Como pode ser observado os dendogramas gerados pelos métodos vizinho mais próximo, vizinho mais distante e centróide são diferentes. Para exemplificar os agrupamentos considere o método do vizinho mais distante.

Dendrograma

Exercício 1 base de dados: MCdonalds1.xls

Considerando as variáveis padronizadas, o método da centróide e a matriz de distância Euclidiana, faça o dendograma. Obtenha 5 grupos com a base de dados: MCdonalds1.xls 1 Quais os lanches estão em cada grupo. Responder com o numero do lanche e não com o nome. Considerar a formação da esquerda para a direita: Grupo 1: Grupo 2: Grupo 3: Grupo 4: Grupo 5:

Exercício 2 base de dados: POKEMON1.xls

Todas as variáveis devem estar como : ESCALA.

Considerando as variáveis padronizadas, o método do vizinho mais distante e a matriz de distância Euclidiana, faça o dendograma. Obtenha 4 grupos com a base de dados: POKEMON1.xls. Considerar a formação da esquerda para a direita: 1 Complete a tabela abaixo e caracterize os grupos.

Método das k médias

No método das K médias é necessário definir, a priori, o número de grupos (clusters). 219

Padronização da Base de Dados

Antes de iniciar o método das K médias deve-se padronizar as variáveis. Para padronizar as variáveis, selecionar Analyze, Descriptive Statistics e Descriptives.

Selecionar todas as variáveis que serão utilizadas para realizar o agrupamento

O PASW Statistics gera colunas novas com as variáveis padronizadas.

Método das K médias

Para fazer os agrupamentos pelo método das k médias, selecionar Analyze, Classify e K-Means Cluster.

As variáveis padronizadas que deverão ser utilizadas no cluster foram selecionadas, a variável Label foi selecionada e foi determinado o número de grupos desejados (neste exemplo 3 grupos). 226

Na opção Iterate, Colocar 100 iterações.

Na opção Save, Fazer esta seleção.

Na opção options, Fazer estas seleções.

O PASW Statistics gera um output com todos os resultados.

Método das K médias Análise de Variância

O PASW Statistics gera um output com todos os resultados. Esta tabela gerada faz uma comparação das médias das variáveis entre os grupos.

Teste F para comparação de médias H 0 : as médias da variável são iguais para todos os grupos; H 1 : as médias da variável são diferentes em pelo menos um grupo; A variável Zscore:Valor energético é a variável Valor energético padronizada (com média zero e desvio padrão 1). A hipótese testa se a média dessa variável para o grupo 1 é igual a média dessa variável para o grupo 2 e é igual a média dessa variável para o grupo 3.

Teste F para comparação de médias Considere o teste F feito para a variável: Zscore:Valor energético A estatística do teste possui distribuição F com 2 e 22 graus de liberdade.

Teste F para comparação de médias O valor da estatística do teste é 86,075. A área a direita da estatística do teste é denominada nível descritivo (Sig). Distribuição F Nível descritivo 86,075

Teste F para comparação de médias H 0 : as médias da variável são iguais para todos os grupos; H 1 : as médias da variável são diferentes em pelo menos um grupo; Regra de decisão: Quando o Sig (Nível descritivo do teste) for menor do que α (0,10) rejeitamos H 0, ou seja, há evidência de que as médias da variável são diferentes em pelo menos um grupo

Como o Sig associado `a variável Zscore: Fibra Alimentar é maior do que 0,10 há evidência de que as médias dessa variável são iguais para todos os grupos. Desta forma esta variável não é importante para a formação dos grupos. Como o Sig associado as demais variáveis são inferiores a 0,10 as demais variáveis são importantes.

Ajusta-se novamente a análise de cluster pelo método das k médias sem a variável Zscore: Fibra Alimentar. Como o Sig associado as variáveis são inferiores a 0,10 todas essas variáveis são importantes.

Método das K médias Número de Observações nos Grupos

O PASW Statistics gera um output com o número de observações em cada grupo. Agora é necessário caracterizar os grupos.

O PASW Statistics coloca na base de dados o grupo relacionado a cada elemento. Esta nova variável é denominada:

Análise Exploratória dos Grupos Box-plot

Para obter o Box-plot de cada um dos grupos para cada variável deve-se selecionar Graphs, Legacy Dialogs e Box-plot.

Fazer esta seleção.

Selecionar a variável, colocar a variável grupo em category Axis e colocar a variável com o nome dos lanches em label.

Box-plot da variável Valor Energéticos para cada um dos grupos.

Análise Exploratória dos Grupos Split File

Para obter um análise para cada grupo deve-se partir o banco de dados por grupo. Selecionar Data e Split File.

Selecionar Organize output by groups e colocar a variável grupo.

Análise Exploratória dos Grupos Medidas Descritivas

Para obter as estatísticas descritivas selecionar Analyze, Descriptive Statistics e Descriptives. cv

Selecionar as variáveis originais.

Selecionar as medidas descritivas desejadas.

O PASW Statistics gera uma tabela com as medidas descritivas selecionadas para cada grupo.

Análise Exploratória dos Grupos Caracterização dos Grupos

Com base nas medidas descritivas geradas no PASW Statistics pode-se obter a seguinte tabela com as médias das variáveis para cada grupo. Adicionalmente pode-se obter uma tabela similar para cada medida descritiva. Variável Grupo 1 Grupo 2 Grupo 3 Valor Energético 408,24 855,67 567,40 Ferro 2,76 5,33 8,88 Colesterol 44,41 129,33 77,40 Calcio 113,35 257,00 216,20 Proteínas 23,35 48,67 29,20 Carboidratos 39,53 52,67 40,80 Gorduras Saturadas 5,08 22,00 13,80 GordurasTrans 0,28 1,70 1,00 Sódio 1073,82 1714,67 1094,00 GordurasTotais 17,30 50,00 32,00 OBS: a cor vermelho representa o grupo de maior média para a variável, a cor cinza representa o grupo com a segunda maior média para a variável e a cor verde representa Profa. o Dra. grupo Alessandra de menor de média Ávila para Montini a variável.

Nota-se que o grupo 1 apresenta as menores médias para todas as variáveis. O grupo 2 apresenta as maiores médias para todas as variáveis (exceto para o ferro). O grupo 3 apresenta valores médios intermediários (próximos do grupo 2) para as variáveis e maior valor médio para a variável ferro. Variável Grupo 1 Grupo 2 Grupo 3 Valor Energético 408,24 855,67 567,40 Ferro 2,76 5,33 8,88 Colesterol 44,41 129,33 77,40 Calcio 113,35 257,00 216,20 Proteínas 23,35 48,67 29,20 Carboidratos 39,53 52,67 40,80 Gorduras Saturadas 5,08 22,00 13,80 GordurasTrans 0,28 1,70 1,00 Sódio 1073,82 1714,67 1094,00 GordurasTotais 17,30 50,00 32,00

Grupo 1 - apresenta as menores médias para todas as variáveis. Chicken Club Crispy Chicken Club Grill Chicken Bacon Crispy Chicken Classic Crispy McChicken Chicken Lemon Crispy Chicken Classic Grill Chicken Bacon Grill Chicken Lemon Grill McFish Wrap Crispy Maionese Wrap Grill Maionese Wrap Crispy Lemon McChicken Jr Cheeseburger Wrap Grill Lemon Hamburger

Grupo 2 Colesterol médio e sódio médio muito maior que os demais grupos. Grupo 2

Grupo 3 maior valor médio para a variável ferro

Exercício 1

1- PADRONIZAR AS VARIÁVEIS

VARIÁVEIS PADRONIZADAS

Obter 8 grupos pelo método das K médias

1. Obter um Box plot para cada variável original considerando os 8 grupos. 2. Completar a tabela abaixo com as médias e caracterizar os 8 grupos.

3. Completar a tabela abaixo com o valor mínimo e caracterizar os 8 grupos. 4. Completar a tabela abaixo com o valor máximo e caracterizar os 8 grupos.

Exercício 2

Considere o dendograma realizado por meio da técnica de agrupamento do vizinho mais distante e considere a matriz de distância Euclidiana. Suponha que o objetivo seja separar os lanches em três grupos.

Considere o agrupamento em três grupos e considere o grupo do lanche Quarteirão. Obtenha a média, o desvio padrão e o coeficiente de variação para a variável valor energético para os lanches do grupo do lanche Quarteirão. ValorEnergético Carboidratos Proteínas Angus Deluxe 863 56 51 Angus Bacon 861 57 54 Big Tasty 843 45 41 CBO 643 56 27 Mcnifico Bacon 625 38 34 Chicken Club Crispy 610 54 31 Quarterão 558 36 31 Chicken Club Grill 545 46 41 Chicken Bacon Crispy 515 45 27 Cheddar McMelt 507 33 29 Big Mac 504 41 25 a) Média: ; b) Desvio padrão: ; c) Coeficiente de Variação ;

Exercício 3

Considere um colecionador de motos que deseja agrupar as motos de acordo com algumas variáveis. A tabela apresenta a ANOVA. Marque as variáveis que você acha adequado utilizar na análise de clusters considerando o método das k médias. Considerar α = 0,10. ( ) Cilindrada ( ) Potencia ( ) Torque ( ) Cambio ( ) Velocidade ( ) Aceleração Cluster Error Mean Square Df Mean Square df F Sig. Cilindrada 865784,046 2 89808,716 12 9,640,003 Potencia 11173,286 2 411,478 12 27,154,000 Torque 63,177 2 6,405 12 9,863,003 Cambio 8,571 2 3,571 12 2,400,133 velocidade 9842,493 2 1303,274 12 7,552,008 aceleracao 36,796 2 14,635 12 2,514,122