ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 7 Análise de Clusters

Documentos relacionados
ESTATÍSTICA MULTIVARIADA 1º. Semestre 2008/09

[DataSet11] D:\Fmh\Doutoramento\Tese\Dados\Quantitativos\Questionário Prof essores.sav

Módulo 18- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico

UNIVERSIDADE DOS AÇORES Licenciatura em Sociologia. Análise de Dados

ESTATÍSTICA MULTIVARIADA. 2º. Semestre 2006/07

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

Análise Multivariada Aplicada à Contabilidade

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

Descrição do Método de Análise de Clusters

Módulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico

Análise de Agrupamento. Cluster Analysis

Análise de Agrupamento (Cluster analysis)

VARIEDADES DE SOBREMESAS DO MCDONALDS SEGUNDO SUAS CARACTERÍSTICAS NUTRICIONAIS: UMA APLICAÇÃO DE ANÁLISE DE AGRUPAMENTO

Análise de dados multivariados I

A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP

Escola: Nome: Turma: N.º: Data: / / FICHA DE TRABALHO

Agrupamento Espectral e Hierárquico

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

ALIMENTAÇÃO SAUDÁVEL. Dra. Helena Maia Nutricionista

Níveis descritivos de testes estatísticos de variabilidade como medidas de similaridade entre objetos em análises de agrupamento

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 3 Distribuição Normal Multivariada

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

Técnicas Estatísticas de Agrupamento

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 5 Análise Factorial de Componentes Principais

Aula 3 Representação do Conhecimento

Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite

2COP229 Inteligência Computacional. Aula 3. Clusterização.

APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES

Consistência do padrão de agrupamento de cultivares de milho

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

Valor nutricional do mel na dieta mediterrânica

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

Pré processamento de dados II. Mineração de Dados 2012

O que são nutrientes?

Escola: Nome: Turma: N.º: Data: / / FICHA DE TRABALHO 1. fibras vegetais glícidos reguladora. plástica lípidos energética

Nutrientes. Leonardo Pozza dos Santos

Inteligência nos Negócios (Business Inteligente)


ANÁLISE DE CONGLOMERADOS E OS INDICADORES DE GOVERANÇA MUNDIAL

Ciências Naturais, 6º Ano. Ciências Naturais, 6º Ano FICHA DE TRABALHO 1. Escola: Nome: Turma: N.º: Conteúdo: Nutrientes Alimentares: Funções Gerais

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS

Medidas de Semelhança

Centro de Tratamento de Águas para Plantas

Existem feijões de várias cores?

Universidade Católica Portuguesa Faculdade de Ciências Económicas e Empresariais. ESTATÍSTICA MULTIVARIADA 1º. Semestre 2004/05

ESTATÍSTICA APLICADA

Escalonamento Multidimensional

A análise de aglomerados

Universidade Católica Portuguesa Faculdade de Ciências Económicas e Empresariais. ESTATÍSTICA MULTIVARIADA 2º. Semestre 2006/07

Métodos de Agrupamento (Clustering) Aula 18

UNIVERSIDADE FEDERAL DE ALFENAS PROGRAMA DE ENSINO

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 6 Análise Discriminante

TABELAS NUTRICIONAIS E RÓTULOS DOS ALIMENTOS TABELA NUTRICIONAL

TABELAS NUTRICIONAIS E RÓTULOS DOS ALIMENTOS TABELA NUTRICIONAL

ANEXO 2 INGESTÃO NUTRICIONAL

Autocorrelação Espacial. Sistemas de Informação Geográfica II. Estatística espacial MAUP. Estatísticas espaciais. Estatística espacial

Técnicas Multivariadas em Saúde

Análise de dados: clustering e redução de dimensionalidade

Aprendizagem de Dados Simbólicos e/ou Numéricos

Copyright Biostrument, S.A.

Exercícios de Excel com Programação em VBA. Luís Vieira Lobo

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

Unidade de Cuidados na Comunidade de Castelo Branco. Alimentação Saudável L/O/G/O.

Licenciatura em GRH Tratamento de informação

Análise Discriminante

Extracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica

Escola Básica e Sec. Fernão do Pó Projeto NutreBem Desportivamente Ano letivo Lanches Saudáveis. Paulo Baptista

ÍNDICE Janelas Menus Barras de ferramentas Barra de estado Caixas de diálogo

Este conjunto de testes formativos para a cadeira de Matemática Discreta baseia-se na matéria do manual indicado.

A Roda dos Alimentos LEITE

Clustering (k-means, SOM e hierárquicos)

Você é o que você come? A composição química dos seres vivos

ANEXO 2 INGESTÃO NUTRICIONAL

ESCOLA SECUNDÁRIA JAIME MONIZ Matemática Aplicada às Ciências Sociais 10º ano

Atividades criativas, padrões residenciais e crescimento urbano

HI! WE ARE STUDENTS FROM D. ANTÓNIO DA COSTA SCHOOL IN ALMADA - PORTUGAL AND OUR WORK IS BASICALLY

Erly Catarina de Moura NUPENS - USP

Clustering: k-means e Agglomerative

Alimentar-se bem, para um envelhecer mais saudável. Juliana Aquino

HÁBITOS ALIMENTARES DOS PORTUGUESES ALTERARAM-SE

NUTRIENTES. Profª Marília Varela Aula 2

Segmentação: exemplo chocolate

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

EXECUTIVE MASTER EM APPLIED BUSINESS ANALYTICS

treinofutebol.net treinofutebol.net

Preocupação com a alimentação saudável

> as disponibilidades alimentares são agora. > os hábitos alimentares mudaram devido à. > os conhecimentos científicos evoluíram.

Ementas Primavera/Verão Creche (1-3 anos)

Cálculo Diferencial e Integral I

Cardiovascular 29% Infectious & Parasitic 19% Other 3% Injury 9% Digestive 4% Respiratory. Respiratory Infections. 7% Neuropsychiatric

ROTULAGEM NUTRICIONAL. Nutricionista Geisa L. A. de Siqueira

INSTITUTO SUPERIOR TÉCNICO LEFT LEBL LQ LEAM LEMAT Ano Lectivo: 2006/2007 Semestre: 2 o

Exame Final de Métodos Estatísticos

O quadrado e outros quadriláteros

Inteligência nos Negócios (Business Inteligente)

Exame de Aprendizagem Automática

Transcrição:

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11 EXERCÍCIOS PRÁTICOS - CADERNO 7 Análise de Clusters 16-05-11 7.1

7.1 (A1) Considere a seguinte matriz de distâncias : 1 1 0 2 1 3 5 4 6 2 0 2 3 3 0 4 4 0 Determine os clusters para estes 4 objectos assumindo: a) Um modelo hierárquico "single linkage". b) Um modelo hierárquico "complete linkage". c) Um modelo hierárquico "average linkage". d) Desenhe os dendrogramas e compare os resultados dos três modelos. 7.2. (T) Considere agora a matriz de distâncias: 1 1 0 2 4 3 6 4 2 5 6 2 0 9 7 3 3 0 10 5 4 0 8 5 0 Repita as alíneas a) a d) do exercício anterior. 7.3. (A1) Uma amostra para as cotações das acções de 5 empresas transaccionadas na NYSE permitiu calcular a seguinte matriz de correlações entre as cotações dos títulos (arredondadas a 2 casas decimais): Allied Chemical Du Pont Union Carbide Exxon Texaco Allied Chemical 1 Du Pont.58 1 Union Carbide.51.60 1 Exxon.39.39.44 1 Texaco.46.32.43.52 1 Usando as correlações como medida de semelhança entre os títulos construa os clusters das acções usando os modelos de "single linkage" e "complete linkage". 16-05-11 7.2

7.4. (A1) Para quatro indivíduos (A D) foram medidas as variáveis X 1 e X 2 obtendo-se: Indiv. X 1 X 2 A 5 4 B 1-2 C -1 1 D 3 1 Use o algoritmo das K-médias para dividir os indivíduos em K=2 grupos. a) Comece com os grupos (AB) e (CD). b) Repita começando com os grupos (AC) e (BD). 7.5. (A2) O quadro seguinte apresenta dados sobre 43 marcas comerciais de cereais de pequeno almoço para os quais se mediram 9 variáveis (dispõe destes dados no ficheiro CEREAIS.SAV) X 1 - Fabricante X 2 - teor de calorias X 3 - " proteínas X 4 - " gordura X 5 - " sódio X 6 - " fibras X 7 - " hidratos de carbono X 8 - " açúcar X 9 - " potássi0 Utilize o SPSS para a) Calcular a distância euclideana entre cada par de marcas de cereais. b) Utilizando essas distâncias agrupar as marcas de cereais usando os métodos de "single linkage" e "complete linkage". Compare os dendrogramas. c) Utilize os algoritmo das K-médias para agrupar as marcas de cereais. Use K=2, 3 e 4 e compare os resultados. 16-05-11 7.3

Marca X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 ACCheerios G 110 2 2 180 1.5 10.5 10 70 Cheerios G 110 6 2 290 2 17 1 105 CocoaPuffs G 110 1 1 180 0 12 13 55 CountChocula G 110 1 1 180 0 12 13 65 GoldenGrahams G 110 1 1 280 0 15 9 45 HoneyNutCheerios G 110 3 1 250 1.5 11.5 10 90 Kix G 110 2 1 260 0 21 3 40 LuckyCharms G 110 2 1 180 0 12 12 55 MultiGrainCheerios G 100 2 1 220 2 15 6 90 OatmealRaisinCrisp G 130 3 2 170 1.5 13.5 10 120 RaisinNutBran G 100 3 2 140 2.5 10.5 8 140 TotalCornFlakes G 110 2 1 200 0 21 3 35 TotalRaisinBran G 140 3 1 190 4 15 14 230 TotalWholeGrain G 100 3 1 200 3 16 3 110 Trix G 110 1 1 140 0 13 12 25 Cheaties G 100 3 1 200 3 17 3 110 WheatiesHoneyGold G 110 2 1 200 1 16 8 60 AllBran K 70 4 1 260 9 7 5 320 AppleJacks K 110 2 0 125 1 11 14 30 CornFlakes K 100 2 0 290 1 21 2 35 CornPops K 110 1 0 90 1 13 12 20 CracklinOatBran K 110 3 3 140 4 10 7 160 Crispix K 110 2 0 220 1 21 3 30 FrootLoops K 110 2 1 125 1 11 13 30 FrostedFlakes K 110 1 0 200 1 14 11 25 FrostedMiniWheats K 100 3 0 0 3 14 7 100 FruitfulBran K 120 3 0 240 5 14 12 190 JustRightCrunchyNuggets K 110 2 1 170 1 17 6 60 MueslixCrispyBlend K 160 3 2 150 3 17 13 160 NutNHoneyCrunch K 120 2 1 190 0 15 9 40 NutriGrainAlmondRaisin K 140 3 2 220 3 21 7 130 NutriGrainWheat K 90 3 0 170 3 18 2 90 Product19 K 100 3 0 320 1 20 3 45 RaisinBran K 120 3 1 210 5 14 12 240 RiceKrispies K 110 2 0 290 0 22 3 35 Smacks K 110 2 1 70 1 9 15 40 SpecialK K 110 6 0 230 1 16 3 55 CapNCrunch Q 120 1 2 220 0 12 12 35 HoneyGrahamOhs Q 120 1 2 220 1 12 11 45 Life Q 100 4 2 150 2 12 6 95 PuffedRice Q 50 1 0 0 0 13 0 15 PuffedWheat Q 50 2 0 0 1 10 0 50 QuakerOatmeal Q 100 5 2 0 2.7 1 1 110 16-05-11 7.4

7.6. (A2) (do teste de frequência de 24.JUN.2000) Um colega seu está apostado em fazer o trabalho de Estatística Multivariada a partir dos dados disponíveis numa base com a caracterização dos hotéis portugueses (aliás, já sua conhecida!). Como simpatizou muito com as técnicas de Análise de Clusters, decidiu-se por aplicá-las por forma a agrupar os hotéis mais semelhantes. Para ensaiar a utilização da técnica, começou por construir um quadro com apenas cinco hotéis e dez variáveis binárias que assinalam a presença (1) ou ausência (0) de algumas facilidades: nome cidade snack restaura conferen cofrquar piscina ginásio cabeleir ténis garagem 1 Hotel do Elevador 1 0 1 0 0 0 0 0 0 0 2 Hotel Ofir 0 1 1 1 1 1 0 1 1 0 3 Hotel Horus 1 1 0 1 1 1 1 1 1 1 4 Hotel Vermar 0 1 1 1 1 1 1 0 1 1 5 GaiaHotel 0 0 1 1 0 0 1 1 0 1 Como aprendeu que uma análise de clusters começa sempre pelo cálculo de uma matriz de dissemelhanças (ou distâncias) entre as observações consideradas, o seu colega decidiu calcular uma. Como é estudioso sabe que, porque as variáveis são binárias, não deve usar os conceitos de distância mais habitualmente usados e porque gosta de inovar, propõe a utilização da medida de dissemelhança de Lance e Williams (também conhecida por coeficiente não métrico de Bray-Curtis) dada por (b+c)/(2a+b+c), onde a representa o número de atributos presentes em ambos os casos e b e c representam o os números de atributos presentes num dos casos e ausentes no outro. a) Compare este conceito com os apresentados na aula para variáveis binárias, diga entre que valores pode variar, qual o significado dos extremos e que argumentos podem justificar a sua adopção. b) Usando o SPSS o seu colega obteve a seguinte matriz de dissemelhanças: Proximity Matrix Binary Lance-and-Williams Nonmetric Measure 1:Hotel do Elev ador 2:Hotel Ofir 3:Hotel Horus 4:Hotel Vermar 5:GaiaHotel 1:Hotel do Elev ador.778.818.800.714 2:Hotel Ofir.778.250.200.500 3:Hotel Horus.818.250.176.429 4:Hotel Vermar.800.200.176.385 5:GaiaHotel.714.500.429.385 This is a dissimilarity matrix A partir desta matriz construa o dendograma para uma aglomeração hierárquica simples (nearest neighbor). 16-05-11 7.5

7.7. (A2) (usando os dados do teste de freq. de 27.JAN.2004) O ficheiro Ex7-7.xls apresenta os dados do consumo médio de proteínas em diversos tipos de alimentos para 25 países europeus (São dados de 1973 citados em Manly, 1994). Os valores são consumos médios diários em gr. por pessoa e as variáveis referem-se a nove grupos de alimentos: redmeat - carnes vermelhas; whitemea - carnes brancas; eggs - ovos; milk - leite; fish - peixe; cereals - cereias; starchyf - féculas (batata e outras) pulsenut - leguminosas e oleaginosas; fruveget - frutas e vegetais. Pretende-se agora agrupar os países com hábitos alimentares semelhantes (no que toca a quantidades e fontes de proteínas) recorrendo à Análise de Clusters. a) Faz sentido a utilização desta técnica? b) Proponha um conceito de distância e um método de agregação e use o SPSS para constituir os grupos. 7.8. (T) (do teste de frequência de 6.JAN.2006) Um colega seu está a experimentar a utilização da Análise de Clusters. Trabalhando com o conjunto de dados no Quadro 7.8.1, obteve o output do SPSS para a utilização dum método hierárquico de clustering que consta abaixo. Indivíduo X 1 X 2 X 3 X 4 X 5 A 3.0 4.0 2.5 1.5 5.0 B 2.0 5.0 1.5 2.0 1.5 C 4.5 3.5 4.0 3.0 2.5 D 4.0 2.5 1.5 3.5 4.0 E 2.0 3.0 2.0 1.5 2.0 F 1.0 2.5 4.0 2.0 4.5 Quadro 7.8.1 a) Diga, justificando, qual o método hierárquico utilizado. b) Complete o aglomeration schedule e acrescente ao dendrograma uma escala para as distâncias apropriada ao problema. c) Como ficam divididas as observações se decidir formar dois clusters? Trata-se duma solução possível no caso de utilizar o algoritmo das K-médias (com k=2)? OUTPUT: 16-05-11 7.6

Proximity Matrix Squared Euclidean Distance Case 1 2 3 4 5 6 1,00 15,50 13,25... 11,25 9,00 2 15,50,00 16,75 18,75 4,75 22,50 3 13,25 16,75,00 10,00 13,00 18,25 4... 18,75 10,00,00 12,50 17,75 5 11,25 4,75 13,00 12,50,00 11,75 6 9,00 22,50 18,25 17,75 11,75,00 This is a dissimilarity matrix Agglomeration Schedule Cluster Combined Stage Cluster First Appears Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage 1 2 5 4,750 0 0 5 2 1 6 9,000 0 0 3 3 1 4 9,250 2 0 4 4.................. 5.................. * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * Dendrogram using... Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 2 5 1 6 4 3 16-05-11 7.7

7.9. (Do exame de 26.JUN.2007) No Quadro 7.9.1 tem as notas de três testes e da prova final numa disciplina da nossa Universidade. Utilizou-se esta informação para fazer uma análise de clusters dos alunos considerando, primeiro a "block distance" (isto é distância de Minkovski com m=1) e depois a distância euclideana. Os resultados obtidos para o método hierárquico com ligações médias apresentam-se no Output 7.9.2. a) Compare os resultados, referindo-se especialmente aos objectivos do clustering no que toca à variabilidade intra e inter clusters. (Seja sucinto na resposta.) b) Repare agora que, nesta análise, os trabalhos (que são de grupo) têm um peso tão grande que quase se podem identificar os grupos de trabalho nos dendogramas. Um seu colega sugeriu então que se padronizassem as variáveis. Outro sugeriu que se fizesse o clustering com base na nota de fim de semestre. Que comentários lhe merecem estas sugestões? c) Eu preferi construir uma nova variável, que é a média aritmética das notas dos três trabalhos. Fiz então o clustering usando esta média e a nota do teste de frequência. O resultado desta minha análise apresenta-se no Output 7.9.3. Que comentários lhe suscita? 16-05-11 7.8

Quadro 7.9.1 Aluno T1 T2 T3 F 1 16,0 14,0 16,0 12,6 2 16,0 17,0 19,0 7,5 3 15,0 14,0 15,0 11,0 4 16,0 17,0 19,0 13,0 5 16,0 17,0 15,0 14,3 6 16,0 17,0 19,0 12,8 7 16,0 17,0 15,0 8,3 8 16,0 17,0 19,0 11,8 9 16,0 17,0 15,0 13,3 10 16,0 17,0 15,0 6,0 11 15,0 14,0 15,0 8,8 12 16,0 14,0 16,0 12,6 13 16,0 16,0 15,5 9,5 14 16,0 16,0 15,5 9,0 15 16,0 16,0 15,5 13,7 16 16,0 14,0 16,0 5,7 17 16,0 14,0 16,0 13,5 18 16,0 17,0 19,0 11,5 19 16,0 16,0 15,5 8,4 20 16,0 14,0 16,0 11,5 21 15,0 14,0 15,0 12,3 22 17,0 17,0 17,0 12,5 23 17,0 17,0 18,0 15,5 24 17,0 17,0 17,0 18,0 25 17,0 17,0 18,0 16,5 26 17,0 17,0 18,0 9,3 27 13,0 14,0 15,0 11,0 28 17,0 17,0 18,0 11,5 29 13,0 14,0 15,0 9,5 30 13,0 14,0 15,0 11,0 31 17,0 17,0 17,0 12,3 32 13,0 14,0 15,0 8,5 Quadro 7.9.1 16-05-11 7.9

Clustering c/ "block distance" Output 7.9.2 (1/4) Stage Agglomeration Schedule Stage Cluster First Cluster Combined Appears Coefficients Cluster 1 Cluster 2 Cluster 2 Cluster 1 Next Stage 1 27 30.000 0 0 16 2 1 12 5.000E-02 0 0 7 3 22 31.250 0 0 15 4 8 18.250 0 0 13 5 4 6.250 0 0 13 6 13 14.500 0 0 8 7 1 17.925 2 0 14 8 13 19.930 6 0 18 9 29 32 1.000 0 0 16 10 23 25 1.000 0 0 20 11 5 9 1.000 0 0 17 12 3 21 1.250 0 0 19 13 4 8 1.250 5 4 21 14 1 20 1.383 7 0 25 15 22 28 1.875 3 0 21 16 27 29 2.000 1 9 22 17 5 15 2.000 11 0 25 18 7 13 2.210 0 8 24 19 3 11 2.875 12 0 22 20 23 24 3.000 10 0 29 21 4 22 3.333 13 15 26 22 3 27 3.542 19 16 28 23 2 26 3.750 0 0 26 24 7 10 3.908 18 0 27 25 1 5 4.737 14 17 28 26 2 4 5.089 23 21 29 27 7 16 5.614 24 0 30 28 1 3 6.723 25 22 30 29 2 23 6.852 26 20 31 30 1 7 7.215 28 27 31 31 1 2 9.553 30 29 0 16-05-11 7.10

Output 7.9.2 (2/4) * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 27 -+---------+ 30 -+ +-------+ 29 -----+-----+ I 32 -----+ +---------------+ 3 -------+-------+ I I 21 -------+ +---+ I 11 ---------------+ +-+ 1 -+---+ I I 12 -+ +-+ I I 17 -----+ +-----------------+ I I 20 -------+ +---------+ I 5 -----+-----+ I I 9 -----+ +-------------+ +-----------+ 15 -----------+ I I 13 ---+-+ I I 14 ---+ +-----+ I I 19 -----+ +---------+ I I 7 -----------+ +-------+ I I 10 ---------------------+ +-------+ I 16 -----------------------------+ I 23 -----+---------+ I 25 -----+ +-------------------+ I 24 ---------------+ I I 8 -+-----+ I I 18 -+ +---------+ +-------------+ 4 -+-----+ I I 6 -+ +---------+ I 22 -+-------+ I I I 31 -+ +-------+ +-------+ 28 ---------+ I 2 -------------------+-------+ 26 -------------------+ 16-05-11 7.11

Output 7.9.2 (3/4) Clustering c/ distância euclideana Agglomeration Schedule Cluster Combined Stage Cluster First Appears Stage Cluster 1 Cluster 2 Coefficients Cluster 2 Cluster 1 Next Stage 1 27 30.000 0 0 19 2 1 12 5.000E-02 0 0 8 3 22 31.250 0 0 15 4 8 18.250 0 0 14 5 4 6.250 0 0 14 6 13 14.500 0 0 7 7 13 19.901 6 0 17 8 1 17.925 2 0 16 9 29 32 1.000 0 0 19 10 23 25 1.000 0 0 21 11 5 9 1.000 0 0 12 12 5 15 1.226 11 0 25 13 3 21 1.250 0 0 18 14 4 8 1.250 5 4 20 15 22 28 1.332 3 0 20 16 1 20 1.383 8 0 18 17 7 13 1.387 0 7 24 18 1 3 1.875 16 13 25 19 27 29 2.000 1 9 23 20 4 22 2.121 14 15 28 21 23 24 2.248 10 0 30 22 2 26 2.250 0 0 26 23 11 27 2.543 0 19 29 24 7 10 2.934 17 0 26 25 1 5 3.298 18 12 28 26 2 7 3.674 22 24 27 27 2 16 4.082 26 0 29 28 1 4 4.100 25 20 30 29 2 11 4.715 27 23 31 30 1 23 5.081 28 21 31 31 1 2 5.884 30 29 0 16-05-11 7.12

Output 7.9.2 (4/4) * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 27 -+---------------+ 30 -+ +---+ 29 ---------+-------+ +-------------------+ 32 ---------+ I I 11 ---------------------+ I 2 -------------------+-----------+ +-------+ 26 -------------------+ I I I 13 -----+-+ +---+ I I 14 -----+ +---+ I I I I 19 -------+ +-------------+ I +-----+ I 7 -----------+ +-----+ I I 10 -------------------------+ I I 16 -----------------------------------+ I 23 ---------+---------+ I 25 ---------+ +-----------------------+ I 24 -------------------+ I I 8 ---+-------+ I I 18 ---+ +-------+ I I 4 ---+-------+ I +-----+ 6 ---+ +---------------+ I 22 ---+-------+ I I I 31 ---+ +-------+ I I 28 -----------+ +-------+ 5 ---------+-+ I 9 ---------+ +-----------------+ I 15 -----------+ I I 3 -----------+---+ +-----+ 21 -----------+ I I 1 -+-----+ +-------------+ 12 -+ +---+ I 17 -------+ +---+ 20 -----------+ 16-05-11 7.13

Output 7.9.3 (1/2) Stage Agglomeration Schedule Stage Cluster First Cluster Combined Appears Coefficients Cluster 1 Cluster 2 Cluster 2 Cluster 1 Next Stage 1 27 30.000 0 0 12 2 18 28.000 0 0 6 3 1 12 5.000E-02 0 0 15 4 7 19.186 0 0 17 5 22 31.250 0 0 10 6 8 18.250 0 2 21 7 4 6.250 0 0 10 8 9 15.480 0 0 11 9 13 14.500 0 0 17 10 4 22.610 7 5 21 11 9 17.625 8 0 16 12 3 27.667 0 1 23 13 11 32.712 0 0 19 14 10 16.731 0 0 29 15 1 21.742 3 0 20 16 5 9.859 0 11 26 17 7 13.957 4 9 22 18 23 25 1.000 0 0 25 19 11 29 1.002 13 0 27 20 1 20 1.051 15 0 23 21 4 8 1.077 10 6 26 22 7 26 1.612 17 0 24 23 1 3 1.620 20 12 28 24 2 7 1.923 0 22 27 25 23 24 2.029 18 0 31 26 4 5 2.149 21 16 28 27 2 11 2.286 24 19 29 28 1 4 2.518 23 26 30 29 2 10 3.136 27 14 30 30 1 2 4.459 28 29 31 31 1 23 6.192 30 25 0 16-05-11 7.14

Output 7.9.3 (2/2) * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 27 -+---+ 30 -+ +-------+ 3 -----+ I 1 -+---+ +-------+ 12 -+ +---+ I I 21 -----+ +---+ I 20 ---------+ I 9 ---+-+ +---------------+ 15 ---+ +-+ I I 17 -----+ +---------+ I I 5 -------+ I I I 18 -+-+ +---+ I 28 -+ +-----+ I I 8 ---+ +-------+ +-----------+ 22 ---+-+ I I I 31 ---+ +---+ I I 4 ---+-+ I I 6 ---+ I I 10 -----+-------------------+ I I 16 -----+ I I I 11 -----+---+ +-----------+ I 32 -----+ +---------+ I I 29 ---------+ I I I 7 -+-----+ +-----+ I 19 -+ +-----+ I I 13 -----+-+ +-+ I I 14 -----+ I +---+ I 26 -------------+ I I 2 ---------------+ I 23 ---------+-------+ I 25 ---------+ +-------------------------------+ 24 -----------------+ 16-05-11 7.15