Análise Multivariada

Documentos relacionados
Análise de dados industriais

À QUIMIOMETRIA: Como explorar grandes conjuntos de dados químicos. Prof. Dr. Marcelo M. Sena (DQ-UFMG)

Informática para Ciências e Engenharias (B) 2015/16. Teórica 5

ANÁLISE MATEMÁTICA IV FICHA SUPLEMENTAR 5 EQUAÇÕES DIFERENCIAIS PARCIAIS E TRANSFORMADA DE LAPLACE

ANÁLISE COMPLEXA E EQUAÇÕES DIFERENCIAIS TESTE 2A - 15 DE JUNHO DE DAS 11H. Apresente e justifique todos os cálculos. dy dt = y t t ; y(1) = 1.

Um dos conceitos mais utilizados em Matemática

Informática para Ciências e Engenharias (B) 2015/16. Teórica 9

Introdução ao Processamento e Síntese de imagens Transformações de Visualização: Matrizes Homogêneas

Instituto de Física da USP Física Experimental B Difração e Interferência - Guia de Trabalho

SOLENÓIDE E INDUTÂNCIA

n Programação Dinâmica n Exemplo: Sequência de Fibonnaci n Problemas de Otimização n Multiplicação de Matrizes n Principios de Programação Dinâmica

Controle Estatístico de Qualidade. Capítulo 14 (montgomery)

Receptor Ótimo. Implementação do receptor ótimo baseada em Filtro Casado. s 1 (t M t) a M. b 1. s M (t M t) Selecionar Maior. (t) + w(t) r(t) = s i

Sist. Lin. I. Sistemas Lineares Introdução Definições Geometria Resolução Equivalência Eliminação de Gauss Após Escalonamento. Sist. Lin.

LISTA3 - PROCESSOS ESTOCÁSTICOS (CE 211) Prof. Benito Olivares Aguilera 2 o Sem./ 2009

Segmentação Semi-Automática de Dados Geo-espaciais Multivariados com Mapas Auto-Organizáveis

Procedimento do U.S.HCM/2000

A Regra da Cadeia. 14 de novembro de u(x) = sen x. v(x) = cos x. w(x) = x 5

As combinações. combinatória que envolviam o princípio multiplicativo e as permutações.

A linguagem matemática

Análise Multivariada Aplicada à Contabilidade

AS RAZÕES TRIGONOMÉTRICAS

Análise de dados multivariados I

A linguagem matemática

Breve resolução do e-fólio B

CPV O Cursinho que Mais Aprova na GV

Segmentação multiresolução: uma abordagem paralela para segmentação de imagens de alta resolução em arquiteturas de múltiplos núcleos

INTRODUÇÃO À ROBÓTICA MÓVEL

9 Proposta de dimensionamento de elementos de concreto armado à flexão simples em situação de incêndio

3. Modelagem de Dados Utilizando o Modelo Entidade Relacionamento (ER)

Redes Neurais. O ADALINE e o algoritmo LMS. Prof. Paulo Martins Engel O ADALINE

O triângulo é uma figura geométrica muito. Você já sabe que o triângulo é uma figura geométrica de:

Informática para Ciências e Engenharias (B) 2016/17. Teórica 3

III Corpos rígidos e sistemas equivalentes de forças

4Parte OBJETIVO GERAL. Parte I Preparação da atividade laboratorial

Metodologia para extração de características invariantes à rotação em imagens de Impressões Digitais

ES009 - Estabilidade Global e Análise de Peças Esbeltas

Jorge Figueiredo, DSC/UFCG. Análise e Técnicas de Algoritmos divisão. divisão. combina. combina. Jorge Figueiredo, DSC/UFCG

Por efeito da interação gravitacional, a partícula 2 exerce uma força F sobre a partícula 1 e a partícula 1 exerce uma força F sobre a partícula 2.

Triângulos. O triângulo é uma figura geométrica muito. Para pensar. Nossa aula

Professores: Elson Rodrigues Marcelo Almeida Gabriel Carvalho Paulo Luiz Ramos

"Introdução à Mecânica do Dano e Fraturamento" Parte I. São Carlos, outubro de 2000

Informática para as Ciências e Engenharias Versão : C (Engenharia Civil) Aula 10. Pedro Barahona 2018 / 19

8.5 Cálculo de indutância e densidade de energia magnética

Emerson Marcos Furtado

Módulo V Força e Campo Elétrico

FORMAÇÃO CONTINUADA EM MATEMÁTICA FUNDAÇÃO CECIERJ/CONSÓRCIO CEDERJ

Você já percebeu que os gráficos são cada vez. Relatórios de empresas Análises governamentais Relatórios de pesquisas Balanços financeiros

CORTESIA Prof. Renato Brito

PROVA de FÍSICA MÓDULO II do PISM ( ) QUESTÕES OBJETIVAS. 09. Leia, com atenção:

Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Física. Referências bibliográficas: H S T.

Indutância / Circuitos RL. Indutância Mútua

Força Elétrica. Sabendo que o valor de m 1 é de 30 g e que a aceleraçăo da gravidade local é de 10 m/s 2, determine a massa m 2

e rápido para estimar a potência. do rotor (i.e. seleccionar a sua área) para um

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

Aula 1- Distâncias Astronômicas

Matemática e suas Tecnologias

O processo de gestão de custos e planejamento de resultados utilizando técnicas de análise estatística de agrupamentos

O MODELO E/R ESTENDIDO O MODELO E/R ESTENDIDO O MODELO E/R ESTENDIDO O MODELO E/R ESTENDIDO

Plantas e mapas. Na Aula 17, aprendemos o conceito de semelhança

KAIO GEOVANNE DE MEDEIROS DANTAS

Informá(ca para as Ciências e Engenharias Versão : C (Engenharia Civil) Aula 10. Pedro Barahona 2016 / 17

## RESOLUÇÃO DE EXERCÍCIOS DO MATERIAL BÁSICO DE ESTUDO ## , determine t 1 3. Isolando o vetor t : Temos o vetor t procurado!

Computação e Linguagem de Programação

Lâmpadas fluorescentes tubulares

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

QUESTÕES COMENTADAS DE MECÂNICA

Podemos utilizar o cálculo do determinante para nos auxiliar a encontrar a inversa de uma matriz, como veremos à seguir.

XIII. PROGRAMAÇÃO POR METAS

Projeção ortográfica de sólidos geométricos

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

LIMITES. Para iniciarmos o estudo de limites, analisemos os seguintes exemplos de sucessões numéricas:

Lista de Exercícios de Cálculo 3 Segunda Semana - 01/2016

Operando com potências

Aula 7- Metodologia de verificação da segurança do EC7 para estruturas de suporte rígidas. Aplicações.

Método dos Deslocamentos

ANÁLISE MULTIVARIADA DE DADOS NO TRATAMENTO DA INFORMAÇÃO ESPACIAL UMA ABORDAGEM COM A ANÁLISE DE AGRUPAMENTOS

Informática para Ciências e Engenharias (B) 2015/16. Teórica 4

Procura de Codificadores BGU para utilização em Códigos com Concatenação Serial

AULA 2. Equilíbrio Químico

Princípios da Engenharia de Software Aula 01

Detecção de Infração em faixa de pedestres sem semáforos utilizando visão computacional e redes neurais

Análise matricial de estruturas não-lineares usando o Método de Newton.

Informática para Ciências e Engenharias (B) 2015/16. Teórica 11

Força elétrica e campo elétrico Prof. Caio

Disciplina: Análise Multivariada I Prof. Dr. Admir Antonio Betarelli Junior AULA 5

CAPITULO VI CÁLCULO DOS CONDUTOS SOB PRESSÃO

Operando com potências

Wireless LANs - Extens

Resoluções dos testes propostos

Lâmpadas Fluorescentes Compactas

Ensaios sobre Estimação em Pequenos Domínios no INE

FGE Eletricidade I

SOLENÓIDE E INDUTÂNCIA

Informática para Ciências e Engenharias (B) 2015/16. Teórica 3

4 DEFINIÇÃO DA GEOMETRIA, MALHA E PARÂMETROS DA SIMULAÇÃO

Triângulos especiais

Transcrição:

Anáise Mutivariaa Aua 5: Anáise e Agrupamentos (Custers) Prof. Amir Antonio Betarei Junior Juiz e Fora

Estrutura Parte I. Introução. Parte II. Meias e issimiarieaes e simiariaes. Parte III. Técnicas hierárquicas e agrupamento. Parte IV. Técnicas para a partição fina. Parte V. Técnicas não hierárquicas e agrupamento.

Parte I. Introução

Anáise e Custer Encontrar nos aos uma estrutura e agrupamento natura é uma importante técnica exporatória. Permite avaiar a imensionaiae, ientificar outiers e sugerir hipóteses acerca a estrutura e reações. Busca escobrir agrupamentos naturais e inivíuos (ou variáveis) a partir os aos observaos, agrupano inivíuos com base na simiariae ou istâncias (issimiariaes).

Anáise e Custer Maximiza a homogeneiae e inivíuos entro e grupos, e maximiza a heterogeneiae entre os grupos. Variação entre custer = Maximiza Variação entro o custer = Minimize

Frequência e comer fora Anáise e Custer Ata Baixa Baixa Ata Frequência e ir a restaurantes e fast foo

Frequência e comer fora Anáise e Custer Ata Baixa Baixa Ata Frequência e ir a restaurantes e fast foo

Frequência e comer fora Anáise e Custer Ata Baixa Baixa Ata Frequência e ir a restaurantes e fast foo

Frequência e comer fora Anáise e Custer Ata Baixa Baixa Frequência e ir a restaurantes e fast foo Ata

Objetivos gerais Particionar os eementos em 2 ou mais custers com base na simiariae ees a partir e um conj. e variáveis. Possui 3 apicações comuns: cassificação e eementos (taxonomia); simpificação e aos; ientificação as reações entre os eementos.

Críticas à Anáise e Custer A anáise e agrupamento é escritiva, a-teórica, e não inferencia.... vai sempre criar custers, inepenentemente a existência rea e quaquer estrutura nos aos. A soução e custer não é generaizáve porque é totamente epenente as variáveis utiizaas como a base para a meia e simiariae.

Quano usar? Quano a preocupação principa é iviir os eementos em grupos, e forma que os eementos e um mesmo grupo sejam homogêneos e os eementos em grupos iferentes sejam heterogêneos. Consierações teóricas, conceituais e práticas evem ser observaas ao seecionar variáveis para a AA. Como meir simiariaes entre inivíuos? Como agrupar inivíuos semehantes?

Parte II. Meias e issimiarieaes e simiariaes

Simiariae Simiariae entre os eementos é uma meia empírica e corresponência, ou semehança, entre os eementos a serem agrupaos. Três técnicas ominam as apicações na AA: Tipos e istância (proximiae):variáveis quantitativas. Meia e simiariae => variáveis quaitativas Associação => agrupamentos as variáveis.

Dissimiariae Var. quantitativas Seja o vetor aeatório, Xj [ X j1, X j2,..., X jp], com p variáveis para caa eemento j os n eementos. Utiizam-se meias e istância (issimiariaes): seu vaor simiares são os eementos comparaos. a) Distância euciiana: 2 X, X X X ' X X 1 2 X X ( j ) k k i.e., 2 eementos são comparaos em caa variáve i. k p i1 i ik 1 2

Dissimiariae Var. quantitativas b) Distância generaizaa ou poneraa: se A A A I S 1 iag(1/ p) é uma euciiana. X, X X X ' AX X é uma M ahaanobis. k é uma euciiana méia. k k 1 2 ( j ) A refete a poneração. Se 2 1 A iag ( S ) => consiera somente a 1 e variabiiae entre as variáveis. Já quano A S => ponera as possíveis s e variâncias e covariâncias entre as variáveis. i

Dissimiariae Var. quantitativas c) Distância e Minkowsky: se X, X k 1 2 p w i1 é uma city - é uma euciiana. bock ou M anhattan. w i ' s são os pesos e poneração para as variáveis. i X i A métrica e Minkowsky é menos afetaa pea presença e outiers o que a istância euciiana. X ik 1 ( j )

Dissimiariae Var. quantitativas As istâncias entre os eementos são armazenaas em uma matriz e istâncias: D 0 12 0 13 14 23 24 ( nxn) 0 34 0 em que k representa a istância o eemento ao eemento k.

Simiariae Var. quaitativas Há 2 aternativas: Transforma em quantitativas e usa-se as meias e istâncias. Trabaha-se com coeficientes e simiariaes, comparano os eementos e acoro com a presença ou ausência e certas características.

Simiariae Var. quaitativas Para entener o probema com variáveis quaitativas: Variáveis 1 2 3 4 5 Item 1 0 0 1 1 Item k 1 1 0 1 0 Há 2 pares (1,1), 1 par (0,0) e 2 pares incompatíveis (0,1;1,0). 5 i1 2 2 2 2 2 (1 1) (0 0) (0 1) (1 0) 2 X i X ik Deve-se comparar os itens iante a presença ou ausência e características. Os pares (1,1) e (0,0) são ignoraos na istância.

Simiariae Var. quaitativas O esquema organiza a frequência e simiariaes e issimiariaes para os eementos e k. Eemento Eemento k 1 0 Tota 1 a b a+b 0 c c+ Tota a+c b+ p = a+b+c+ a é a frequência o par (1,1), b a o par (1,0), e assim por iante.

Simiariae Var. quaitativas Desenvove-se os coef. e simiariaes para os itens: a) concorância simpes: a 3 s(, k) exempo anterior : 0.6 s( ) simiariae p 5 b) concorância positiva: (0,0) não necessariamente representa concorância (ieia o caso contrário). a 2 s(, k) exempo anterior : 0.4 s( ) simiariae p 5

Simiariae Var. quaitativas c) concorância e Jaccar: proporção o par (1,1) em reação ao tota [-(0,0)]. a 2 s(, k) exempo anterior : 0.5 s( ) simiariae a b c 4 ) istância euciiana méia: ínice e issimiariae. (, k) c b p 1 2 exempo anterior : 2 5 0.63 ( ) simiariae em que s(, k) 1- ( ) 2 simiariae simpes

Simiariae Var. quantitativas Quaquer istância usaa para var. quantitativas poe ser transformaa em um coef. e simiariae:. e é o maior vaor os eementos fora a iagona ) é o menor e max( ) min( em que : ) min( ) max( ) min( ), ( ), ( ), ( 1 ), ( * * D D D D D D k k k k s

Variáveis quantitativas e quaitativas Uma situação comum é quano p var. quantitativas e q var. quaitativas são observaas nos n itens. Poe-se: a) Var. quaitativas => quantitativas ao atribuir vaores às categorias (a hoc). Depois, usa-se uma meia e istância para comparar as p+q var.; b) Var. quantitativas => quaitativas categorizano os seus vaores. Depois, usa-se uma meia e simiariae para comparar as p+q var.

Variáveis quantitativas e quaitativas c) Construir meias e semehança mistas e usá-as para a comparação os eementos. Tem-se uma combinação inear entre as var. (p e q). A efinição os pesos e poneração,, permite que os coef. tenham o intervao e variação. Para manter na mesma ireção e o mesmo parão, usa-se no caso as quantitativas. e simiariae. são coef. ) ( e ) ( ; e em que ), ( ), ( ), ( q p q p q q p p c c q p q q p p k c k c k c ) ( ) e ( q c p c ), ( 1 ), ( * k k s

Variáveis quantitativas e quaitativas ) Coeficiente e Gower (1971): para caa var. j, consiera-se um coef., s j, em um intervao [0,1]. Comparano os eementos, e k, as suas simiariaes: E.g., se existir 6 var., porém para há vaores e 4 var., então compara-se e k para 4 var.. Usa-se no caso as quantitativas.. e k poem ser comparaos pea var. a 1se igua é uma variáve ), ( 1 ), ( 1 ), ( ), ( 1 ), ( 1 1 j j q p j j j q p j j X k k k s k k ), ( 1 ), ( * k k s

Simiariaes para pares e variáveis Ao invés os eementos, as variáveis serão agrupaas. Usa-se a matriz e correação (R). Poe-se obter a matriz e istância a partir e R (vaores absoutos): D 1 ABS( R ( pxp) ( pxp) ( pxp) ) r s i, k 1,2, ik ik ik, ik siiskk ik p

Simiariaes para pares e variáveis Para variáveis são binárias, os aos são agrupaos por tabea e contingência. As variáveis, ao invés os itens, eineiam as categoriais. Variáve A correação é: Variáve k 1 0 Tota 1 a b a+b 0 c c+ Tota a+c b+ n = a+b+c+ a bc r(, k) [( a b)( c )( a c)( b )] 1 2

Parte III. Técnicas hierárquicas e agrupamento

Métoos para construção e Custers Não hierárquicos: o n g e grupos é pré-especificao. Hierárquicos: ientificam agrupamentos e o prováve o n g e grupos, por: a) Uma série e fusões sucessivas (técnicas agomerativas); b) Ou uma série e sucessivas ivisões (técnicas ivisas). Os resutaos e ambos, agomerativos e ivisivos, são observaos no enograma, que iustra as fusões ou ivisões feitas em níveis sucessivos.

Número e observações Métoos hierárquicos Agomerativo Divisivo Denograma iustrano o agrupamento hierárquico

Técnicas hierárquicas agomerativas Inicia com toos os eementos seno o próprio custer. Usano a meia e simiariae, combina 2 eementos mais semehantes em um novo custer, agora conteno 2 itens. Repete o proceimento e agrupamento usano a meia e simiariae para combinar os ois itens mais semehantes ou combinações e itens e outro custer. Continua o processo até que toos os itens estejam em um único custer.

Técnicas hierárquicas agomerativas Singe Linkage (a) Compete Linkage (b) Average Linkage (c) Centroi Metho. War s Metho.

D Técnicas hierárquicas agomerativas Singe Linkage: 1 0 (35) 0 2 9 0 (135) 0 1 3 0 (135) 0 3 3 7 0 2 7 0 2 7 9 0 (24) 6 6 5 9 0 4 6 5 0 4 4 8 6 5 0 Passo4 5 11 10 2 8 0 Passo3 Passo2 ( nxn) 0 Passo1 Passo 1: item 3 e 5 serão agrupaos: Min[ D { k}] Passo 2: as istâncias o grupo (35) serão:, }. min{ 3k 5 ( 35) k k min( 31, 51) min(3,11) 3; (35)2 min( 32, 52) 7; (35)4 min( 34, 54) ( 35)1 8 Depois roa novamente: agrupamento. Min[ D { k}] ; e continua os estágios e

D Técnicas hierárquicas agomerativas Compete Linkage: 1 0 (35) 0 2 9 0 (35) 0 1 11 0 (35) 0 3 3 7 0 1 10 0 2 10 9 0 (124) 11 (24) 11 9 0 6 5 9 0 4 4 9 6 5 0 Passo 4 5 11 10 2 8 0 Passo 3 Passo 2 nxn) 0 Passo1 Passo 1: item 3 e 5 serão agrupaos: Min[ D { k}] Passo 2: as istâncias o grupo (35) serão:, }. max{ 3k 5 ( 35) k k max( 31, 51) max( 3,11) 11; (35)2 max( 32, 52) 10; (35) 4 ( 35)1 9 Depois roa novamente: agrupamento. Min[ D { k}] e continua os estágios e

Técnicas hierárquicas agomerativas Average inkage: segue os mesmos passos, porém para computar as istâncias e caa custer formao, utiiza-se a istância méia: k k ( UV ) W, k é a istância entre no custer (UV) e k N( UV ) NW no custer W; Centroi metho: a istância entre ois custers é aquea entre as méias (centroie) os custers formaos: ( UV ) W ( X UV X W ) ( X é a istância euciiana aoquarao entre os vetores e méias X O agrupamento em caa passo se á peo menor vaor a istância. UV X W ) UV e X W.

Técnicas hierárquicas agomerativas War metho: a partição esejaa é aquea que prouz os grupos mais heterogêneos possíveis entre si e o mais possíve homogêneo internamente. Quano se passa e (n-k) para (n-k-1) custers, a quaiae e partição ecresce, pois o níve e fusão aumenta e o níve e simiariae ecresce. Ou seja: C 1 C 2 C entre os grupos ( C1, C2) entro o grupo ( C) War buscou minimizar as peras e informação,i.e., tratar essa muança e variação nos 2 casos (inter e intragrupo).

Técnicas hierárquicas agomerativas War metho: Inicia tratano caa item como um custer. Agrupa-os por Min jk Depois, para um custer i, há ESS i, que é a soma os esvios e caa item em reação à méia no custer : seno n i ESS o número e eementos ni X ij X i. X ij X i. no custer i. No passo k, a soma e quaraos entro os custers é: i j1 SSR g k i1 SS i

Técnicas hierárquicas agomerativas War metho: var. quantitativas para o cácuo e méias. A istância entre os custers é efinia como: i C, C X X X X que é a soma os quaraos entre os custer C e C. Em caa passo, 2 custers são combinaos pea Min ( ). A ( ) é a entre o vaor e SSR epois e antes e combiná-os. Esta combinação resuta no menor vaor e SSR. i n n n n Centroie War, que trata a os tamanhos os custers comparação. n n n i i n i i i i

Técnicas hierárquicas agomerativas ij Coeficiente e Lance e Wiiams (1967) : fórmua e recorrência que efine a maioria os métoos hierárquicos bem conhecios (Stata): k ( ij) é a istância entre o custer i e o custer j; k ( ij) o novo custer formao pea junção o i e Permite, a caa novo níve o agrupamento hierárquico, a issimiariae entre o grupo recém-formao e o resto os grupos a ser cacuao a partir as s o agrupamento atua. economias computacionais. i ki j kj j; ij é a istância entre o custer e,,, e são parâmetros e um métoo. i j ki kj k e

Técnicas hierárquicas agomerativas Coeficiente e Lance e Wiiams (1967) :

Técnicas hierárquicas agomerativas Coeficiente e Lance e Wiiams (1967) : é convertia em meias e issimiariae. Há 2 intervaos possíveis: i) simiariae [0,1]=> issimiariae [1,0]; ii) simiariae [-1,1] => issimiariae [2,0]. O software fornece meias e issimiariaes: L 2 : simpes, competo e méia. 2 L 2 : outros, como War. (, k) 1 s(, k)

Técnicas hierárquicas agomerativas Consierações gerais: Toas as técnicas seguem um agoritmo básico, porém com seus critérios (métrica).na maioria eas, as variações não são trataas, => sensíveis aos outiers. Não aponta os itens agrupaos incorretamente em um estágio anterior. Anáise cuiaosa. Apique várias técnicas. Se a configuração for consistente => agrupamento natura. Poe-se testar a estabiiae a soução por perturbações nos itens e comparar os resutaos (antes/epois). Se os custers forem istinguios, os resutaos (antes/epois) se aproximam.

Técnicas hierárquicas agomerativas Consierações gerais: Vaores comuns na istância => mútipas souções em níveis menores. O usuário necessita conhecê-as (não são ruins). Poem provocar inversões. Ocorrem quano inexiste uma estrutura e custer cara. Use o m. centroie para soucioná-as. D é aicionao ao grupo (ABC), a uma istância e 30, inferior à istância a qua se juntou C (AB).

Técnicas hierárquicas agomerativas Comparações os métoos: a) singe inkage: estruturas geométricas iferentes, mas é incapaz e einear grupos pouco separaos. b) compete inkage: custers e mesmo iâmetro e isoam os outiers nos primeiros passos. c) avarege inkage: custers e mesma variância interna, prouzino mehores partições. ) War: custer com o mesmo n e itens, baseao nos princípios e anáises e variâncias. (a), (b) e (c) : var. quantitativas e quaitativas; (): var. quantitativas

Parte IV. Técnicas para a partição fina

Técnicas para a partição fina 1. Níve e fusão (istância); 2. Níve e simiariae; 3. Coeficiente R 2 ; 4. Estatística Pseuo F; 5. Correação semiparcia (War); 6. Estatística Pseuo T 2 ; 7. Estatística CCC (Cubic Custering Criterion);

TÉCNICAS PARA A PARTIÇÃO FINAL 1. Níve e fusão: avanço os passos => simiariae ( ) entre os custers. No enograma, se existir um sato grane, já se acançou o n e custer fina. 2. Níve e simiariae: etecta pontos em que há ecréscimo acentuao na simiariae os grupos. N e custer fina com acima 90%. em que max 1.100 j, k 1,2,..., n i i max jk é a maior istância entre os n eementos e D no primeiro estágio. jk S

TÉCNICAS PARA A PARTIÇÃO FINAL 3. Coeficiente R 2 : cacua-se a soma e quaraos intergrupos e intragrupos e uma partição. Seja j item e i grupo, então: X ij X X... X ; X X X... X,méias i grupo; X X X... X i1 j i2 j ipj i. i1. a) Soma e quaraos tota : SSTc i2. g* ni X ij X ' X ij X i1 j1 b) Soma e quaraos tota intragrupo : SSR c) Soma e quaraos tota intergrupos : SSB ip. g* g* i1 SS i i1 i1 j1 n i g* ni X ij X i. ' X ij X i. X X ' X X i. i..1.2. p. Logo: R 2 SSB SSTc R 2 => SSB e SSR. Procure se há agum ponto e sato. Observe a R 2 quano g grupos.

TÉCNICAS PARA A PARTIÇÃO FINAL 4. Estatística Pseuo F: se F apresentar um vaor e máximo, ogo g* é a partição iea os aos: F SSB SSTc 1 2 g * 1 n g * R 1 2 n g * g * 1 1 R 5. Correação semiparcia (War): em um passo,, Ck Ci C SPR 2 será: SPR 2 em que B SST B i n n busca-se o um sato maior que os restantes, o que eve inicar o número e custers e partição iea. X X ' X X i i, Bi i.. i.. c ni n é a istância intergrupos (War).

TÉCNICAS PARA A PARTIÇÃO FINAL 6. Estatística Pseuo T 2 : em um passo, C : k Ci C P. T X 2 kj X jc k. i X ij i. 2 1 X X ' X X 2 kj X k. busca-se ponto e máximo para um número g e grupos. jc 7. Estatística CCC (Cubic Custering Criterion): compara o R 2 cacuao e o seu esperao, E[R 2 ], supono que os custers são geraos por istribuição uniforme p-imensiona. Se CCC>3 (bom), R2 > E[R2], i.e., a estrutura e custer é a partição uniforme. kj B X i j k. X. 2 n i n 2 1 ;

TÉCNICAS PARA A PARTIÇÃO FINAL Inicaor Níve e fusão (istância) Observação Sato o D: parar no passo anterior Níve e simiariae Sato a S: parar no passo anterior ( 90%) Coeficiente R 2 Sato a R 2 : parar no passo anterior ( 90%) Estatística Pseuo F Sato a F: parar no passo anterior Correação Semiparcia (SPR 2 ) Sato o SPR 2 : parar no passo anterior Pseuo T 2 (P.T 2 ) Estatística CCC Sato o P.T 2 : parar no anterior ou vigente. Sato o CCC: parar no passo anterior

Parte V. Técnicas não hierárquicas e agrupamento

Técnicas não hierárquicas Encontrar iretamente uma partição e n itens em k custers, por 2 requisitos: semehança interna e isoamento os custers formaos. Não hierárquicas hierárquicas: efinição prévia o número e custers; em caa estágio, novos custers poem ser formaos por ivisão ou junção e custers iniciamente efinios. Sem enogramas; os agoritmos são iterativos e têm uma maior capaciae e anáise o conjunto e aos.

Técnicas não hierárquicas: k-méias Caa item é aocao para um custer que tem um centroie mais próximo (méia). Passos: a) escoher k centroies (sementes) para iniciar o processo e partição; b) comparar caa item com o centroie inicia por uma istância (e.g., euciiana). Os itens são aocaos aos custers peo min ( ); c) Após a aocação os n itens, recacuar os centroies para caa novo custer formao, repetino o passo (b) com estes novos centroies. ) repetir os passos (b) e (c) até que toos os eementos estejam bem aocaos em seus grupos.

Técnicas não hierárquicas: k-méias Em k-méias, a escoha as sementes iniciais infuencia na partição fina. Assim, seguem agumas sugestões para essa escoha: Sugestão 1: Use aguma técnica hierárquica para obter os k custers iniciais. Cacue o vetor e méias e caa grupo, as sementes iniciais. Sugestão 2: escoha aetoriamente os k centroies iniciais. Seecione m amostras aeatórias com k centroies e repetir a amostragem m vezes e, no fina, cacua-se os m centroies para caa grupo. Sugestão 3: Escoha a variáve e maior variância. Em seguia, ivia o omínio a variáve em k intervaos. A semente inicia será o centroie e caa intervao.

Técnicas não hierárquicas: k-méias Sugestão 4: Escoha os k outiers ientificaos, que serão as sementes iniciais. Sugestão 5: Escoha prefixaa (a hoc) não muito recomenáve. Sugestão 6: seecione os k primeiros vaores o banco e aos. Grane parte os softwares usa como parão esta sugestão para atribuir as sementes iniciais. Fornece bons resutaos quano os itens são bem iscrepantes entre si. Logo, não é recomenáve quano os eementos são bem semehantes. Mingoti (2005, p.194) aponta que a soução a k méias, utiizano como sementes iniciais a técnica e War, gera mehores resutaos que a soução e k-méias, usano os quatro primeiros vaores

Técnicas não hierárquicas: Fuzzy c-méias Técnica iterativa e exige a efinição inicia e k custers. Seno n itens e p variáveis aeatórias, busca-se a partição que minimiza: A função é minimizaa quano as probabiiaes: escohia. é a istância, ; e pertencer ao grupo e centróie é a probabiiae o item 1é o parâmetro e Fuzzy; ; é o centroie ponerao o custer, 1 1 i j i j ij i c i n j i j m ij V X V X u m i V V X u J n j m ij n j j m ij i c k m k j i j ij u X u V V X V X u 1 1 1 1 1) ( 2 em que ), ( ), (

Técnicas não hierárquicas: Fuzzy c-méias Para ter soução fina, eve-se ter os centroies e probabiiaes iniciais,, geraas e uma istribuição uniforme [0,1]. u ij Os centroies se moificam a caa iteração e o processo cessa quano a istância entre os centroies os 2 útimos passos é:,. ( V t V t 1) Nessa técnica, a partição fina aocará os itens nos custers conforme a sua maior probabiiae, o que torna possíve ientificar os itens que se assemeham a mais e um custer. Em oposição, a técnica e k-méias gera uma partição na qua caa eemento pertence a um único custer.

Técnicas não hierárquicas: comentários Tais técnicas são também sensíveis às escaas e aos outiers. As variáveis e maior ispersão ominam na istância euciiana. Poe-se paronizar as variáveis ou usar istâncias poneraas. Há razões para não fixar o n e custers, como nessas técnicas: se 2 ou mais sementes estão entro e um custer, os custers resutantes serão pobremente iferenciaos; Outiers => peo menos 1 custer com itens muito ispersos. Mesmo que saiba os itens nos k custers, pere-se grupos raros e atentes na amostra. Os k grupos iniciais => partição sem sentio.

Técnicas não hierárquicas: comentários Comparano às técnicas, poe-se afirmar: quano os grupos estão bem separaos, quaquer técnica eva a resutaos satisfatórios; quano há interseção inicia entre os grupos, Fuzzy é mehor por gerar a probabiiae os itens; para efinir o n fina e grupos, poe apicar bootstrap a fim e einear um intervao e confiança.