Anáise Mutivariaa Aua 5: Anáise e Agrupamentos (Custers) Prof. Amir Antonio Betarei Junior Juiz e Fora
Estrutura Parte I. Introução. Parte II. Meias e issimiarieaes e simiariaes. Parte III. Técnicas hierárquicas e agrupamento. Parte IV. Técnicas para a partição fina. Parte V. Técnicas não hierárquicas e agrupamento.
Parte I. Introução
Anáise e Custer Encontrar nos aos uma estrutura e agrupamento natura é uma importante técnica exporatória. Permite avaiar a imensionaiae, ientificar outiers e sugerir hipóteses acerca a estrutura e reações. Busca escobrir agrupamentos naturais e inivíuos (ou variáveis) a partir os aos observaos, agrupano inivíuos com base na simiariae ou istâncias (issimiariaes).
Anáise e Custer Maximiza a homogeneiae e inivíuos entro e grupos, e maximiza a heterogeneiae entre os grupos. Variação entre custer = Maximiza Variação entro o custer = Minimize
Frequência e comer fora Anáise e Custer Ata Baixa Baixa Ata Frequência e ir a restaurantes e fast foo
Frequência e comer fora Anáise e Custer Ata Baixa Baixa Ata Frequência e ir a restaurantes e fast foo
Frequência e comer fora Anáise e Custer Ata Baixa Baixa Ata Frequência e ir a restaurantes e fast foo
Frequência e comer fora Anáise e Custer Ata Baixa Baixa Frequência e ir a restaurantes e fast foo Ata
Objetivos gerais Particionar os eementos em 2 ou mais custers com base na simiariae ees a partir e um conj. e variáveis. Possui 3 apicações comuns: cassificação e eementos (taxonomia); simpificação e aos; ientificação as reações entre os eementos.
Críticas à Anáise e Custer A anáise e agrupamento é escritiva, a-teórica, e não inferencia.... vai sempre criar custers, inepenentemente a existência rea e quaquer estrutura nos aos. A soução e custer não é generaizáve porque é totamente epenente as variáveis utiizaas como a base para a meia e simiariae.
Quano usar? Quano a preocupação principa é iviir os eementos em grupos, e forma que os eementos e um mesmo grupo sejam homogêneos e os eementos em grupos iferentes sejam heterogêneos. Consierações teóricas, conceituais e práticas evem ser observaas ao seecionar variáveis para a AA. Como meir simiariaes entre inivíuos? Como agrupar inivíuos semehantes?
Parte II. Meias e issimiarieaes e simiariaes
Simiariae Simiariae entre os eementos é uma meia empírica e corresponência, ou semehança, entre os eementos a serem agrupaos. Três técnicas ominam as apicações na AA: Tipos e istância (proximiae):variáveis quantitativas. Meia e simiariae => variáveis quaitativas Associação => agrupamentos as variáveis.
Dissimiariae Var. quantitativas Seja o vetor aeatório, Xj [ X j1, X j2,..., X jp], com p variáveis para caa eemento j os n eementos. Utiizam-se meias e istância (issimiariaes): seu vaor simiares são os eementos comparaos. a) Distância euciiana: 2 X, X X X ' X X 1 2 X X ( j ) k k i.e., 2 eementos são comparaos em caa variáve i. k p i1 i ik 1 2
Dissimiariae Var. quantitativas b) Distância generaizaa ou poneraa: se A A A I S 1 iag(1/ p) é uma euciiana. X, X X X ' AX X é uma M ahaanobis. k é uma euciiana méia. k k 1 2 ( j ) A refete a poneração. Se 2 1 A iag ( S ) => consiera somente a 1 e variabiiae entre as variáveis. Já quano A S => ponera as possíveis s e variâncias e covariâncias entre as variáveis. i
Dissimiariae Var. quantitativas c) Distância e Minkowsky: se X, X k 1 2 p w i1 é uma city - é uma euciiana. bock ou M anhattan. w i ' s são os pesos e poneração para as variáveis. i X i A métrica e Minkowsky é menos afetaa pea presença e outiers o que a istância euciiana. X ik 1 ( j )
Dissimiariae Var. quantitativas As istâncias entre os eementos são armazenaas em uma matriz e istâncias: D 0 12 0 13 14 23 24 ( nxn) 0 34 0 em que k representa a istância o eemento ao eemento k.
Simiariae Var. quaitativas Há 2 aternativas: Transforma em quantitativas e usa-se as meias e istâncias. Trabaha-se com coeficientes e simiariaes, comparano os eementos e acoro com a presença ou ausência e certas características.
Simiariae Var. quaitativas Para entener o probema com variáveis quaitativas: Variáveis 1 2 3 4 5 Item 1 0 0 1 1 Item k 1 1 0 1 0 Há 2 pares (1,1), 1 par (0,0) e 2 pares incompatíveis (0,1;1,0). 5 i1 2 2 2 2 2 (1 1) (0 0) (0 1) (1 0) 2 X i X ik Deve-se comparar os itens iante a presença ou ausência e características. Os pares (1,1) e (0,0) são ignoraos na istância.
Simiariae Var. quaitativas O esquema organiza a frequência e simiariaes e issimiariaes para os eementos e k. Eemento Eemento k 1 0 Tota 1 a b a+b 0 c c+ Tota a+c b+ p = a+b+c+ a é a frequência o par (1,1), b a o par (1,0), e assim por iante.
Simiariae Var. quaitativas Desenvove-se os coef. e simiariaes para os itens: a) concorância simpes: a 3 s(, k) exempo anterior : 0.6 s( ) simiariae p 5 b) concorância positiva: (0,0) não necessariamente representa concorância (ieia o caso contrário). a 2 s(, k) exempo anterior : 0.4 s( ) simiariae p 5
Simiariae Var. quaitativas c) concorância e Jaccar: proporção o par (1,1) em reação ao tota [-(0,0)]. a 2 s(, k) exempo anterior : 0.5 s( ) simiariae a b c 4 ) istância euciiana méia: ínice e issimiariae. (, k) c b p 1 2 exempo anterior : 2 5 0.63 ( ) simiariae em que s(, k) 1- ( ) 2 simiariae simpes
Simiariae Var. quantitativas Quaquer istância usaa para var. quantitativas poe ser transformaa em um coef. e simiariae:. e é o maior vaor os eementos fora a iagona ) é o menor e max( ) min( em que : ) min( ) max( ) min( ), ( ), ( ), ( 1 ), ( * * D D D D D D k k k k s
Variáveis quantitativas e quaitativas Uma situação comum é quano p var. quantitativas e q var. quaitativas são observaas nos n itens. Poe-se: a) Var. quaitativas => quantitativas ao atribuir vaores às categorias (a hoc). Depois, usa-se uma meia e istância para comparar as p+q var.; b) Var. quantitativas => quaitativas categorizano os seus vaores. Depois, usa-se uma meia e simiariae para comparar as p+q var.
Variáveis quantitativas e quaitativas c) Construir meias e semehança mistas e usá-as para a comparação os eementos. Tem-se uma combinação inear entre as var. (p e q). A efinição os pesos e poneração,, permite que os coef. tenham o intervao e variação. Para manter na mesma ireção e o mesmo parão, usa-se no caso as quantitativas. e simiariae. são coef. ) ( e ) ( ; e em que ), ( ), ( ), ( q p q p q q p p c c q p q q p p k c k c k c ) ( ) e ( q c p c ), ( 1 ), ( * k k s
Variáveis quantitativas e quaitativas ) Coeficiente e Gower (1971): para caa var. j, consiera-se um coef., s j, em um intervao [0,1]. Comparano os eementos, e k, as suas simiariaes: E.g., se existir 6 var., porém para há vaores e 4 var., então compara-se e k para 4 var.. Usa-se no caso as quantitativas.. e k poem ser comparaos pea var. a 1se igua é uma variáve ), ( 1 ), ( 1 ), ( ), ( 1 ), ( 1 1 j j q p j j j q p j j X k k k s k k ), ( 1 ), ( * k k s
Simiariaes para pares e variáveis Ao invés os eementos, as variáveis serão agrupaas. Usa-se a matriz e correação (R). Poe-se obter a matriz e istância a partir e R (vaores absoutos): D 1 ABS( R ( pxp) ( pxp) ( pxp) ) r s i, k 1,2, ik ik ik, ik siiskk ik p
Simiariaes para pares e variáveis Para variáveis são binárias, os aos são agrupaos por tabea e contingência. As variáveis, ao invés os itens, eineiam as categoriais. Variáve A correação é: Variáve k 1 0 Tota 1 a b a+b 0 c c+ Tota a+c b+ n = a+b+c+ a bc r(, k) [( a b)( c )( a c)( b )] 1 2
Parte III. Técnicas hierárquicas e agrupamento
Métoos para construção e Custers Não hierárquicos: o n g e grupos é pré-especificao. Hierárquicos: ientificam agrupamentos e o prováve o n g e grupos, por: a) Uma série e fusões sucessivas (técnicas agomerativas); b) Ou uma série e sucessivas ivisões (técnicas ivisas). Os resutaos e ambos, agomerativos e ivisivos, são observaos no enograma, que iustra as fusões ou ivisões feitas em níveis sucessivos.
Número e observações Métoos hierárquicos Agomerativo Divisivo Denograma iustrano o agrupamento hierárquico
Técnicas hierárquicas agomerativas Inicia com toos os eementos seno o próprio custer. Usano a meia e simiariae, combina 2 eementos mais semehantes em um novo custer, agora conteno 2 itens. Repete o proceimento e agrupamento usano a meia e simiariae para combinar os ois itens mais semehantes ou combinações e itens e outro custer. Continua o processo até que toos os itens estejam em um único custer.
Técnicas hierárquicas agomerativas Singe Linkage (a) Compete Linkage (b) Average Linkage (c) Centroi Metho. War s Metho.
D Técnicas hierárquicas agomerativas Singe Linkage: 1 0 (35) 0 2 9 0 (135) 0 1 3 0 (135) 0 3 3 7 0 2 7 0 2 7 9 0 (24) 6 6 5 9 0 4 6 5 0 4 4 8 6 5 0 Passo4 5 11 10 2 8 0 Passo3 Passo2 ( nxn) 0 Passo1 Passo 1: item 3 e 5 serão agrupaos: Min[ D { k}] Passo 2: as istâncias o grupo (35) serão:, }. min{ 3k 5 ( 35) k k min( 31, 51) min(3,11) 3; (35)2 min( 32, 52) 7; (35)4 min( 34, 54) ( 35)1 8 Depois roa novamente: agrupamento. Min[ D { k}] ; e continua os estágios e
D Técnicas hierárquicas agomerativas Compete Linkage: 1 0 (35) 0 2 9 0 (35) 0 1 11 0 (35) 0 3 3 7 0 1 10 0 2 10 9 0 (124) 11 (24) 11 9 0 6 5 9 0 4 4 9 6 5 0 Passo 4 5 11 10 2 8 0 Passo 3 Passo 2 nxn) 0 Passo1 Passo 1: item 3 e 5 serão agrupaos: Min[ D { k}] Passo 2: as istâncias o grupo (35) serão:, }. max{ 3k 5 ( 35) k k max( 31, 51) max( 3,11) 11; (35)2 max( 32, 52) 10; (35) 4 ( 35)1 9 Depois roa novamente: agrupamento. Min[ D { k}] e continua os estágios e
Técnicas hierárquicas agomerativas Average inkage: segue os mesmos passos, porém para computar as istâncias e caa custer formao, utiiza-se a istância méia: k k ( UV ) W, k é a istância entre no custer (UV) e k N( UV ) NW no custer W; Centroi metho: a istância entre ois custers é aquea entre as méias (centroie) os custers formaos: ( UV ) W ( X UV X W ) ( X é a istância euciiana aoquarao entre os vetores e méias X O agrupamento em caa passo se á peo menor vaor a istância. UV X W ) UV e X W.
Técnicas hierárquicas agomerativas War metho: a partição esejaa é aquea que prouz os grupos mais heterogêneos possíveis entre si e o mais possíve homogêneo internamente. Quano se passa e (n-k) para (n-k-1) custers, a quaiae e partição ecresce, pois o níve e fusão aumenta e o níve e simiariae ecresce. Ou seja: C 1 C 2 C entre os grupos ( C1, C2) entro o grupo ( C) War buscou minimizar as peras e informação,i.e., tratar essa muança e variação nos 2 casos (inter e intragrupo).
Técnicas hierárquicas agomerativas War metho: Inicia tratano caa item como um custer. Agrupa-os por Min jk Depois, para um custer i, há ESS i, que é a soma os esvios e caa item em reação à méia no custer : seno n i ESS o número e eementos ni X ij X i. X ij X i. no custer i. No passo k, a soma e quaraos entro os custers é: i j1 SSR g k i1 SS i
Técnicas hierárquicas agomerativas War metho: var. quantitativas para o cácuo e méias. A istância entre os custers é efinia como: i C, C X X X X que é a soma os quaraos entre os custer C e C. Em caa passo, 2 custers são combinaos pea Min ( ). A ( ) é a entre o vaor e SSR epois e antes e combiná-os. Esta combinação resuta no menor vaor e SSR. i n n n n Centroie War, que trata a os tamanhos os custers comparação. n n n i i n i i i i
Técnicas hierárquicas agomerativas ij Coeficiente e Lance e Wiiams (1967) : fórmua e recorrência que efine a maioria os métoos hierárquicos bem conhecios (Stata): k ( ij) é a istância entre o custer i e o custer j; k ( ij) o novo custer formao pea junção o i e Permite, a caa novo níve o agrupamento hierárquico, a issimiariae entre o grupo recém-formao e o resto os grupos a ser cacuao a partir as s o agrupamento atua. economias computacionais. i ki j kj j; ij é a istância entre o custer e,,, e são parâmetros e um métoo. i j ki kj k e
Técnicas hierárquicas agomerativas Coeficiente e Lance e Wiiams (1967) :
Técnicas hierárquicas agomerativas Coeficiente e Lance e Wiiams (1967) : é convertia em meias e issimiariae. Há 2 intervaos possíveis: i) simiariae [0,1]=> issimiariae [1,0]; ii) simiariae [-1,1] => issimiariae [2,0]. O software fornece meias e issimiariaes: L 2 : simpes, competo e méia. 2 L 2 : outros, como War. (, k) 1 s(, k)
Técnicas hierárquicas agomerativas Consierações gerais: Toas as técnicas seguem um agoritmo básico, porém com seus critérios (métrica).na maioria eas, as variações não são trataas, => sensíveis aos outiers. Não aponta os itens agrupaos incorretamente em um estágio anterior. Anáise cuiaosa. Apique várias técnicas. Se a configuração for consistente => agrupamento natura. Poe-se testar a estabiiae a soução por perturbações nos itens e comparar os resutaos (antes/epois). Se os custers forem istinguios, os resutaos (antes/epois) se aproximam.
Técnicas hierárquicas agomerativas Consierações gerais: Vaores comuns na istância => mútipas souções em níveis menores. O usuário necessita conhecê-as (não são ruins). Poem provocar inversões. Ocorrem quano inexiste uma estrutura e custer cara. Use o m. centroie para soucioná-as. D é aicionao ao grupo (ABC), a uma istância e 30, inferior à istância a qua se juntou C (AB).
Técnicas hierárquicas agomerativas Comparações os métoos: a) singe inkage: estruturas geométricas iferentes, mas é incapaz e einear grupos pouco separaos. b) compete inkage: custers e mesmo iâmetro e isoam os outiers nos primeiros passos. c) avarege inkage: custers e mesma variância interna, prouzino mehores partições. ) War: custer com o mesmo n e itens, baseao nos princípios e anáises e variâncias. (a), (b) e (c) : var. quantitativas e quaitativas; (): var. quantitativas
Parte IV. Técnicas para a partição fina
Técnicas para a partição fina 1. Níve e fusão (istância); 2. Níve e simiariae; 3. Coeficiente R 2 ; 4. Estatística Pseuo F; 5. Correação semiparcia (War); 6. Estatística Pseuo T 2 ; 7. Estatística CCC (Cubic Custering Criterion);
TÉCNICAS PARA A PARTIÇÃO FINAL 1. Níve e fusão: avanço os passos => simiariae ( ) entre os custers. No enograma, se existir um sato grane, já se acançou o n e custer fina. 2. Níve e simiariae: etecta pontos em que há ecréscimo acentuao na simiariae os grupos. N e custer fina com acima 90%. em que max 1.100 j, k 1,2,..., n i i max jk é a maior istância entre os n eementos e D no primeiro estágio. jk S
TÉCNICAS PARA A PARTIÇÃO FINAL 3. Coeficiente R 2 : cacua-se a soma e quaraos intergrupos e intragrupos e uma partição. Seja j item e i grupo, então: X ij X X... X ; X X X... X,méias i grupo; X X X... X i1 j i2 j ipj i. i1. a) Soma e quaraos tota : SSTc i2. g* ni X ij X ' X ij X i1 j1 b) Soma e quaraos tota intragrupo : SSR c) Soma e quaraos tota intergrupos : SSB ip. g* g* i1 SS i i1 i1 j1 n i g* ni X ij X i. ' X ij X i. X X ' X X i. i..1.2. p. Logo: R 2 SSB SSTc R 2 => SSB e SSR. Procure se há agum ponto e sato. Observe a R 2 quano g grupos.
TÉCNICAS PARA A PARTIÇÃO FINAL 4. Estatística Pseuo F: se F apresentar um vaor e máximo, ogo g* é a partição iea os aos: F SSB SSTc 1 2 g * 1 n g * R 1 2 n g * g * 1 1 R 5. Correação semiparcia (War): em um passo,, Ck Ci C SPR 2 será: SPR 2 em que B SST B i n n busca-se o um sato maior que os restantes, o que eve inicar o número e custers e partição iea. X X ' X X i i, Bi i.. i.. c ni n é a istância intergrupos (War).
TÉCNICAS PARA A PARTIÇÃO FINAL 6. Estatística Pseuo T 2 : em um passo, C : k Ci C P. T X 2 kj X jc k. i X ij i. 2 1 X X ' X X 2 kj X k. busca-se ponto e máximo para um número g e grupos. jc 7. Estatística CCC (Cubic Custering Criterion): compara o R 2 cacuao e o seu esperao, E[R 2 ], supono que os custers são geraos por istribuição uniforme p-imensiona. Se CCC>3 (bom), R2 > E[R2], i.e., a estrutura e custer é a partição uniforme. kj B X i j k. X. 2 n i n 2 1 ;
TÉCNICAS PARA A PARTIÇÃO FINAL Inicaor Níve e fusão (istância) Observação Sato o D: parar no passo anterior Níve e simiariae Sato a S: parar no passo anterior ( 90%) Coeficiente R 2 Sato a R 2 : parar no passo anterior ( 90%) Estatística Pseuo F Sato a F: parar no passo anterior Correação Semiparcia (SPR 2 ) Sato o SPR 2 : parar no passo anterior Pseuo T 2 (P.T 2 ) Estatística CCC Sato o P.T 2 : parar no anterior ou vigente. Sato o CCC: parar no passo anterior
Parte V. Técnicas não hierárquicas e agrupamento
Técnicas não hierárquicas Encontrar iretamente uma partição e n itens em k custers, por 2 requisitos: semehança interna e isoamento os custers formaos. Não hierárquicas hierárquicas: efinição prévia o número e custers; em caa estágio, novos custers poem ser formaos por ivisão ou junção e custers iniciamente efinios. Sem enogramas; os agoritmos são iterativos e têm uma maior capaciae e anáise o conjunto e aos.
Técnicas não hierárquicas: k-méias Caa item é aocao para um custer que tem um centroie mais próximo (méia). Passos: a) escoher k centroies (sementes) para iniciar o processo e partição; b) comparar caa item com o centroie inicia por uma istância (e.g., euciiana). Os itens são aocaos aos custers peo min ( ); c) Após a aocação os n itens, recacuar os centroies para caa novo custer formao, repetino o passo (b) com estes novos centroies. ) repetir os passos (b) e (c) até que toos os eementos estejam bem aocaos em seus grupos.
Técnicas não hierárquicas: k-méias Em k-méias, a escoha as sementes iniciais infuencia na partição fina. Assim, seguem agumas sugestões para essa escoha: Sugestão 1: Use aguma técnica hierárquica para obter os k custers iniciais. Cacue o vetor e méias e caa grupo, as sementes iniciais. Sugestão 2: escoha aetoriamente os k centroies iniciais. Seecione m amostras aeatórias com k centroies e repetir a amostragem m vezes e, no fina, cacua-se os m centroies para caa grupo. Sugestão 3: Escoha a variáve e maior variância. Em seguia, ivia o omínio a variáve em k intervaos. A semente inicia será o centroie e caa intervao.
Técnicas não hierárquicas: k-méias Sugestão 4: Escoha os k outiers ientificaos, que serão as sementes iniciais. Sugestão 5: Escoha prefixaa (a hoc) não muito recomenáve. Sugestão 6: seecione os k primeiros vaores o banco e aos. Grane parte os softwares usa como parão esta sugestão para atribuir as sementes iniciais. Fornece bons resutaos quano os itens são bem iscrepantes entre si. Logo, não é recomenáve quano os eementos são bem semehantes. Mingoti (2005, p.194) aponta que a soução a k méias, utiizano como sementes iniciais a técnica e War, gera mehores resutaos que a soução e k-méias, usano os quatro primeiros vaores
Técnicas não hierárquicas: Fuzzy c-méias Técnica iterativa e exige a efinição inicia e k custers. Seno n itens e p variáveis aeatórias, busca-se a partição que minimiza: A função é minimizaa quano as probabiiaes: escohia. é a istância, ; e pertencer ao grupo e centróie é a probabiiae o item 1é o parâmetro e Fuzzy; ; é o centroie ponerao o custer, 1 1 i j i j ij i c i n j i j m ij V X V X u m i V V X u J n j m ij n j j m ij i c k m k j i j ij u X u V V X V X u 1 1 1 1 1) ( 2 em que ), ( ), (
Técnicas não hierárquicas: Fuzzy c-méias Para ter soução fina, eve-se ter os centroies e probabiiaes iniciais,, geraas e uma istribuição uniforme [0,1]. u ij Os centroies se moificam a caa iteração e o processo cessa quano a istância entre os centroies os 2 útimos passos é:,. ( V t V t 1) Nessa técnica, a partição fina aocará os itens nos custers conforme a sua maior probabiiae, o que torna possíve ientificar os itens que se assemeham a mais e um custer. Em oposição, a técnica e k-méias gera uma partição na qua caa eemento pertence a um único custer.
Técnicas não hierárquicas: comentários Tais técnicas são também sensíveis às escaas e aos outiers. As variáveis e maior ispersão ominam na istância euciiana. Poe-se paronizar as variáveis ou usar istâncias poneraas. Há razões para não fixar o n e custers, como nessas técnicas: se 2 ou mais sementes estão entro e um custer, os custers resutantes serão pobremente iferenciaos; Outiers => peo menos 1 custer com itens muito ispersos. Mesmo que saiba os itens nos k custers, pere-se grupos raros e atentes na amostra. Os k grupos iniciais => partição sem sentio.
Técnicas não hierárquicas: comentários Comparano às técnicas, poe-se afirmar: quano os grupos estão bem separaos, quaquer técnica eva a resutaos satisfatórios; quano há interseção inicia entre os grupos, Fuzzy é mehor por gerar a probabiiae os itens; para efinir o n fina e grupos, poe apicar bootstrap a fim e einear um intervao e confiança.