TÉCNICAS DE AGRUPAMENTO CLUSTERING

ISSN Nº: 1983-168 TÉCNICS DE GRUPMENTO CLUSTERING utores: Istvan aroly asznar, PhD Professor Titular da FGV e Presidente da IBCI Bento Mario Lages Gonçalves, MSc Consultor Senior da IBCI

CLUSTERING 1- Introdução Os rocedimentos exlanatórios são de grande ajuda na comreensão da natureza comlexa das relações multivariadas. Conforme enfatizamos anteriormente a lotagem dos dados (observações) é um instrumento que ermite melhor visualização do universo amostral com o objetivo do desenvolvimento de metodologia de classificação. Neste êndice serão discutidas técnicas de lotagem dos dados e metodologias ste by ste (asso a asso) ou algorítmos ara o agruamento de objetos (variáveis ou ítens). busca de dados ara a estruturação de agruamentos naturais é uma técnica exlanatória imortante. gruamentos odem rover meios informacionais ara avaliar a dimensionalidade, identificar exclusões gruais e sugerir hióteses referentes ao interrelacionamento das variáveis gruais. O agruamento, ou clustering, difere das metodologias de classificação reviamente discutidas como a análise discriminante múltila e a análise canônica. classificação é ertinente a um número conhecido de gruos e seu objetivo oeracional é enquadrar novas observações a um destes gruos. análise de Cluster é uma técnica mais rimitiva uma vez que nenhum ressuosto é assumido no que tange ao número de gruos ou a sua estruturação. O agruamento é realizado a artir de similaridades ou distâncias entre seus comonentes (dissimilaridades). Os únicos ré-requisitos são medidas de similaridade ou dados sob os quais ossam ser calculadas similaridades. Para ilustrar a natureza da dificuldade na definição de gruos naturais, vamos considerar a ordenação de 16 cartas figuradas de um baralho convencional em clusters ou objetos similares. lguns agruamentos são realizados na Figura I a seguir. Fica bastante claro que artições significativas deendem da definição de similaridade.

Figura I gruamentos de Cartas Figuradas (a) Cartas Individuais (b) gruamento or Naie (c) gruamento or Cor do Naie (d) gruamento or Naies Maiores e Menores (Bridge) (e) Coas mais Rainha de Esada e Outros Naies (f) gruamento or Face da Carta Na maioria das alicações ráticas da análise de cluster o esquisador tem conhecimento suficiente ara distinguir bons agruamentos de maus agruamentos. Por que não enumerar todas as ossibilidades de agruamento e selecionar as melhores ara estudo osterior? Para o exemlo das cartas do baralho, existe uma maneira de formar um único gruo de 16 cartas figuradas; existem 3.767 maneiras de articionar as cartas figuradas em dois gruos (de tamanhos variados); existem 7.141.686 maneiras de ordenar as cartas figuradas em três gruos (de tamanhos variados), e assim or diante 1. Evidentemente as limitações de temo tornam ossível a determinação dos melhores agruamentos de objetos similares a artir de uma lista com todas as estruturas ossíveis. evolução da caacidade de rocessamento dos comutadores vem ermitindo a maniulação de um número cada vez maior de casos (variáveis), de tal forma que algorítmos vem sendo desenvolvidos na busca de uma boa, talvez não a melhor, forma de agruamento. (1) O número de maneiras de ordenação de n objetos em k gruos não fechados é um número Stirling(Ver (1) Bibliografia) do segundo grau dado or : (1/ k!) k j= 0 ( 1) k j k j j n

dicionando tais números ara k = 1,,..., n gruos, obtemos o número total de ossibilidades de ordenação de n objetos em gruos. Em suma, o objetivo básico da análise de cluster é descobrir gruamentos naturais dos ítens (ou variáveis). Desse modo, devemos rimeiramente desenvolver uma escala quantitativa de maneira a medir a associação (similaridade) entre os objetos. seção a seguir é dedicada a discussão das medidas de similaridade. Nas seções seguintes são discutidos os algorítmos mais comuns utilizados na ordenação de objetos em gruos. Medidas de Similaridade maioria dos esforços disendidos na rodução de uma estrutura grual simles a artir de um conjunto de dados comlexos requer medidas de roximidade ou similaridade. Existe semre um elevado grau de subjetividade no que tange a escolha de uma medida de similaridade. Considerações imortantes como a natureza das variáveis (discreta, contínua, binária), as escalas de medida (nominal, ordinal, intervalo, quosciente) e o conhecimento esecífico do assunto em tela; devem ser ativadas. uando itens (unidades ou casos) são clusterizados, sua roximidade é indicada or algum tio de distância. Por outro lado, as variáveis são agruadas baseadas no seu coeficiente de correlação ou outras medidas estatísticas de associação..1 Distâncias e Coeficientes de Similaridade ara Pares de Ítens noção de distância advém da discussão relativa às medidas de disersão estatística. Relembrando a distância Euclideana (linha reta) entre duas observações -dimensionais X = [x 1, x,..., x ] e Y = [y 1, y,..., y ] é dada or : d( x, = ( x1 y1) + ( x y ) +... + ( x y ) = ( x /( x distância estatística entre as mesmas observações é dada or : d( x, = ( x / ( x Onde = S -1, e S contém as variâncias simles e as covariâncias. Contudo sem o conhecimento révio dos gruos distintos, estas quantidades amostrais não odem ser comutadas. Por esta razão a distância Euclideana é frequentemente referida na análise de cluster.

Uma outra medida de distância é a métrica de Minkowsky, que é dada or : d 1/ m m ( x, = i= 1 ( ) x i y i Para m=1, d(x, mede a distância em bloco de dois ontos em dimensões. Para m=, d(x, se torna a distância Euclideana. De uma maneira geral, a variação de m determina o eso dado ara grandes e equenas diferenças de distância. Bibliografia rley, N. e Buch,. R.; Introduction to then theory of robability and Statistics; Wiley and Sons Publishers; New York; US; 1.950. Cramér, Harald; Random Variables and robability Distributions; Cambridge University Press; Cambridge; 1.937. Doob.. L.; Stochastic Processes; Wiley and Sons Publishers; New York; US; 1.953. Cramér, Harald; Elementos da Teoria da Probabilidade e lgumas de suas alicações; Editora Mestre ou; São Paulo; SP; 1.973. Gnanadesikan, R.; Methods for Statistical Data nalysis of Multivariate Observations; ohn Wiley; New York; US; 1.977. Haavelmo, T.; The Statistical Imlications of a System of Simultaneous Equations; Econometrica; volume 11; january, 1.943. endall, M. G.; The advanced Theory of Statistics; volumes I and II; London; Griffin; 1.959. Lévy, P.; Théorie de l addition des variables aléatoires; Paris, Gauthier, Vilars; France; 1.977. Lischutz, Seymour; Probabilidade; Coleção Schaum; Editora McGraw Hill do Brasil; @ edição revisada; São Paulo; SP; 1.974. Siegel, Murray R.; Estatística; Coleção Schaum; Editora McGraw Hill do Brasil; São Paulo, SP; 1.976. Wonnacott, Ronald,.; Wonnacott, Thomas, H.; Econometria; Livros Técnicos e Científicos Editora; Rio de aneiro; R; 1.978.