Análise de clusters usando classes latentes

Análise de clusters usando classes latentes João Branco Departamento de Matemática, IST XIV Congresso SPE, 27-30 Set. 2006 Covilhã Poucos dados/muitos dados p. 0/23

Sumário 1. Variáveis latentes 2. Modelos de variáveis latentes 3. Análise de Clusters baseada em modelos versus Análise de Clusters tradicional 4. Conclusões/Comentário Final Poucos dados/muitos dados p. 1/23

1. Variáveis latentes Não podem ser observadas directamente. O conhecimento que temos chega-nos observando as suas manifestações (nas variáveis que podemos observar directamente). Poucos dados/muitos dados p. 2/23

1. Variáveis latentes Não podem ser observadas directamente. O conhecimento que temos chega-nos observando as suas manifestações (nas variáveis que podemos observar directamente). Usam-se para explicar a associação existente entre as variáveis observadas. Poucos dados/muitos dados p. 2/23

1. Variáveis latentes Não podem ser observadas directamente. O conhecimento que temos chega-nos observando as suas manifestações (nas variáveis que podemos observar directamente). Usam-se para explicar a associação existente entre as variáveis observadas. Permitem reduzir a dimensionalidade do sistema de variáveis (podemos ter de agregar um múmero apreciável de variáveis observadas para representar um conceito subjacente à realidade que observamos). Poucos dados/muitos dados p. 2/23

1. Variáveis latentes (cont.) Suportam o desenvolvimento de teorias, sobretudo em sociologia, economia e educação. São também muito usadas em medicina. Poucos dados/muitos dados p. 3/23

1. Variáveis latentes (cont.) Suportam o desenvolvimento de teorias, sobretudo em sociologia, economia e educação. São também muito usadas em medicina. Podem ter interpretação com significado: - inteligência; - traços de personalidade (ambição, egoísmo) - moral - qualidade de vida - atitude política Poucos dados/muitos dados p. 3/23

2. Modelos de variáveis latentes Modelos estatísticos que relacionam um conjunto de variáveis observáveis com um conjunto de variáveis latentes. Hipóteses fundamentais: Poucos dados/muitos dados p. 4/23

2. Modelos de variáveis latentes Modelos estatísticos que relacionam um conjunto de variáveis observáveis com um conjunto de variáveis latentes. Hipóteses fundamentais: A resposta obtida nas variáveis observáveis é o resultado da posição do indivíduo na variável latente. Poucos dados/muitos dados p. 4/23

2. Modelos de variáveis latentes Modelos estatísticos que relacionam um conjunto de variáveis observáveis com um conjunto de variáveis latentes. Hipóteses fundamentais: A resposta obtida nas variáveis observáveis é o resultado da posição do indivíduo na variável latente. Fixando a variável latente as variáveis observáveis tornamse independentes Hipótese (ou axioma) da independência condicional (ou local). Poucos dados/muitos dados p. 4/23

Modelos de estrutura latente mais comuns Bartholomew and Knott (1999) variáveis observadas contínuas categorizadas v. latentes contínuas Análise Análise de Factorial Traços Latentes categorizadas Análise de Análise de Perfis latentes Classes Latentes Poucos dados/muitos dados p. 5/23

2.1 Modelo para análise factorial Variáveis observáveis, X 1,...,X p, com densidade f(x) Variáveis latentes (factores): Y 1,...,Y m, com densidade h(y) Com g(x y), tem-se f(x) = h(y)g(x y)dy O objectivo da análise factorial é encontrar variáveis latentes, Y, que fazem os X s condicionalmente independentes, p p g(x y) = g(x i y) e portanto f(x) = h(y) g(x i y)dy i=1 i=1 Poucos dados/muitos dados p. 6/23

2.2 Modelo de classes latentes Variáveis observáveis, X 1,...,X p (X i tem c i classes: 1,...,c i ) Variável latente (Y tem s classes: 1,...,s) P(Y = k) = α s k k=1 α k = 1 P(X i = j Y = k) = π ci ijk j=1 π ijk = 1 f(x) P(x) = P(X 1 = x 1,...,X p = x p ) = com x ijk = 1 se i = j e x ijk = 0, c.c. s p α k k=1 c i i=1 j=1 π x ijk ijk Poucos dados/muitos dados p. 7/23

2.2 Modelo de classes latentes Estimação Partindo da amostra x 1,...,x n, obtém-se ( n s ) p log L = log (f(x l )) λ α k 1 l=1 k=1 i=1 s k=1 γ ik c i π ijk 1 j=1 com λ e γ ik multiplicadores de Lagrange, o que produz ˆα k e ˆπ ijk. A probabilidade a posteriori de uma observação x pertencer à classe latente k é p(k x) = α k p c i i=1 j=1 π ijk /f(x) que é estimada com recurso a ˆα k e ˆπ ijk. Poucos dados/muitos dados p. 8/23

Exemplo: dados sobre o naufrágio do Titanic (N. obs. = 2201; N. var. = 4) Classe 1 Classe 2 Classe 3 α k 0.446 0.382 0.172 Classe Tripulação 0.877 0.002 0.060 1 a classe 0.121 0.055 0.423 2 a classe 0.002 0.201 0.301 3 a classe 0.000 0.742 0.216 Idade Criança 0.000 0.085 0.098 Adulto 1.000 0.915 0.902 Sexo Feminino 0.004 0.169 0.855 Masculino 0.996 0.831 0.145 Sobrevivência Não 0.777 0.864 0.002 Sim 0.223 0.136 0.998 Poucos dados/muitos dados p. 9/23

Como descrever uma pessoa típica? Classe latente 1: tripulação, adulto, homem, não sobrevivente Classe latente 2: 3 a classe, adulto, homem, não sobrevivente Classe latente 3: 1 a classe, adulto, mulher, sobrevivente Poucos dados/muitos dados p. 10/23

Valor esperado do número de mulheres viajando na 3 a classe que não sobreviveram: 2201 [0.446 (0.000 1.000 0.004 0.777) + +0.382 (0.742 0.169 0.915 0.864) + +0.172 (0.216 0.855 0.902 0.002)] = 83.5 O respectivo valor observado é 89. Com os valores observados de cada célula (O i ) e os valores esperados, segundo o modelo, (E i ), pode usar-se o teste do Quiquadrado de Pearson para avaliar a qualidade do ajustamento do modelo: i (O i E i ) 2 /E i. Poucos dados/muitos dados p. 11/23

Características do Modelo de Classes Latentes O modelo de classes latentes permite descrever o perfil de cada classe latente encontrada; Poucos dados/muitos dados p. 12/23

Características do Modelo de Classes Latentes O modelo de classes latentes permite descrever o perfil de cada classe latente encontrada; calcular a probabilidade de cada indivíduo pertencer a uma dada classe, o que permite identificar a classe a que o indivíduo pertence. Poucos dados/muitos dados p. 12/23

O modelo de classes latentes pode ser visto como um método de obtenção de clusters. Todos os indivíduos que pertencem a uma classe latente formam um cluster que fica assim representado pela própria classe latente. Poucos dados/muitos dados p. 13/23

O modelo de classes latentes pode ser visto como um método de obtenção de clusters. Todos os indivíduos que pertencem a uma classe latente formam um cluster que fica assim representado pela própria classe latente. Como um método de análise de clusters equivalente à decomposição de uma mistura finita de populações. Poucos dados/muitos dados p. 13/23

Modelos de Mistura para Análise de Clusters Os modelos de mistura finita assumem que os dados são gerados por um conjunto de k populações com diferentes distribuições de probabilidade. Se essas distribuições forem normais multivariadas então o modelo de mistura é f(x) = k p i N (µ i,σ i ) i=1 O que se pretende é separar uma amostra proveniente da mistura em clusters correspondentes a cada uma das componentes. Poucos dados/muitos dados p. 14/23

Isso passa por identificar as componentes da mistura (estimando so seus parâmetros, via MV/EM) e estimando as probabilidades a posteriori de uma observação pertencer à componente (classe) i. O modelo de classes latentes é equivalente ao modelo de mistura (a diferença reside no facto das distribuições associadas a cada classe, cluster, serem do tipo discreto). Poucos dados/muitos dados p. 15/23

3. Análise de Clusters baseada em modelos versus Análise de Clusters tradicional Modelo de mistura finita Modelo de classes latentes é uma generalização do método das k-médias Poucos dados/muitos dados p. 16/23

3. Análise de Clusters baseada em modelos versus Análise de Clusters tradicional Modelo de mistura finita Modelo de classes latentes é uma generalização do método das k-médias k-médias 1. Seleccionar partição 2. Deslocar cada objecto para o grupo com o centróide mais próximo 3. Recalcular os centróides dos novos grupos 4. Repetir 2 e 3 até não ser possível realizar mais deslocações. Poucos dados/muitos dados p. 16/23

Caso ilustrativo σ = 1.0 π i ϕ i (x)/(π 1 ϕ 1 (x) + π 2 ϕ 2 (x)) 0.73 Densidades Responsabilidades 0.27 1 0.5 1 x 1 0.5 1 x Poucos dados/muitos dados p. 17/23

σ = 0.2 π i ϕ i (x)/(π 1 ϕ 1 (x) + π 2 ϕ 2 (x)) Densidades Responsabilidades 1 0.5 1 x 1 0.5 1 x EM k-médias (quando σ 0) Poucos dados/muitos dados p. 18/23

LC versus k-médias Grupo 1: N 2 ((3, 4); diag(4, 1)), n 1 = 200; Grupo 2: N 2 ((7, 1); diag(4, 1)), n 2 = 100. Poucos dados/muitos dados p. 19/23

LC versus k-médias Grupo 1: N 2 ((3, 4); diag(4, 1)), n 1 = 200; Grupo 2: N 2 ((7, 1); diag(4, 1)), n 2 = 100. Dados e recta discriminante: x2 5 0 5 10 0 2 4 6 8 10 x1 Poucos dados/muitos dados p. 19/23

Resultados (número de casos mal classificados): Grupo N. de obs. LDA LC cluster k-médias 1 200 2 3 24 2 100 2 2 9 Total 300 4 5 33 (1.3%) (1.7%) (11%) Poucos dados/muitos dados p. 20/23

k-médias (atribuição determinística dos objectos aos clusters) Variáveis quantitativas Clusters de forma esférica Minimização (maximização) da variação dentro (entre) clusters Critérios para determinação do número de clusters não são objectivos Modelo de mistura Modelo C. Latentes (atribuição probabilística dos objectos aos clusters) Variáveis de tipos variados Independência condicional Maximização da função de verosimilhança Há vários diagnósticos que ajudam a decidir sobre o número de clusters Poucos dados/muitos dados p. 21/23

5. Conclusões/Comentário final O modelo de classes latentes Tornou-se muito requerido nos últimos tempos. Poucos dados/muitos dados p. 22/23

5. Conclusões/Comentário final O modelo de classes latentes Tornou-se muito requerido nos últimos tempos. Pode ser usado como um método de análise de clusters. Poucos dados/muitos dados p. 22/23

5. Conclusões/Comentário final O modelo de classes latentes Tornou-se muito requerido nos últimos tempos. Pode ser usado como um método de análise de clusters. É um modelo de mistura. Poucos dados/muitos dados p. 22/23

5. Conclusões/Comentário final O modelo de classes latentes Tornou-se muito requerido nos últimos tempos. Pode ser usado como um método de análise de clusters. É um modelo de mistura. É uma generalização do método das k-médias. Poucos dados/muitos dados p. 22/23

5. Conclusões/Comentário final O modelo de classes latentes Tornou-se muito requerido nos últimos tempos. Pode ser usado como um método de análise de clusters. É um modelo de mistura. É uma generalização do método das k-médias. Comparado com os métodos de análise de clusters tradicionais (k-médias) apresenta a vantagem de ser mais flexível e ser baseado num modelo estatístico. Poucos dados/muitos dados p. 22/23

Bibliografia Banfield, J.D. and Raftery, A.E. (1993). Model based Gaussian and non- Gaussian clustering. Biometrics, 99 803 822. Bartholomew, D.J. and Knott, M. (1999). Latent Variable Models and Factor Analysis. Arnold, London. Fraley, C. and Raftery, A. E. (1998). How many clusters? Which clustering method? Answers via model-based cluster analysis. Computer Journal, 41, 578 588. Lazarsfeld, P.F. and Henry, N.W. (1968). Houghton-Mifflin, New York. Latent Structure Analysis. McLachlan, G.J. and Basford, K.E. (1988). Mixture Models: Inference and Applications to Clustering. Marcel Dekker, New York. Poucos dados/muitos dados p. 23/23