Análise de clusters usando classes latentes

Documentos relacionados
Reconhecimento de Padrões. Reconhecimento de Padrões

Análise do sucesso escolar no 1º ano de Engenharia: Uma análise multinível

Métodos Estatísticos

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Exemplos Equações de Estimação Generalizadas

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

Análise de Dados e Simulação

PROGRAMA/BIBLIOGRAFIA e NORMAS DE AVALIAÇÃO

Processos Estocásticos. Variáveis Aleatórias. Variáveis Aleatórias. Luiz Affonso Guedes. Como devemos descrever um experimento aleatório?

Processos Estocásticos. Variáveis Aleatórias. Variáveis Aleatórias. Variáveis Aleatórias. Variáveis Aleatórias. Luiz Affonso Guedes

Processos Estocásticos. Luiz Affonso Guedes

Tiago Viana Flor de Santana

Critérios de Informação para Modelos de Classe Latente de Dados Categóricos Sequenciais Um Estudo de Monte Carlo

Capítulo 6 Estatística não-paramétrica

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

PARTE TEÓRICA Perguntas de escolha múltipla

Estatística Descritiva e Exploratória

Filipe Ribeiro, Universidade de Évora/MPIDR Trifon I. Missov, MPIDR José Gonçalves Dias, Instituto Universitário de Lisboa (ISCTE-IUL) Maria Filomena

Processo Dirichlet. Paulo C. Marques F. Seminário relâmpago ministrado no Insper. 8 de Abril de 2016

CC-226 Aula 05 - Teoria da Decisão Bayesiana

PROGRAMA/BIBLIOGRAFIA e NORMAS DE AVALIAÇÃO

Classificadores. André Tavares da Silva.

Universidade Federal de Lavras

x, x < 1 f(x) = 0, x 1 (a) Diga o que entende por amostra aleatória. Determine a função densidade de probabilidade

UMA ANÁLISE MULTINÍVEL DO EFEITO DA HETEROGENEIDADE DAS ESCOLAS SECUNDÁRIAS NO 1º ANO DE ENGENHARIA: UM ESTUDO DE CASO

Noções de Simulação. Ciências Contábeis - FEA - Noturno. 2 o Semestre MAE0219 (IME-USP) Noções de Simulação 2 o Semestre / 23

Modelos Probabilísticos Teóricos Discretos e Contínuos. Bernoulli, Binomial, Poisson, Uniforme, Exponencial, Normal

Análise de dados em Geociências

Probabilidade e Modelos Probabilísticos

{ C(1 x 2 ), se x ( 1, 1), f(x) = Cxe x/2, se x > 0, x + k, se 0 x 3; 0, c.c. k, se 1 < x 2; kx + 3k, se 2 < x 3;

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Fernando Nogueira Simulação 1

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

Regressão de Poisson e parentes próximos

Técnicas computacionais em probabilidade e estatística II

Probabilidades e Estatística MEEC, LEIC-A, LEGM

CC-226 Aula 07 - Estimação de Parâmetros

Análise de Dados em Astronomia. 4. Simulações de Monte Carlo

O efeito interacção em modelos de equações estruturais

Distribuições de probabilidade de variáveis aleatórias contínuas

P.62, Exerc. 1.3: Trocar as posições de tipo AB e tipo O.

Agrupamento de dados. Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral

CE Estatística I

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

Probabilidade e Estatística

M. Eisencraft 4.6 Distribuição e densidade de uma soma de variáveis aleatórias57. + w y. f X,Y (x,y)dxdy (4.24) w y

Tratamento Estatístico de dados em Física Experimental

Inferência Bayesiana

Capítulo 6 Estatística não-paramétrica

Nome do Autor. Título do Livro

ESTATÍSTICA COMPUTACIONAL

Susana Margarida Ferreira de Sá Faria. Modelos de Mistura:

5. PRINCIPAIS MODELOS CONTÍNUOS

Variáveis Aleatórias Bidimensionais &Teoremas de Limite 1/22

Variáveis Aleatórias

Motivação. VA n-dimensional. Distribuições Multivariadas VADB. Em muitas situações precisamos

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Estatística Básica VARIÁVEIS ALEATÓRIAS CONTÍNUAS. Renato Dourado Maia Instituto de Ciências Agrárias Universidade Federal de Minas Gerais

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Inferências bayesianas com probabilidade

Motivação. VA n-dimensional. Distribuições Multivariadas VADB

Métodos Experimentais em Ciências Mecânicas

Clustering (k-means, SOM e hierárquicos)

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas

Prof. Lorí Viali, Dr.

Métodos Estatísticos

Cap. 6 Variáveis aleatórias contínuas

NOTAS DA AULA. Prof.: Idemauro Antonio Rodrigues de Lara

Métodos Quantitativos Aplicados

Métodos Quantitativos Aplicados

Cap. 8 Distribuições contínuas e modelo normal

Projeto Multiresolução de Operadores Morfológicos. Morfológicos a Partir de Exemplos

2.1 Variáveis Aleatórias Discretas

Cap. 6 Variáveis aleatórias contínuas

Aula 2 Tópicos em Econometria I. Porque estudar econometria? Causalidade! Modelo de RLM Hipóteses

Probabilidades e Estatística TODOS OS CURSOS

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

Lucas Santana da Cunha de junho de 2018 Londrina

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Distribuições de Probabilidade Contínuas 1/19

Capítulo 2. Variáveis Aleatórias e Distribuições

Soluções da Colectânea de Exercícios

Sistemas Aleatórios. Um sistema é aleatório quando seu estado futuro só pode ser conhecido. jogar uma moeda ou um dado. decaimento de uma partícula

5. PRINCIPAIS MODELOS CONTÍNUOS

Canais discretos sem memória e capacidade do canal

Um conceito importante em Probabilidades e Estatística é o de

Nome: N. o : f(u) du para todo o x (V) d) Se F (x) tiver pontos de descontinuidade, então X é discreta (F)

Aula 1 - Revisão de Probabilidade e Estatística

Probabilidade II. Departamento de Estatística. Universidade Federal da Paraíba. Prof. Tarciana Liberal (UFPB) Aula Desigualdades 02/14 1 / 31

ESTATÍSTICA COMPUTACIONAL

2 o Teste de Aprendizagem Automática

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

Prof. Lorí Viali, Dr.

Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada.

Distribuição Gaussiana

Teoria da Informação

Sistemas especialistas Fuzzy

Transcrição:

Análise de clusters usando classes latentes João Branco Departamento de Matemática, IST XIV Congresso SPE, 27-30 Set. 2006 Covilhã Poucos dados/muitos dados p. 0/23

Sumário 1. Variáveis latentes 2. Modelos de variáveis latentes 3. Análise de Clusters baseada em modelos versus Análise de Clusters tradicional 4. Conclusões/Comentário Final Poucos dados/muitos dados p. 1/23

1. Variáveis latentes Não podem ser observadas directamente. O conhecimento que temos chega-nos observando as suas manifestações (nas variáveis que podemos observar directamente). Poucos dados/muitos dados p. 2/23

1. Variáveis latentes Não podem ser observadas directamente. O conhecimento que temos chega-nos observando as suas manifestações (nas variáveis que podemos observar directamente). Usam-se para explicar a associação existente entre as variáveis observadas. Poucos dados/muitos dados p. 2/23

1. Variáveis latentes Não podem ser observadas directamente. O conhecimento que temos chega-nos observando as suas manifestações (nas variáveis que podemos observar directamente). Usam-se para explicar a associação existente entre as variáveis observadas. Permitem reduzir a dimensionalidade do sistema de variáveis (podemos ter de agregar um múmero apreciável de variáveis observadas para representar um conceito subjacente à realidade que observamos). Poucos dados/muitos dados p. 2/23

1. Variáveis latentes (cont.) Suportam o desenvolvimento de teorias, sobretudo em sociologia, economia e educação. São também muito usadas em medicina. Poucos dados/muitos dados p. 3/23

1. Variáveis latentes (cont.) Suportam o desenvolvimento de teorias, sobretudo em sociologia, economia e educação. São também muito usadas em medicina. Podem ter interpretação com significado: - inteligência; - traços de personalidade (ambição, egoísmo) - moral - qualidade de vida - atitude política Poucos dados/muitos dados p. 3/23

2. Modelos de variáveis latentes Modelos estatísticos que relacionam um conjunto de variáveis observáveis com um conjunto de variáveis latentes. Hipóteses fundamentais: Poucos dados/muitos dados p. 4/23

2. Modelos de variáveis latentes Modelos estatísticos que relacionam um conjunto de variáveis observáveis com um conjunto de variáveis latentes. Hipóteses fundamentais: A resposta obtida nas variáveis observáveis é o resultado da posição do indivíduo na variável latente. Poucos dados/muitos dados p. 4/23

2. Modelos de variáveis latentes Modelos estatísticos que relacionam um conjunto de variáveis observáveis com um conjunto de variáveis latentes. Hipóteses fundamentais: A resposta obtida nas variáveis observáveis é o resultado da posição do indivíduo na variável latente. Fixando a variável latente as variáveis observáveis tornamse independentes Hipótese (ou axioma) da independência condicional (ou local). Poucos dados/muitos dados p. 4/23

Modelos de estrutura latente mais comuns Bartholomew and Knott (1999) variáveis observadas contínuas categorizadas v. latentes contínuas Análise Análise de Factorial Traços Latentes categorizadas Análise de Análise de Perfis latentes Classes Latentes Poucos dados/muitos dados p. 5/23

2.1 Modelo para análise factorial Variáveis observáveis, X 1,...,X p, com densidade f(x) Variáveis latentes (factores): Y 1,...,Y m, com densidade h(y) Com g(x y), tem-se f(x) = h(y)g(x y)dy O objectivo da análise factorial é encontrar variáveis latentes, Y, que fazem os X s condicionalmente independentes, p p g(x y) = g(x i y) e portanto f(x) = h(y) g(x i y)dy i=1 i=1 Poucos dados/muitos dados p. 6/23

2.2 Modelo de classes latentes Variáveis observáveis, X 1,...,X p (X i tem c i classes: 1,...,c i ) Variável latente (Y tem s classes: 1,...,s) P(Y = k) = α s k k=1 α k = 1 P(X i = j Y = k) = π ci ijk j=1 π ijk = 1 f(x) P(x) = P(X 1 = x 1,...,X p = x p ) = com x ijk = 1 se i = j e x ijk = 0, c.c. s p α k k=1 c i i=1 j=1 π x ijk ijk Poucos dados/muitos dados p. 7/23

2.2 Modelo de classes latentes Estimação Partindo da amostra x 1,...,x n, obtém-se ( n s ) p log L = log (f(x l )) λ α k 1 l=1 k=1 i=1 s k=1 γ ik c i π ijk 1 j=1 com λ e γ ik multiplicadores de Lagrange, o que produz ˆα k e ˆπ ijk. A probabilidade a posteriori de uma observação x pertencer à classe latente k é p(k x) = α k p c i i=1 j=1 π ijk /f(x) que é estimada com recurso a ˆα k e ˆπ ijk. Poucos dados/muitos dados p. 8/23

Exemplo: dados sobre o naufrágio do Titanic (N. obs. = 2201; N. var. = 4) Classe 1 Classe 2 Classe 3 α k 0.446 0.382 0.172 Classe Tripulação 0.877 0.002 0.060 1 a classe 0.121 0.055 0.423 2 a classe 0.002 0.201 0.301 3 a classe 0.000 0.742 0.216 Idade Criança 0.000 0.085 0.098 Adulto 1.000 0.915 0.902 Sexo Feminino 0.004 0.169 0.855 Masculino 0.996 0.831 0.145 Sobrevivência Não 0.777 0.864 0.002 Sim 0.223 0.136 0.998 Poucos dados/muitos dados p. 9/23

Como descrever uma pessoa típica? Classe latente 1: tripulação, adulto, homem, não sobrevivente Classe latente 2: 3 a classe, adulto, homem, não sobrevivente Classe latente 3: 1 a classe, adulto, mulher, sobrevivente Poucos dados/muitos dados p. 10/23

Valor esperado do número de mulheres viajando na 3 a classe que não sobreviveram: 2201 [0.446 (0.000 1.000 0.004 0.777) + +0.382 (0.742 0.169 0.915 0.864) + +0.172 (0.216 0.855 0.902 0.002)] = 83.5 O respectivo valor observado é 89. Com os valores observados de cada célula (O i ) e os valores esperados, segundo o modelo, (E i ), pode usar-se o teste do Quiquadrado de Pearson para avaliar a qualidade do ajustamento do modelo: i (O i E i ) 2 /E i. Poucos dados/muitos dados p. 11/23

Características do Modelo de Classes Latentes O modelo de classes latentes permite descrever o perfil de cada classe latente encontrada; Poucos dados/muitos dados p. 12/23

Características do Modelo de Classes Latentes O modelo de classes latentes permite descrever o perfil de cada classe latente encontrada; calcular a probabilidade de cada indivíduo pertencer a uma dada classe, o que permite identificar a classe a que o indivíduo pertence. Poucos dados/muitos dados p. 12/23

O modelo de classes latentes pode ser visto como um método de obtenção de clusters. Todos os indivíduos que pertencem a uma classe latente formam um cluster que fica assim representado pela própria classe latente. Poucos dados/muitos dados p. 13/23

O modelo de classes latentes pode ser visto como um método de obtenção de clusters. Todos os indivíduos que pertencem a uma classe latente formam um cluster que fica assim representado pela própria classe latente. Como um método de análise de clusters equivalente à decomposição de uma mistura finita de populações. Poucos dados/muitos dados p. 13/23

Modelos de Mistura para Análise de Clusters Os modelos de mistura finita assumem que os dados são gerados por um conjunto de k populações com diferentes distribuições de probabilidade. Se essas distribuições forem normais multivariadas então o modelo de mistura é f(x) = k p i N (µ i,σ i ) i=1 O que se pretende é separar uma amostra proveniente da mistura em clusters correspondentes a cada uma das componentes. Poucos dados/muitos dados p. 14/23

Isso passa por identificar as componentes da mistura (estimando so seus parâmetros, via MV/EM) e estimando as probabilidades a posteriori de uma observação pertencer à componente (classe) i. O modelo de classes latentes é equivalente ao modelo de mistura (a diferença reside no facto das distribuições associadas a cada classe, cluster, serem do tipo discreto). Poucos dados/muitos dados p. 15/23

3. Análise de Clusters baseada em modelos versus Análise de Clusters tradicional Modelo de mistura finita Modelo de classes latentes é uma generalização do método das k-médias Poucos dados/muitos dados p. 16/23

3. Análise de Clusters baseada em modelos versus Análise de Clusters tradicional Modelo de mistura finita Modelo de classes latentes é uma generalização do método das k-médias k-médias 1. Seleccionar partição 2. Deslocar cada objecto para o grupo com o centróide mais próximo 3. Recalcular os centróides dos novos grupos 4. Repetir 2 e 3 até não ser possível realizar mais deslocações. Poucos dados/muitos dados p. 16/23

Caso ilustrativo σ = 1.0 π i ϕ i (x)/(π 1 ϕ 1 (x) + π 2 ϕ 2 (x)) 0.73 Densidades Responsabilidades 0.27 1 0.5 1 x 1 0.5 1 x Poucos dados/muitos dados p. 17/23

σ = 0.2 π i ϕ i (x)/(π 1 ϕ 1 (x) + π 2 ϕ 2 (x)) Densidades Responsabilidades 1 0.5 1 x 1 0.5 1 x EM k-médias (quando σ 0) Poucos dados/muitos dados p. 18/23

LC versus k-médias Grupo 1: N 2 ((3, 4); diag(4, 1)), n 1 = 200; Grupo 2: N 2 ((7, 1); diag(4, 1)), n 2 = 100. Poucos dados/muitos dados p. 19/23

LC versus k-médias Grupo 1: N 2 ((3, 4); diag(4, 1)), n 1 = 200; Grupo 2: N 2 ((7, 1); diag(4, 1)), n 2 = 100. Dados e recta discriminante: x2 5 0 5 10 0 2 4 6 8 10 x1 Poucos dados/muitos dados p. 19/23

Resultados (número de casos mal classificados): Grupo N. de obs. LDA LC cluster k-médias 1 200 2 3 24 2 100 2 2 9 Total 300 4 5 33 (1.3%) (1.7%) (11%) Poucos dados/muitos dados p. 20/23

k-médias (atribuição determinística dos objectos aos clusters) Variáveis quantitativas Clusters de forma esférica Minimização (maximização) da variação dentro (entre) clusters Critérios para determinação do número de clusters não são objectivos Modelo de mistura Modelo C. Latentes (atribuição probabilística dos objectos aos clusters) Variáveis de tipos variados Independência condicional Maximização da função de verosimilhança Há vários diagnósticos que ajudam a decidir sobre o número de clusters Poucos dados/muitos dados p. 21/23

5. Conclusões/Comentário final O modelo de classes latentes Tornou-se muito requerido nos últimos tempos. Poucos dados/muitos dados p. 22/23

5. Conclusões/Comentário final O modelo de classes latentes Tornou-se muito requerido nos últimos tempos. Pode ser usado como um método de análise de clusters. Poucos dados/muitos dados p. 22/23

5. Conclusões/Comentário final O modelo de classes latentes Tornou-se muito requerido nos últimos tempos. Pode ser usado como um método de análise de clusters. É um modelo de mistura. Poucos dados/muitos dados p. 22/23

5. Conclusões/Comentário final O modelo de classes latentes Tornou-se muito requerido nos últimos tempos. Pode ser usado como um método de análise de clusters. É um modelo de mistura. É uma generalização do método das k-médias. Poucos dados/muitos dados p. 22/23

5. Conclusões/Comentário final O modelo de classes latentes Tornou-se muito requerido nos últimos tempos. Pode ser usado como um método de análise de clusters. É um modelo de mistura. É uma generalização do método das k-médias. Comparado com os métodos de análise de clusters tradicionais (k-médias) apresenta a vantagem de ser mais flexível e ser baseado num modelo estatístico. Poucos dados/muitos dados p. 22/23

Bibliografia Banfield, J.D. and Raftery, A.E. (1993). Model based Gaussian and non- Gaussian clustering. Biometrics, 99 803 822. Bartholomew, D.J. and Knott, M. (1999). Latent Variable Models and Factor Analysis. Arnold, London. Fraley, C. and Raftery, A. E. (1998). How many clusters? Which clustering method? Answers via model-based cluster analysis. Computer Journal, 41, 578 588. Lazarsfeld, P.F. and Henry, N.W. (1968). Houghton-Mifflin, New York. Latent Structure Analysis. McLachlan, G.J. and Basford, K.E. (1988). Mixture Models: Inference and Applications to Clustering. Marcel Dekker, New York. Poucos dados/muitos dados p. 23/23