Análise Multivariada

Transcrição

1 Análise Multivariada Getúlio Amaral Universidade Federal de Pernambuco 2006

2 As notas de aula Apenas apresentam os tópicos de Interesse. O aluno precisa consultar os livros abaixo para obter os conhecimentos necessários para as provas e, futuramente, para sua vida profissional.

3 As notas de aula Apenas apresentam os tópicos de Interesse. O aluno precisa consultar os livros abaixo para obter os conhecimentos necessários para as provas e, futuramente, para sua vida profissional. Livros Textos Anderson, T. A. (1984), An Introduction To Multivariate Statistical

4 As notas de aula Apenas apresentam os tópicos de Interesse. O aluno precisa consultar os livros abaixo para obter os conhecimentos necessários para as provas e, futuramente, para sua vida profissional. Livros Textos Anderson, T. A. (1984), An Introduction To Multivariate Statistical Mardia, Kent and Bibby (1979) Multivariate Analysis

5 As notas de aula Apenas apresentam os tópicos de Interesse. O aluno precisa consultar os livros abaixo para obter os conhecimentos necessários para as provas e, futuramente, para sua vida profissional. Livros Textos Anderson, T. A. (1984), An Introduction To Multivariate Statistical Mardia, Kent and Bibby (1979) Multivariate Analysis Johnson and Wichern (1982) Applied Multivariate Statistical Analysis

6 As notas de aula Apenas apresentam os tópicos de Interesse. O aluno precisa consultar os livros abaixo para obter os conhecimentos necessários para as provas e, futuramente, para sua vida profissional. Livros Textos Anderson, T. A. (1984), An Introduction To Multivariate Statistical Mardia, Kent and Bibby (1979) Multivariate Analysis Johnson and Wichern (1982) Applied Multivariate Statistical Analysis Avaliação 1 Prova 2 Trabalho (artigo, apresentação, relatório, 5 perguntas, respostas) Sorteio toda aula 3 Conjunto de Dados

7 Pesquisas Históricas Normal Bivariada: Adrian (1808) Laplace (1811) Gauss (1823) Galton Geneticista - Correlação, Regressão e Homocedasticidade Karl Pearson - Coeficiente de correlação para estudar problemas em genética, biologia e outras áreas. Fisher - Métodos para agricultura, botanica e outras áreas.

8 Normal Multivariada Tem sido adequada para problemas de várias áreas do conhecimento como psicologia, engenharia, economia e outros. Métodos não Paramétricos (serão abordados em seminários) Modernos, boas possibilidades de pulicações, melhores resultados em muitos casos. Bootstrap Distribuição Empírica c/reamostragem Kernel Distribuição estimada dos dados

9 Matrix de dados X = x x 1p.. x n1... x np Seja x i a i-ésima linha escrita como coluna, que é dada por Seja x (j) a j-ésima coluna de X x i = (x i1,..., x ip ) x (j) = (x 1j,..., x nj )

10 Vetor de Médias Análise Multivariada x = ( x 1,..., x p ) onde x i = 1 n n r=1 x ri. Matriz de covariância S = (s ij ), onde s ij = 1 n n r=1 (x ri x i )(x rj x j ). Notação Matricial x = 1 n X 1, onde 1 = (1,..., 1) é um vetor de dimensão n. Para a matriz de covarianância ou ainda, se H = I 1 n 11, S = 1 n (X X 1 n X 11 X ), S = 1 n X HX

11 Matriz de Correlação R = (r ij ), onde r ij = s ij s i s j. Exercício 1 (Mardia et al, 1979, p. 11) Exemplo (dados de 28 árvores). Calcular, usando o R ou outro programa, o vetor de médias, a matriz de covariância e a matriz de correlação. Exercício 2 Fazer o download do "Atlas do desenvolvimento Humano do Recife."Escolher uma variável quantitativa e calcular as mesmas quantidades do exercício 1.

12 Combinações lineares Análise Multivariada Transformação de Escala y r = a 1 x r1 +,..., a p x rp y r = D 1 (x r x), onde r = 1,..., n, D = diag(s i ) e diag(.) denota uma matriz diagonal. Esta mudança torna unitária a variância das variáveis. Transformação de Mahalanobis z r = S 1/2 (x r x), onde S 1/2 S 1/2 = S é inversa da matriz raiz quadrada de S. S 1/2 é definida a partir dos autovalores e autovetores de S. Se Γ é matriz de autovetores de S e λ 1,..., λ p os autovalores de S,a matriz raiz quadrada é dada por onde Λ 1/2 = diag(λ 1/2 i ). A inversa de S 1/2 é por S 1/2 = ΓΛ 1/2 Γ, S 1/2 = ΓΛ 1/2 Γ,

13 Notação X :Matriz de Dados; x i : uma observação; x (j) uma variável; X i um vetor aletório cujo o valor observado é x i.

14 Distribuições Multivariadas Considere p variáveis aleatórias X 1,..., X p, a função de distribuição de probabilidade (fdp) é dada por F (x 1,..., x p ) = P(X 1 x 1 ),..., X p x p ). A função de densidade (fd) é definida por e F (x 1,..., x n ) x 1... x p = f (x 1,..., x p ). F (x 1,..., x p ) = xp x1... f (u 1,..., u p )du 1... du p.

15 Independência Seja F (x 1,..., x p ) a fdp de X 1,..., X p, o conjunto de variáveis aleatórias X 1,..., X p, é mutuamente independente se F (x 1,..., x p ) = F 1 (x 1 )... F p (x p ), onde F i (x i ) =... f (u 1,..., u p )du 1... du p, onde u j x i

16 Transformação de Variáveis Se a densidade de X 1,..., X p é f (x 1,..., x p ), considere as seguintes p funções Análise Multivariada y i = y i (x 1,..., x p ) A transformaç ao inversa é x i = x i (y 1,..., y p ). Considere as p variáveis aleatórias Y i = y i (x 1,..., x p ) A densidade de Y 1,..., Y p é onde g(y 1,..., y p ) = f (x 1 (y 1,..., y p ),..., xp(y 1,..., y p )) J(y 1,..., y p ) = x 1 y 1... J(y 1,..., y p ), x 1 y p.. x p... x p

17 Amostra Aleatória Seja X 1,..., X n uma amostra aleatória de uma distribuição F (x) com vetor de médias µ e matriz de covariância Σ. O estimador é centrado, isto é, E( X ) = µ. Além disto, cov( X ) = 1 n Σ. X = n i=1 X i n

18 É possível mostrar também que E(S n ) = n 1 n Σ, onde S n = n j=1 (X j X )(X j X ). Exercício 3 Se um vetor aleatório V tem E(V ) = µ v e Cov(V ) = Σ v, prove que E(VV ) = Σ v + µ v µ v.

19 Normal Multivarida Normal univariada Análise Multivariada f (x; µ, σ) = k exp 1 2 (x µ)σ 1 (x µ) As quantidades univariadas podem ser redefinidas para o caso multivariado x = µ = x 1. x n µ 1. µ n

20 σ 1,1... σ 1,m Σ =..... σ k,1... σ k,m Substituindo-se x, µ e σ por suas versões multivariadas, temos f (x; µ, σ) = k exp 1 2 (x µ) Σ 1 (x µ). A única incógnita para determinar a distribuição de x é k.

21 Cálculo da Constante k k =... exp 1 2 (x µ) Σ 1 (x µ) dx p... dx 1. Usando-se o corolário A.1.6 (Vide Anderson, 1984, p. 586), se Σ é positiva definida, então existe uma matriz não singular C tal que Análise Multivariada C Σ 1 C = I, I é a matriz identidade e C é a tranposta de C. Considere onde y = (y 1,..., y p ). Temos que x µ = Cy, Como (x µ) Σ 1 (x µ) = y C Σ 1 Cy = y y. J = C, a constante de interesse é dada por

22 1 Simplificando-se o integrando, temos exp { 1 2 y y} = p i=1 exp 1 2 y 2 i. O valor da constante de interesse é dado por Análise Multivariada k = Mod C... exp 1 2 y exp 1 2 y 2 p dyp... dy 1 = Mod C exp 1 2 y 2 1 dy1 = Mod C ( 2π) p. exp 1 2 y 2 p dyp... Calculando-se o determinante de C, tem-se o que resulta em C Σ 1 C = I,

23 Exercício 4 Considere uma distribuição multivariada do vetor (x, y). Para obter este vetor, seja u and v N(0, 1) independentes e defina x = u se uv 0 enquanto x = u se uv < 0. Defina y = v. Mostre que x e y são N(0, 1), porém (x, y) não tem distribuição normal bivariada.

24 Esperança e Covariância Esperança de Um Vetor Se X = (X 1,..., X p ), o valor esperado de X é dado por E(X ) = E(X 1 ). E(X p ).

25 Se Y = DX + b, onde X é um vetor aleatório, podemos afirmar que e E(Y ) = DE(X ) + b Prova: Anderson (1984, p. 19). V (Y ) = DV (X )D.

26 Se a função de densidade de X é definida como Temos que e A (2π) 1 2 p 1 2 (x µ) Σ 1 (x µ) exp E(X ) = µ V (X ) = Σ. Prova: Anderson (1984, pp ). Notação: N(µ, Σ) denota uma normal multivariada com média µ e matriz de covariância Σ.

27 Teorema. Se X N(µ, Σ), a transformação Y = CX tem distribuição N(Cµ, CΣC ), onde C é não singular. Prova: Vide Anderson (1984, pp ).

28 Teorema. A função característica de X N(µ, Σ) é igual a φ(t) = E(exp it X ) = exp it µ 1 2 t Σt, onde t é um vetor real. Prova: Anderson (1984, p. 46).

29 Exercício 5 Encontre µ e Σ nas densidades: a) 1 2π exp 1 2 [(x 1)2 +(y 2) 2 ] b) 1 2π exp 1 2 [x 2 +y 2 +4x 6y+13] Exercício 6 Prove que se Σ é positiva definida, tem-se (Vide Anderson, 1984, p. 35). Σ = Σ 11 Σ 12 Σ 1 22 Σ 21 Σ 22.

30 Exercício 7 Se X N(µ, Σ), onde e Σ 1 = µ = qual é a distribuição de X 1 + 2X 2 3X 3. Exercício 8 Quais são as densidades marginais de X e Y em (a) e (b) do exercício 5.,

31 Distribuição de (X µ) Σ 1 (X µ) Seja X distribuida como uma N(µ, Σ), com Σ > 0, os seguintes resultados são válidos: 1. (X µ) Σ 1 (X µ) χ 2 p. 2. P[(X µ) Σ 1 (X µ) χ 2 p] = 1 α é um elipsoide.

32 Verificação da Hipótese de Normalidade Multivariada 1. Obter q-q plots e aplicar testes de normalidade (Kolmogorov ou outro), para cada variável individualmente. 2. Fazer diagramas de dispersão (XY) e verifique se o conjunto dos pontos possuem aproximadamente a forma de uma elipse. 3. Verificar se existem pontos aberrantes que precisam ser cuidadosamente analisados.

33 4 Calcular dj 2 = (x j x) S 1 (x j x) j = 1,..., n, onde x 1,..., x n são as observações amostrais. Em seguida, verificar por um Q-Q plot se os d j s seguem uma distribuição χ 2 p.

34 Estimação de Máxima Verossimilhança Análise Multivariada Função de Verossimilhança Considere uma a.a. X 1,..., X n onde X i tem f.d.p f (x i ; θ), onde θ é um vetor de parâmetros. A função de verossimilhança é definida como L(x 1,..., x n ; θ) = n f (x i ; µ). i=1

35 Estimação de Máxima Verossimilhança Análise Multivariada Função de Verossimilhança Considere uma a.a. X 1,..., X n onde X i tem f.d.p f (x i ; θ), onde θ é um vetor de parâmetros. A função de verossimilhança é definida como L(x 1,..., x n ; θ) = n f (x i ; µ). i=1 O log da função de verossimilhança é é dado por l(x 1,..., x n ; θ) = n log f (x i ; µ). i=1

36 Estimação de Máxima Verossimilhança Análise Multivariada Função de Verossimilhança Considere uma a.a. X 1,..., X n onde X i tem f.d.p f (x i ; θ), onde θ é um vetor de parâmetros. A função de verossimilhança é definida como L(x 1,..., x n ; θ) = n f (x i ; µ). i=1 O log da função de verossimilhança é é dado por l(x 1,..., x n ; θ) = n log f (x i ; µ). i=1

37 Distribuição Normal Análise Multivariada Caso da Normal Multivariada l(x 1,..., x n ; θ) = n 2 log 2πΣ 1 2 n (x i µ) Σ 1 (x i µ) i=1

38 Distribuição Normal Análise Multivariada Caso da Normal Multivariada l(x 1,..., x n ; θ) = n 2 log 2πΣ 1 2 ou n (x i µ) Σ 1 (x i µ) i=1 l(x 1,..., x n ; θ) = n 2 log 2πΣ n 2 trσ 1 S n 2 ( x µ) Σ 1 ( x µ). (Vide Mardia et al, 1979, pp ).

39 Escores e Matrix de Informação Análise Multivariada Função Escore S(x 1,..., x n ; θ) = l(x ; θ) θ Matriz de Informação de Fisher ( 2 ) l F = E θ θ

40 Estimadores de Máxima Verossimilhaça Análise Multivariada O máximo de l(x ; θ) é obtido quando ( l/ θ) = 0, para um certo valor ˆθ, que é o estimador de máxima verossimilhança de θ. Exercício 9 Verifique que no exemplo (Vide Mardia et al, 1979, p. 100) têm-se l(x ; θ) = log c n log 4+x 1 log 2 + θ+(x 2 +x 3 )log(1 θ)+x 4 log θ, e s(x ; θ) = l(x ; θ) θ = x θ x 2 + x 3 1 θ + x 4 θ F = n(1 + 2θ) 2θ(1 θ)(2 + θ).

41 Exercício 10 Encontre o estimador de máxima verossimilhança do exercício 9 por solucionar a equação s(x ; θ) = 0. Os problemas descritos acima tratam da distribuição descrita por Fisher (1970, p. 305), que é um experimento com 4 resultados cujas as probabilidades destes resultados são (2 + θ)/4, (1 θ)/4, (1 θ)/4 e θ/4. Esta distribuição é uma multinomial.

42 Maximizando a Verossimilhaça da Normal Multivariada Análise Multivariada Log Verossimilhança l(x 1,..., x n ; θ) = n 2 log 2πΣ n 2 trσ 1 S n 2 ( x µ) Σ 1 ( x µ). Estimadores ˆµ = x, ˆΣ = S. Para garantir que o ponto crítico é o máximo, usa-se Teorema Se A é uma matrix p p fixa, o máximo de é Σ = n 1 A. f (Σ) = Σ n/2 exp( 1 2 trσ 1 A)

43 Inferência Bayesiana (Vide Gelman et al, 1995, pp. 3-82). 1. Existe um modelo probabilístico completo, isto é, uma distribuição de probabilidade conjunta para todas as quantidades observáveis e não observáveis. 2. Obter uma distribuição condicionada aos dados observados. 3. Avaliar o modelo e a distribuição obtida a posteriori. Caso o modelo não seja adequado, as etapas 1, 2 e 3 devem ser repetidas. O pensamento Bayesiano facilita uma interpretação das conclusões estatísticas associadas ao bom senso. Um intervalo de confiança bayesiano para uma quantidade de interese desconhecida pode ser considerado como tendo uma alta probabilidade de conter o parâmetro verdadeiro. Por outro lado, o intervalo frequentista, não pode ter a mesma interpretação. O que pode ser dito é que em uma grande quantidade de realizações de um experimento espera-se que o intervalo contenha o valor verdadeiro em uma grande proporção destas realizações. Análise Multivariada

44 Notação Bayesiana θ - Vetor de quantidades não observáveis. y - Dados observados ỹ - Quantidade desconhecida que, porém, é potencialmente observável. p(θ) - Priori, representa o conhecimento subjetivo que o pesquisador da área de estudo (medicina, oceanografia, engenharia) têm a respeito de θ. p(y θ) - Verossimilhança, representa as informações provinientes dos dados. p(θ y) - Posteriori, é a distribuição final que é utilizada para construir regiões de confiança e para testar hipóteses. Regra de Bayes p(θ y) = p(θ)p(y θ).

45 Verossimillhança para um ponto da Normal univariada Verossimilhança P(y θ) = 1 2πσ exp 1 2σ 2 (y θ)2 Análise Multivariada Priori p(θ) exp( 1 τ0 2 (θ µ 0 ) 2 ), θ N(µ 0, τ0 2), onde µ 0 e τ0 2 são hyperparâmetros. Posteriori P(θ y) exp( 1 [ (y θ) 2 2 σ 2 + (θ µ 0) 2 ] τ0 2 Simplificandos-se (completando-se quadrados e etc), onde P(θ y) exp( 1 2τ1 2 (θ µ 1 ) 2, µ 1 = 1 τ 2 0 µ σ 2 y 1 τ σ 2

46 Normal Multivariada Verossimilhança P(y µ, Σ) Σ exp ( 1 ) 2 (y µ) Σ 1 (y µ) Análise Multivariada para uma amostra Y 1,..., Y n, P(y 1,..., y n ) Σ n/2 exp Posterior Distribution P(µ y, Σ) exp ou ainda, ( 1 2 [ n (y i µ) Σ 1 (y i µ) i=1 (µ µ 0 ) Λ 1 0 (µ µ 0) + P(µ y, Σ) = N(µ µ n, Λ n ), ]) n (y i µ) Σ 1 (y i µ), i=1 µ n = (Λ nσ 1 ) 1 (Λ 1 0 µ 0 + nσ 1 ȳ), Λ 1 n = Λ nσ 1.

47 Testes de Hipóteses Análise Multivariada Teste da Razão de Verossimilhança Seja X 1,..., X n uma a.a. de F (θ). Sejam H 0 : θ Ω 0 e H 1 : θ Ω 1. A razão de verossimilhança é definida por λ(x) = L 0 L, 1 onde L i é o maior valor que a função de verossimilhança assume na região Ω i, i = 0, 1. Para simplificar, usa-se a estatística onde l 1 = log L 1 e l 0 = log L 0. 2logλ = 2(l 1 l 0 ),

48 Hipótese H 0 : µ = µ 0, ΣConhecido Análise Multivariada l 0 = l(µ 0, Σ) = 1 2 nlog 2 piσ 1 2 trσ 1 S 1 2 n( x µ 0) Σ 1 ( x µ 0 ) Não existe restrições para µ em H 1, logo, E.M.V de µ é x. Usando-se a razão de verossimilança, 2logλ = 2(l 1 l 0 ) = n( x µ 0 ) Σ 1 ( x µ 0 )

49 Hipótese H 0 : µ = µ 0, Σ desconhecido (Teste de Hotelling para Uma Amostra) Análise Multivariada Σ deve ser estimado sob H 0 e H 1. Usando os resultados de Mardia et al (1979, pp ), Sob H 0, ˆµ = µ 0 e ˆΣ = S + dd onde d = x µ 0. Sob H 1, ˆµ = x e ˆΣ = S. Logo, l0 = l(µ 0, S +dd ) = 1 2 {plog2π+log S +log(1+d S 1 d)+p} e l1 = l( x, S) é obtido por colocar d = 0 na expressão acima. Logo, 2logλ = 2(l1 l0 ) = nlog(1 + d S 1 d). A estatística d S 1 d é chamada de T 2 de Hotelling.

50 A distribuição da estatística n p d S 1 d F p,n p. p falicita o uso do teste acima em muitos problemas reais.

51 Hipótese H 0 : Σ = Σ 0, onde µ Desconhecido Análise Multivariada Sob H 0, temos ˆµ = x e Σ = Σ 0. Sob H 1, temos ˆµ = x e Σ = S Logo, l 0 = 12nlog 2πΣ ntrσ 1 0 S, e l 1 = 12nlog 2πΣ 1 2 np 2logλ = ntrσ 1 0 S nlog Σ 1 0 S np. Distribuição muito complexa, alternativas: bootstrap, verossimilhança empírica.

52 Se w e v são variáveis aletórias unidimensionais independentes e suas distribuições são σ 2 χ 2 α e σ 2 χ 2 β, respectivamente, o termo w/v têm distribuição F α,β. Distribuição de Wishart Se M(p) pode ser escrita como M = X X, one X (n) é uma matriz de dados de N(0, Σ), a distribuição da matriz M é uma Wishart com matriz de escala Σ e com n graus de liberdade. A forma padrão da distribuição ocorre quando M = I. A distribuição de Wishart é denotada po W p (Σ, n).

53 No caso multivariado, Se A W (Σ, m) e B W (Σ, n) são independentes, define-se que Λ = A / A + B = I + A 1 B 1 Λ(p, m, n), onde Λ(p, m, n) é a distribuição lambda de Wilks.

54 Teste T 2 de Hotelling para 2 Amostras Análise Multivariada Se x e M são independentes e distribuidas como N(µ, Σ) e W p (Σ, m), respectivamente, têm-se m(x µ) M 1 (x µ) T 2 (p, m), onde T 2 (p, m) é a distribuição de Hotelling com parâmetros m e p. Theorem T 2 (p, n) = {np/(n p + 1)} F p,n p+1 Logo, {(n p)/p}( x µ)σ 1 ( x µ) F p,n p Suponha duas amostras de tamanho n 1 e n 2, onde n 1 + n 2 = n.

55 Teste de Hotelling p/ Duas Populações H 0 : µ 1 = µ 2 Considera-se que as matrizes de covariância são iguais. O núcleo da estatística do teste é D 2 = ( x 1 x 2 ) S 1 c ( x 1 x 2 ), onde (S c = n 1 S 1 + n 2 S 2 )/(n 2) é a matriz de covariância combinada. Usando os resultados anteriores, temos n 1 n 2 (n p 1) D 2 F (p,n p 1). n(n 2)p

56 Problema de Várias Amostras Análise de Variância com um Fator Considere H 0 : µ 1 =... = µ p, dado que Σ 1 =... = Σ k Sob H 0, os EMV s de µ e Σ são x e S, respectivamente. Sob H 1, a log-verossimilhaça é dada por Análise Multivariada l 0 = 1 2 p i=1 [n i log 2πΣ + n i trσ 1 (S i + d i d i )], onde S i é a matriz de covariância da i-ésima amostra e d i = x i µ i. O EMV de µ i é x i e l 0 = 1 2 log 2πΣ 1 2 trσ 1 W, onde W = p n i S i. Derivando a equação acima com respeito a Σ e igualando a zero, temos ˆΣ = n 1 W. i=1

57 Problema de Várias Amostras Análise Multivariada W = soma de quadrados e produtos (SQP) dentro dos grupos A razão das verossimilhanças é dada por λ = { } n/2 W = T 1 W n/2, ns onde T = ns é a SQP total. Como W é a SQPD e T é a SQPT, temos a seguinte relação B = T W = n i ( x i x)( x i x), onde a matriz B é considerada a SQP entre os grupos ou SQPE. Logo podemos escrever λ = W B + W = I + W 1 B 1. Antes de determinar a distribuição desta estatística, é necessário introduzir algumas definições.

58 Exercício 11 A densidade de uma normal bivariada é Existe uma elipse associada a esta densidade. Os eixos e faça um gráfico desta elipse. Exercício 12 Se X N(0, Σ), onde = ( ), Ache a tal que X = a Y e Y tem distribuição normal não singular. Apresente a densidade de Y.

59 Exercício 13 Considere (X 1, Y 1 ), (X 2, Y 2 ), (X 3, Y 3 ), onde (X i, Y i ) são i.i.d com distribuição N(µ, Σ), com e µ = (µ x, µ y ) Σ =.

60 Análise de Agrupamento Análise Multivariada Histórico Hindus usaram o sexo, características físicas e comportamentais para classificar pessoas em seis tipos, os quais eles usaram nomes de animais. Romanos usaram Caraterísticas Físicas e gregos nove temperamentos. Existem muitos critérios para classificar, o genêro, a espécie e outros.

61 Matriz de Dados x x 1p X =....., x n1... x np Classificação das técnicas de agrupamento: i)técnicas Hierárquicas; ii)técnicas de Partição-Otimização.

62 Idéia geral de alguns métodos: 1)Cálculo das distâncias; 2)Algoritmo para agrupar as observações. Distância Euclideana A distância entre os objetos "i"e "j"pode ser calculada por d(x i, x j ) = (x i1 x j1 ) 2 +,..., +(x ip x jp ) 2

63 Métodos Aglomerativos Análise Multivariada Inicia com o cálculo das distâncias ou similaridades entre os objetos, o que produz uma matriz n n com estas medidas. Como existem vários métodos para calcular distâncias ou similaridades, existirá para um certo método aglomerativo várias opções. Além das medidas de distâncias e similaridades, é fundamental estabelecer o algoritmo utilizado para formar os grupos de entidades.

64 Método do Vizinho Mais Próximo Inicialmente, se existem n indivíduos, existirão n grupos. Em cada etapa existe uma fusão entre os grupos mais próximos. Exemplo: Suponha que a matriz de distâncias é: D 1 = , No primeiro passo, ocorre o agrupamento de 1 e 2, e novas distâncias são calculadas usando Análise Multivariada A nova matriz é: d (12)3 = Min{d 13, d 23 } = d 23 = 5.0 D 2 = ,

65 Método da Ligação Completa Análise Multivariada As mesmas etapas devem ser seguidas. Porém, em cada agrupamento a nova distância deve ser calculada como d (12)3 = max{d 13, d 23 } = d 13 = 6.0

66 Método do Centróide Análise Multivariada Calcula-se a matriz de distâncias entre todos os objetos. Os objetos com a menor distância irão forma um novo grupo. Calcula-se o centróide de um novo grupo e usa-se esta medida para obter a matriz distância relativa a este grupo. A distância entre os grupos é calculada como a distância entre os centróides dos grupos.

67 Distâncias, Similaridades e seus Axiomas Análise Multivariada 1. D(x, y) 0; 2. D(x, y) = 0 sse x = y; 3. D(x, y) = D(y, x), x, y R d ; 4. D(x, y) D(x, z) + D(y, z), x, y, z R d ; 1. s(a, B) = s(b, A) 2. s(a, B) > 0 3. s(a, B) similaridade entre A e B

68 Medidas de Distância Análise Multivariada Nome Fórmula { p } 1/2 Euclideana j=1 w j(x rj x sj ) 2 1 Karl Pearson w j s 2 k Mahalanobis {(x r x s )Σ 1 (x r x s )} 1/2 p Manhanttan j=1 w j x rj x sk Tabela: Distâncias, Mardia et al. (1979, p. 381) Variáveis Qualitativas r = ad bc (a + b)(c + d)(a + c)(b + d).

69 Método de K-Médias Análise Multivariada Este método adiciona cada item ao grupo que tem o centróide (média) mais próxima. A versão mais simples deste método têm as seguintes etapas: 1. Decidir qual o valor de K 2. Particionar os itens em K grupos 3. Para cada item, verificar que grupo é mais próximo. Caso exista um grupo mais próximo do item do que seu grupo atual, retirar este item do grupo atual e recolocá-lo no grupo mais próximo. Em seguida, os novos centróides de cada grupo devem ser recalculados. 4. repetir a etapa 3 até que nenhum item precise ser movido.

70 Análise Discriminante Análise Multivariada Considere g populações ou grupos Π 1,..., Π g, onde se x i Π j então x i f j (x). O objetivo é alocar um certo objeto "i"a uma das populações Π j, usando o vetor de variáveis x i. Esta alocação deve minimizar o erro de classificação. Duas situações principais de classificação: a)análise de Agrupamento - A população do objeto "i"não é conhecida (classificação não supervisionada) b)análise discriminante - A população do objeto "i"é conhecida (classificação supervisionada)

71 Modelos de Classificação Existem 2 principais casos de interesse: 1. A f.d.p. associada a Π j é f j (x), isto é, uma densidade de forma conhecida; 2. Um método empírico, onde nenhuma forma particular para a f.d.p. associada a Π j é assumida. Regra de alocação: Alocar o objeto x a uma das populações Π 1,..., Π g que produz o maior valor da verossimilhança para x. Assim, Análise Multivariada L i (x) = Max i L i (x). Para os próximos exemplos, considere que P(L i (x) = L k (x)para algum i k Π i ) = 0. Distribuição Normal: Caso de duas Populações Π 1 = N(µ 1, σ1 2) Π 2 = N(µ 2, σ2 2) { L i (x) = (2πσi 2 ) 1/2 exp 1 ( ) ) 2 x µi. 2 σ i

72 { λ = L 1(x) L 2 (x) = σ 2 exp 1 σ 1 2 Simplificando, [ (x ) 2 ( ) ]} 2 µ1 x µ2 + > 1 σ 1 σ 2 x 2 ( 1 σ σ 2 2 ) ( µ1 2x σ1 2 µ ) ( ) 2 µ 2 σ σ1 2 µ2 2 σ2 2 < 2 log σ 2 σ 1 Esta regra é utilizada para alocar x a Π 1 ou Π 2. Teorema Se Π = N p (µ i, Σ), i = 1,..., g e Σ > 0, x é alocado a Π j se (x µ j ) Σ 1 (x µ j ) é o valor mínimo de a i Σ 1 a i, onde a i = (x µ i ), para i = 1,..., g.

73 Quando g = 2, a regra é alocar x a Π 1 se α (x µ) = [Σ 1 (µ 1 µ 2 )] (x 1 2 (µ 1 µ 2 )) = (µ 1 µ 2 ) Σ 1 (x µ 1 2 µ 2 2 ) > 0.

74 Estimando a Regra Discriminante Análise Multivariada Condições: 1. Matriz de Dados X (n p); 2. Π 1,..., Π g são conhecidos com f i (µ, Σ) normal, e µ e Σ devem ser estimados; 3. As linhas de X são particionadas em g grupos X = (X 1,..., X g ); 4. x 1,..., x g P e S u = ni S i (n g) µ 1,..., µ g e Σ. Se g = 2, A regra é alocar x a Π 1 se são os estimadores não viesados de ( x 1 x 2 )S 1 {x 1/2( x 1 + x} > 0.

75 Componentes Principais Análise Multivariada A média representa uma combinação linear que é dada por 1 5 1x = ( ) x. Porém, esta combinação linear atribui o mesmo peso à todas as variáveis. O método de componentes principais fornece uma combinação linear com pesos diferentes. Definição Se x é um vetor aleatório com média µ e matriz de covariância Σ, as componentes principais são definidas por y = Γ (x µ), onde Γ é ortogonal, Γ ΣΓ = Λ = diag{λ 1,..., λ p.} Tem-se que λ 1 λ 2... λ p 0 e Γ é a matriz de autovetores.

76 Teorema Se x (µ, Σ), a transformação y = Γ (x µ) satisfaz os seguintes resultados a)e(y i ) = 0 b) V (Y i ) = λ i c) Cov(Y i, Y j ) = 0, i j b)v (Y 1 ) V (Y 2 )... V (Y p ) 0 e) p i=1 V (Y i) = trσ f) p i=1 V (Y i) = Σ Teorema: Nenhuma combinação linear de x tem variância maior do que λ 1, a variância da primeira componente principal.

77 Se α = a x é uma combinação linear de x que não é correlacionada com as com as primeiras k componentes principais de x, então a variância de α é maximizada quando α é a (k + 1) ésima componente principal. Componentes Principais Amostrais Análise Multivariada X = (x 1,..., x n ) Xa é uma soma ponderada das colunas de X. V (Xa) = a Sa Primeira componente principal e Y (1) = (X 1 X )e (1) Y (i) = (X 1 X )e (i). O conjunto dos componentes principais é dado por Y = (X 1 X )G.

78 Propriedades das Componentes Principais Análise Multivariada a)a proporção da variabilidade explicada pelas k componentes principais é dado por (λ λ k ) (λ λ p ). b)componentes principais são afetadas por mudança de escala. Isto pode ser solucionada por padrozinar as variáveis ou usar a matriz de correlação. c)o posto de x = r < p, a variabilidade total pode ser explicada pelas r primeiras componentes. d)elipsóide (x µ)s 1 (x µ) = T α

79 Eliminação de Componentes Análise Multivariada hipóteses H 0 : λ p = λ p 1 =... = λ k+1. O log da estatística da razão de verossimilhança é dada por 2logλ = np(a 1 log g), onde a e g são as médias geométricas dos autovalores de Σ 1 S, onde Σ de Σ. Os autovalores de S são os mesmos de Σ. Sejam a 0 = (λ k+1,...,+λp) (p k) e g 0 = (λ k+1,..., λ p ). A estatística para testar a hipótese acima, com a aplicação da correção de Bartlett, é dada (n 2p + 11 )(p k) log( a 0 ) χ 2 (p k+2)(p k 1)/2, 6 g 0 O mesmo pode ser feito com a matriz de correlação (Vide Mardia et al (1979, p. 236).

80 Componentes Principais e Análise de Regressão Análise Multivariada Para várias explicativas muito correlacionadas, o método de componentes principais torna-se uma boa alternativa. O critério de escolha das componentes não é mais o teste anteriormente descrito. Este critério é o mesmo usado para as variáveis explicativas do modelo de regressão, onde estas variáveis explicativas são as componentes principais. As principais vantagens do uso de componentes principais em análise regressão são: O uso de componentes principais faz com que todas as variáveis possam ser utilizadas na análise. As componentes principais permitem que o efeito individual de cada variável seja melhor quantificado.

81 Formulação do Modelo Análise Multivariada Modelo de regressão y = X β + ɛ, onde ɛ N(0, σ 2 H) e H = I n O modelo de regressão com as componentes principais W = XG é definido como onde α = G β. y = W α + ɛ,

82 Regressão Múltipla Multivariada Análise Multivariada Modelo onde Y (n m) = Z n (p+1) β (p+1) m) + ɛ (n m), z 11 z z 1m Z = z n1 z n2... z nm β 01 β β 0m β = β p1 β p2... β pm ɛ 11 ɛ ɛ 1m ɛ = ɛ n1 ɛ n2... ɛ nm

83

84

85

86 Anderson, T. W., (1971). An Introduction to Multivariate Statistical Analysis, John Wiley & Sons, New York. Everitt, B., (1974). Cluster Analysis, Heinemann Educational Books, London. Mardia, K. V., Kent, J. T. and Bibby, J. M. (1979). Multivariate Analysis, Academic Press, London.

87 Critérios de Avaliação - Atlas Banco de Dados Análise Multivariada 1. Usar latex; 2. Usar R ou OX; 3. A avaliação é competitiva, isto é, o melhor trabalho recebe a melhor nota e força a redução das notas dos outros trabalhos; 4. Justificar a escolha das variáveis e o objetivo de sua análise; 5. Usar as informações dos livros porque as notas de aula são apenas slides; 6. Explicar os modelos utilizados (equações e idéias); 7. Colocar referências bibliográficas; 8. Escrever notas explicativas nos programas desenvolvidos e colocar todos os programas em um apêndice. As melhores análises serão enviadas para secretaria de planejamento da cidade do Recife. Nossa expectativa é receber alguma retroalimentação.

88 Calendário Análise Multivariada Prova Análise do Banco de Dados: Atlas (Recife) Seminário:

89 Os trabalhos entregues 2 dias antes do prazo têm um acréscimo de 20% no valor da nota. Método Data Abraão Fábio Juliana da Entrega Agrupamento ,6 2,4 2,2 Discriminante ,6 2,4 2,4 Componentes ,4 2,4 2,2 Principais Regressão Multivariada ,6 2,4 2,3 Tabela: Cronograma e Avaliação

90 Os alunos José Luis e Edson já estão reprovados. Aluno SeminárioProva Análise Dados Média Final Abraão 9,5 7,5 10 9,0 Edson 4 0,7 0 Fábio 8,5 7,0 9,6 8,4 Jose Luis Juliana 8,5 4, ,4 Tabela: Resultados Parciais