Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes º trimestre de 05

Inferência Multivariada MANOVA MANLY, Cap. 4 HAIR et al., Cap. 6

Exemplo Uma empresa encomendou peças publicitárias para um novo produto que foram assistidas por dois grupos homogêneos de indivíduos, separados por gênero (Feminimo e Masculino) e devidamente aleatorizados em relação a qual comercial viam primeiro. Cada indivíduo informava a nota (escala de 0 a 0) para o novo produto depois de assistir a cada uma das peças publicitárias. X : Nota do produto após o comercial X : Nota do produto após o comercial Objetivo: Verificar se há diferença na avaliação do produto entre os grupos de indivíduos para cada uma das peças publicitárias. 3

Dados Grupo Feminino Masculino Indivíduo X X Indivíduo X X 5.0 3.0 4.6 4.9 4.5 3. 4.9 5.9 3 6.0 3.5 3 4.0 4. 4 6.0 4.6 4 3.8 5.4 5 6. 5.6 5 6. 6. 6 6.9 5. 6 5.0 7.0 7 6.8 6.0 7 5.3 4.7 8 5.3 5.5 8 7. 6.6 9 6.6 7.3 9 5.8 7.8 0 7.3 6.5 0 6.8 8.0 4

Estatísticas Descritivas F M 5

Nota do produto após comercial - X X 7 6 5 Teste t de Student t =,57 p = 0,34 4 F Grupo M 6

Nota do produto após comercial X 8 X 7 6 5 4 Teste t de Student t = -,64 p = 0,9 3 F Grupo M Conclusão: não existe diferença estatisticamente significante entre as médias da avaliação do produto para homens e mulheres, com 95% de confiança para cada uma das peças publicitárias. 7

Diagrama de Dispersão 8 F M 7 6 Teste Multivariado X 5 T = 8,636 4 p = 0,00374 3 4 5 X 6 7 Conclusão: há diferença na avaliação de homens e mulheres 8

9 Distribuição normal multivariada X = (X,..., X p ) T ~ N p (µ,σ) se a sua função densidade de probabilidade for: ( ) ( ) ( ) / / ) ( µ x Σ µ x Σ x = T e f p p π Distância de Mahalanobis

Distribuição normal bivariada 0

Propriedades, ) ( = = p p p p p Cov σ σ σ σ σ σ σ σ σ! "!! X Σ Se E(X) = µ = (µ, µ,..., µ p ) T e então X j ~ N(µ j, σ j ) e Cov(X j, X k ) = σ jk

Inferência Estatística P o p u l a ç ã o µ Σ Estimação Amostra X S H H o : µ = : µ µ µ 0 0 Teste de hipóteses

Estimação de µ e Σ Amostra de tamanho n. µ ˆ = X X X =! X p, X j = média amostral de ˆ = matriz de covariância amostral Σ = S divide - se por (n -) X j 3

Resultados Se X = (X,..., X p ) T é uma amostra aleatória de tamanho n de uma N p (µ,σ), então X X =! ) ~ N p (µ, (/n)σ) X X p ) (n-)σ segue uma distribuição Wishart com (n-) graus de liberdade 3) e S são independentes = X 4

Teste de Hipóteses H H o : µ = : µ µ µ 0 0 Suposições: X,..., X n amostra aleatória de X ~ N p (µ,σ) Obs: Σ deve ser uma matriz inversível. 5

Caso univariado H o : µ = µ 0 H : µ µ 0 t X o = ~ tn S / µ n Analogamente: t = n ( X µ ) (S ) ( X µ ) o o 6

Caso multivariado Univariado: ( ) ( ) X µ ( S ) X t = n µ o o Multivariado: ( ) T T = n X µ S ( X ) o µ o T ~ p ( n ) ( n p) F p, n p T de Hotelling 7

Comparação de duas populações normais X j ~ N p (µ,σ ) independentes Y k ~ N p (µ,σ ) independentes Independentes j =,..., n e k =,..., n H o : µ = µ H : µ µ 8

9 Comparação de duas populações normais ( ) ( ), T ) ( ) ( ~ ) ( ) ( n + + + + + = + = p n n p p p F p n n n n p T n n n n n n T S S S Y X S Y X

Exemplo Uma empresa encomendou peças publicitárias para um novo produto que foram assistidas por dois grupos homogêneos de indivíduos, separados por gênero (Feminimo e Masculino) e devidamente aleatorizados em relação a qual comercial viam primeiro. Cada indivíduo informava a nota (escala de 0 a 0) para o novo produto depois de assistir a cada uma das peças publicitárias. X : Nota do produto após o comercial X : Nota do produto após o comercial Objetivo: Verificar se há diferença na avaliação do produto entre os grupos de indivíduos para cada uma das peças publicitárias. 0

No R p = n = c(0,0) y = matrix(c(5,3,4.5,3.,6,3.5,6,4.6,6.,5.6,6.9,5.,6.8,6, 5.3,5.5,6.6,7.3,7.3,6.5),n[],p,byrow=TRUE) y = matrix(c(4.6,4.9,4.9,5.9,4,4.,3.8,5.4,6.,6.,5,7,5.3, 4.7,7.,6.6,5.8,7.8,6.8,8.0),n[],p,byrow=TRUE) data = data.frame(y=rbind(y, y),iv=factor(rep(:p,n))) manova = manova(cbind(y.,y.) ~ IV, data=data)

> data y. y. IV 5.0 3.0 4.5 3. 3 6.0 3.5 4 6.0 4.6 5 6. 5.6 6 6.9 5. 7 6.8 6.0 8 5.3 5.5 9 6.6 7.3 0 7.3 6.5 4.6 4.9 4.9 5.9 3 4.0 4. 4 3.8 5.4 5 6. 6. 6 5.0 7.0 7 5.3 4.7 8 7. 6.6 9 5.8 7.8 0 6.8 8.0

> manova Call: manova(cbind(y., y.) ~ IV, data = data) Terms: IV Residuals resp.505 8.4490 resp 5.005 34.890 Deg. of Freedom 8 Residual standard errors:.0395.38097 Estimated effects may be unbalanced

> summary(manova, test="hotelling-lawley") Df Hotelling-Lawley approx F num Df den Df Pr(>F) IV 0.9604 8.636 7 0.00374 ** Residuals 8 --- Signif. codes: 0 *** 0.00 ** 0.0 * 0.05. 0.

> hotelling = hotelling.test(y,y) > hotelling Test stat: 8.636 Numerator df: Denominator df: 7 P-value: 0.00374

Exemplo - Bebidas Tipo X X X3 X4 X5 X6 X7 X8 X9 X0 = Refrigerante, =Esportiva, 3=Chá A marca tem um sabor refrescante. Prefiro essa marca por ter menos calorias. A marca elimina minha sede imediatamente. Gosto do sabor adocicado da marca. Prefiro consumir a marca após atividade física, pois me dá energia. Prefiro a marca pois vem numa embalagem que não agride o meio ambiente. A marca tem minerais e vitaminas que mantêm baixa a necessidade de água de meu corpo. A marca tem um sabor único. A marca possui uma mistura de minerais e vitaminas que é saudável para o meu corpo. Eu prefiro a marca quando realmente estou com sede. 6

Objetivo Cada indivíduo avaliou sua bebida favorita numa escala de 7 pontos em relação a cada uma das 0 questões avaliadas. Descobrir se há diferenças entre as respostas médias das questões (variáveis) quando se comparam os 3 tipos de bebidas: refrigerante, isotônico ou chá. 7

Comparação de várias populações normais! Unidades amostrais separadas em g populações.! Para cada unidade amostral observam-se p variáveis: X,..., X p.! Valores observados para o indivíduo i (i=,..., n j ) da população j (j=,..., g): X ji X X =! X ji ji jip 8

9 Suposições e notação X ji ~ N p (µ j, Σ j ), independentes, j =,..., g E(X ji ) = µ j = (µ j, µ j,..., µ jp ) T = = ) ( jp p j p j p j j j p j j j ji j Cov σ σ σ σ σ σ σ σ σ! "!! X Σ

Suposição de Normalidade " A normalidade é a suposição fundamental em algumas técnicas multivariadas. " Se houver grande violação de normalidade, todos os resultados dos testes estatísticos ficam inválidos! " Verificar a normalidade univariada através de gráficos do tipo Normal Plot ou fazer algum teste (Jarque-Bera ou Kolmogorov- Smirnov) 30

Suposição de Normalidade " Se um conjunto de variáveis tem distribuição normal multivariada, então cada uma das variáveis tem distribuição normal (volta nem sempre é verdade). " Amostras de tamanho grande tendem a diminuir o efeito negativo da falta de normalidade (Teorema do Limite Central). 3

Suposição de Homocedasticidade # Suposição de igualdade de variâncias para as variáveis dependentes. # A homocedasticidade pode ser verificada através de gráficos ou testes estatísticos (teste de Box M, por exemplo). 3

Comparação de várias populações normais (g grupos) H : µ = µ =! = 0 µ g H : pelo menos um dos grupos tem vetor de médias diferente. 33

Caso multivariado - MANOVA Fonte de variação SQ gl Entre B g- Dentro W n-g Total T n- g ( x x) ( x x) B = n j j - j - g j= n j ( ) T x ( ) ij - x j xij x j W = - j= i= T Λ = B W + W Lambda de Wilks 34

Regra de decisão Rejeito H 0 para valores pequenos de Λ, ou, analogamente, para valores grandes de L = p + g n ln( Λ) Em grandes amostras, L se distribui aproximadamente como uma qui-quadrado com p(g-) graus de liberdade 35

Exemplo Bebidas Analise descritiva A marca tem um sabor refrescante. Prefiro essa marca por ter menos calorias. A marca elimina minha sede imediatamente. Gosto do sabor adocicado da marca. Prefiro consumir a marca após atividade física, pois me dá energia. Prefiro a marca pois vem numa embalagem que não agride o meio ambiente. A marca tem minerais e vitaminas que mantêm baixa a necessidade de água de meu corpo. A marca tem um sabor único. A marca possui uma mistura de minerais e vitaminas que é saudável para o meu corpo. Eu prefiro a marca quando realmente estou com sede. TIPO refrigerante esportiva chá Média Média Média 5.8 3.50 6.4.48 4.4 5.8 3.39 5.88 4.9 5.03 3.7 6.08.4 4.7 5.33 5.03 4.65 4.8 3.4 5.96 4.8 5.30 3.54 5.97.45 4.50 5.36 3.48 5.9 4.83 36

Teste de normalidade de Kolmogorov-Smirnov H 0 : X j tem distribuição normal H : X j não tem distribuição normal A normalidade será testada para cada uma das variáveis envolvidas na análise, ou seja, de maneira univariada. 37

Kolmogorov-Smirnov Test for Normality: Statistic Probability X 0.0897055 0.4957 X 0.066007 0.850556 X3 0.0774565 0.688368 X4 0.04034 0.5533 X5 0.07985 0.579837 X6 0.006763 0.90697 X7 0.048586 0.99688 X8 0.0753 0.9763 X9 0.045 0.985054 X0 0.084450 0.50708 38

Teste de igualdade de vetores de médias H 0 : µ = µ =... = µ g H : Pelo menos um dos vetores de médias difere. T de Hotelling (g = ) Lambda de Wilks (g > ) 39

Testes > summary(m.bebidas, test="wilks") > summary(m.bebidas, test="roy") > summary(m.bebidas, test="pillai") > summary(m.bebidas, test="hotelling-lawley") Df Stat approx F num Df den Df Pr(>F) Wilks 0.695.797 0 84 <.e-6 *** Roy.7400.797 0 84 <.e-6 *** Pillai 0.73075.797 0 84 <.e-6 *** Hotelling-Lawley.7400.797 0 84 <.e-6 *** Signif. codes: 0 *** 0.00 ** 0.0 * 0.05. 0. 40