Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Documentos relacionados
Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Testes de significância com dados multivariados

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

Inferências sobre o vetor de Média. (Johnson & Wichern, Cap. 5) Considere o problema univariado no qual temse uma amostra aleatória de tamanho n da

29 e 30 de julho de 2013

Modelo de Regressão Múltipla

Distribuições derivadas da distribuição Normal. Distribuição Normal., x real.

Análise de Dados Longitudinais Aula

Análise de Variância Multivariada (MANOVA) (Johnson & Wichern, Cap. 6)

Análise de Dados da Avaliação II

TESTES DE NORMALIDADE E SIGNIFICÂNCIA. Profª. Sheila Regina Oro

Ralph S. Silva

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

Modelos de Análise de Variância

UNIVERSIDADE FEDERAL DO RIO GRANDE Instituto de Matemática, Estatística e Física Programa de Pós-Graduação em Modelagem Computacional

Estatística Aplicada II. } Estimação e Intervalos de Confiança

Capítulo 4 Inferência Estatística

Filho, não é um bicho: chama-se Estatística!

ANÁLISE DISCRIMINANTE

Tópicos Extras 1ª parte. Testes Não Paramétricos, Análise Multivariada, Outras Técnicas

ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2

INSTRUÇÕES. O tempo disponível para a realização das duas provas e o preenchimento da Folha de Respostas é de 5 (cinco) horas no total.

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

Análise de Variância e outras análises. Airlane P. Alencar

Aula 2 Uma breve revisão sobre modelos lineares

Revisões de Matemática e Estatística

Delineamento e Análise Experimental Aula 3

Estimação e Testes de Hipóteses

UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada

Bioestatística Básica

Planejamento e Pesquisa 1. Dois Grupos

PROBABILIDADE E ESTATÍSTICA INFERÊNCIA ESTATÍSTICA Parte II

Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas

AULA 07 Inferência a Partir de Duas Amostras

Métodos Estatísticos Avançados em Epidemiologia

Planejamento de Experimentos Medidas Repetidas

POPULAÇÃO X AMOSTRA INTRODUÇÃO À BIOESTATÍSTICA TIPOS DE VARIÁVEIS CLASSIFICAÇÃO DAS VARIÁVEIS CLASSIFICAÇÃO DAS VARIÁVEIS 1) TIPOS DE VARIÁVEIS

Teste F-parcial 1 / 16

CONHECIMENTOS ESPECÍFICOS

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Teste F-parcial 1 / 16

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)

Análise de Variância. Análise de Variância. Análise de Variância. Análise de Variância. Análise de Variância. Mestrado em Recreação e Lazer

Correlação e Regressão

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Amostra Aleatória Simples

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

1. Conceitos básicos de estatística Níveis de medição Medidas características de distribuições univariadas 21

ANÁLISE DE VARIÂNCIA. y j = µ + τ i + e i j = µ i + e i j

Inferência a partir de duas amostras

Lucas Santana da Cunha 12 de julho de 2017

Violação dos pressupostos básicos do modelo clássico de regressão linear

Estatística Não Paramétrica. Como construir testes de aderência

Lucas Santana da Cunha de junho de 2018 Londrina

Estatística. Guia de Estudos P2

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

UNIVERSIDADE FEDERAL DA PARAÍBA

Métodos Estatísticos

PARTE TEÓRICA Perguntas de escolha múltipla

ANÁLISE DE VARIÂNCIA DE UM CRITÉRIO (DIC)

Estatística Aplicada II. } Regressão Linear

Estatística Frequentista

Métodos Quantitativos para Avaliação de Políticas Públicas

Verificando as pressuposições do modelo estatístico

Planejamento e Otimização de Experimentos

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Distribuição de frequências. Prof. Dr. Alberto Franke

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Modelos longitudinais aplicados a dados de experimentos com cupuaçuzelro no Estado do Pará

A figura 5.1 ilustra a densidade da curva normal, que é simétrica em torno da média (µ).

Estatística Descritiva e Inferencial CE081. Prof. Dr. Jomar Camarinha

Ralph S. Silva

MAE 317 Planejamento de Experimentos I. Profa. Júlia Maria Pavan Soler IME/USP

Cap. 9 Comparação entre tratamentos

Gabarito Lista 2 LES0773 Estatística III. Os resultados dessa regressão são apresentados na seguinte tabela:

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

AULA 05 Teste de Hipótese

Teste de Hipótese. Comparação entre médias de dois grupos de dados 22/05/2009. Conteúdo. Valor de P. Tipos de Erro. Tipos de Erro

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

AULA 11 Teste de Hipótese

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Distribuição Normal. Estatística Aplicada I DISTRIBUIÇÃO NORMAL. Algumas característica importantes. 2πσ

Estatística Aplicada II. } Algumas distribuições adicionais

Estatísticas Inferenciais Distribuições Amostrais. Estatística

CONHECIMENTOS ESPECÍFICOS

X 2. (σ 2 + µ 2 ) = 1 n (nσ 2 + nµ 2 ) = σ 2 + µ 2. µ = 0 E(T ) = σ 2

Regression and Clinical prediction models

AVALIAÇÃO DOS TESTES MULTIVARIADOS DA RAZÃO DE VEROSSIMILHANÇAS E T² DE HOTELLING: Um estudo por simulação de dados

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

INTRODUÇÃO A MODELOS MISTOS

Inferência Estatística

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Transcrição:

Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes º trimestre de 05

Inferência Multivariada MANOVA MANLY, Cap. 4 HAIR et al., Cap. 6

Exemplo Uma empresa encomendou peças publicitárias para um novo produto que foram assistidas por dois grupos homogêneos de indivíduos, separados por gênero (Feminimo e Masculino) e devidamente aleatorizados em relação a qual comercial viam primeiro. Cada indivíduo informava a nota (escala de 0 a 0) para o novo produto depois de assistir a cada uma das peças publicitárias. X : Nota do produto após o comercial X : Nota do produto após o comercial Objetivo: Verificar se há diferença na avaliação do produto entre os grupos de indivíduos para cada uma das peças publicitárias. 3

Dados Grupo Feminino Masculino Indivíduo X X Indivíduo X X 5.0 3.0 4.6 4.9 4.5 3. 4.9 5.9 3 6.0 3.5 3 4.0 4. 4 6.0 4.6 4 3.8 5.4 5 6. 5.6 5 6. 6. 6 6.9 5. 6 5.0 7.0 7 6.8 6.0 7 5.3 4.7 8 5.3 5.5 8 7. 6.6 9 6.6 7.3 9 5.8 7.8 0 7.3 6.5 0 6.8 8.0 4

Estatísticas Descritivas F M 5

Nota do produto após comercial - X X 7 6 5 Teste t de Student t =,57 p = 0,34 4 F Grupo M 6

Nota do produto após comercial X 8 X 7 6 5 4 Teste t de Student t = -,64 p = 0,9 3 F Grupo M Conclusão: não existe diferença estatisticamente significante entre as médias da avaliação do produto para homens e mulheres, com 95% de confiança para cada uma das peças publicitárias. 7

Diagrama de Dispersão 8 F M 7 6 Teste Multivariado X 5 T = 8,636 4 p = 0,00374 3 4 5 X 6 7 Conclusão: há diferença na avaliação de homens e mulheres 8

9 Distribuição normal multivariada X = (X,..., X p ) T ~ N p (µ,σ) se a sua função densidade de probabilidade for: ( ) ( ) ( ) / / ) ( µ x Σ µ x Σ x = T e f p p π Distância de Mahalanobis

Distribuição normal bivariada 0

Propriedades, ) ( = = p p p p p Cov σ σ σ σ σ σ σ σ σ! "!! X Σ Se E(X) = µ = (µ, µ,..., µ p ) T e então X j ~ N(µ j, σ j ) e Cov(X j, X k ) = σ jk

Inferência Estatística P o p u l a ç ã o µ Σ Estimação Amostra X S H H o : µ = : µ µ µ 0 0 Teste de hipóteses

Estimação de µ e Σ Amostra de tamanho n. µ ˆ = X X X =! X p, X j = média amostral de ˆ = matriz de covariância amostral Σ = S divide - se por (n -) X j 3

Resultados Se X = (X,..., X p ) T é uma amostra aleatória de tamanho n de uma N p (µ,σ), então X X =! ) ~ N p (µ, (/n)σ) X X p ) (n-)σ segue uma distribuição Wishart com (n-) graus de liberdade 3) e S são independentes = X 4

Teste de Hipóteses H H o : µ = : µ µ µ 0 0 Suposições: X,..., X n amostra aleatória de X ~ N p (µ,σ) Obs: Σ deve ser uma matriz inversível. 5

Caso univariado H o : µ = µ 0 H : µ µ 0 t X o = ~ tn S / µ n Analogamente: t = n ( X µ ) (S ) ( X µ ) o o 6

Caso multivariado Univariado: ( ) ( ) X µ ( S ) X t = n µ o o Multivariado: ( ) T T = n X µ S ( X ) o µ o T ~ p ( n ) ( n p) F p, n p T de Hotelling 7

Comparação de duas populações normais X j ~ N p (µ,σ ) independentes Y k ~ N p (µ,σ ) independentes Independentes j =,..., n e k =,..., n H o : µ = µ H : µ µ 8

9 Comparação de duas populações normais ( ) ( ), T ) ( ) ( ~ ) ( ) ( n + + + + + = + = p n n p p p F p n n n n p T n n n n n n T S S S Y X S Y X

Exemplo Uma empresa encomendou peças publicitárias para um novo produto que foram assistidas por dois grupos homogêneos de indivíduos, separados por gênero (Feminimo e Masculino) e devidamente aleatorizados em relação a qual comercial viam primeiro. Cada indivíduo informava a nota (escala de 0 a 0) para o novo produto depois de assistir a cada uma das peças publicitárias. X : Nota do produto após o comercial X : Nota do produto após o comercial Objetivo: Verificar se há diferença na avaliação do produto entre os grupos de indivíduos para cada uma das peças publicitárias. 0

No R p = n = c(0,0) y = matrix(c(5,3,4.5,3.,6,3.5,6,4.6,6.,5.6,6.9,5.,6.8,6, 5.3,5.5,6.6,7.3,7.3,6.5),n[],p,byrow=TRUE) y = matrix(c(4.6,4.9,4.9,5.9,4,4.,3.8,5.4,6.,6.,5,7,5.3, 4.7,7.,6.6,5.8,7.8,6.8,8.0),n[],p,byrow=TRUE) data = data.frame(y=rbind(y, y),iv=factor(rep(:p,n))) manova = manova(cbind(y.,y.) ~ IV, data=data)

> data y. y. IV 5.0 3.0 4.5 3. 3 6.0 3.5 4 6.0 4.6 5 6. 5.6 6 6.9 5. 7 6.8 6.0 8 5.3 5.5 9 6.6 7.3 0 7.3 6.5 4.6 4.9 4.9 5.9 3 4.0 4. 4 3.8 5.4 5 6. 6. 6 5.0 7.0 7 5.3 4.7 8 7. 6.6 9 5.8 7.8 0 6.8 8.0

> manova Call: manova(cbind(y., y.) ~ IV, data = data) Terms: IV Residuals resp.505 8.4490 resp 5.005 34.890 Deg. of Freedom 8 Residual standard errors:.0395.38097 Estimated effects may be unbalanced

> summary(manova, test="hotelling-lawley") Df Hotelling-Lawley approx F num Df den Df Pr(>F) IV 0.9604 8.636 7 0.00374 ** Residuals 8 --- Signif. codes: 0 *** 0.00 ** 0.0 * 0.05. 0.

> hotelling = hotelling.test(y,y) > hotelling Test stat: 8.636 Numerator df: Denominator df: 7 P-value: 0.00374

Exemplo - Bebidas Tipo X X X3 X4 X5 X6 X7 X8 X9 X0 = Refrigerante, =Esportiva, 3=Chá A marca tem um sabor refrescante. Prefiro essa marca por ter menos calorias. A marca elimina minha sede imediatamente. Gosto do sabor adocicado da marca. Prefiro consumir a marca após atividade física, pois me dá energia. Prefiro a marca pois vem numa embalagem que não agride o meio ambiente. A marca tem minerais e vitaminas que mantêm baixa a necessidade de água de meu corpo. A marca tem um sabor único. A marca possui uma mistura de minerais e vitaminas que é saudável para o meu corpo. Eu prefiro a marca quando realmente estou com sede. 6

Objetivo Cada indivíduo avaliou sua bebida favorita numa escala de 7 pontos em relação a cada uma das 0 questões avaliadas. Descobrir se há diferenças entre as respostas médias das questões (variáveis) quando se comparam os 3 tipos de bebidas: refrigerante, isotônico ou chá. 7

Comparação de várias populações normais! Unidades amostrais separadas em g populações.! Para cada unidade amostral observam-se p variáveis: X,..., X p.! Valores observados para o indivíduo i (i=,..., n j ) da população j (j=,..., g): X ji X X =! X ji ji jip 8

9 Suposições e notação X ji ~ N p (µ j, Σ j ), independentes, j =,..., g E(X ji ) = µ j = (µ j, µ j,..., µ jp ) T = = ) ( jp p j p j p j j j p j j j ji j Cov σ σ σ σ σ σ σ σ σ! "!! X Σ

Suposição de Normalidade " A normalidade é a suposição fundamental em algumas técnicas multivariadas. " Se houver grande violação de normalidade, todos os resultados dos testes estatísticos ficam inválidos! " Verificar a normalidade univariada através de gráficos do tipo Normal Plot ou fazer algum teste (Jarque-Bera ou Kolmogorov- Smirnov) 30

Suposição de Normalidade " Se um conjunto de variáveis tem distribuição normal multivariada, então cada uma das variáveis tem distribuição normal (volta nem sempre é verdade). " Amostras de tamanho grande tendem a diminuir o efeito negativo da falta de normalidade (Teorema do Limite Central). 3

Suposição de Homocedasticidade # Suposição de igualdade de variâncias para as variáveis dependentes. # A homocedasticidade pode ser verificada através de gráficos ou testes estatísticos (teste de Box M, por exemplo). 3

Comparação de várias populações normais (g grupos) H : µ = µ =! = 0 µ g H : pelo menos um dos grupos tem vetor de médias diferente. 33

Caso multivariado - MANOVA Fonte de variação SQ gl Entre B g- Dentro W n-g Total T n- g ( x x) ( x x) B = n j j - j - g j= n j ( ) T x ( ) ij - x j xij x j W = - j= i= T Λ = B W + W Lambda de Wilks 34

Regra de decisão Rejeito H 0 para valores pequenos de Λ, ou, analogamente, para valores grandes de L = p + g n ln( Λ) Em grandes amostras, L se distribui aproximadamente como uma qui-quadrado com p(g-) graus de liberdade 35

Exemplo Bebidas Analise descritiva A marca tem um sabor refrescante. Prefiro essa marca por ter menos calorias. A marca elimina minha sede imediatamente. Gosto do sabor adocicado da marca. Prefiro consumir a marca após atividade física, pois me dá energia. Prefiro a marca pois vem numa embalagem que não agride o meio ambiente. A marca tem minerais e vitaminas que mantêm baixa a necessidade de água de meu corpo. A marca tem um sabor único. A marca possui uma mistura de minerais e vitaminas que é saudável para o meu corpo. Eu prefiro a marca quando realmente estou com sede. TIPO refrigerante esportiva chá Média Média Média 5.8 3.50 6.4.48 4.4 5.8 3.39 5.88 4.9 5.03 3.7 6.08.4 4.7 5.33 5.03 4.65 4.8 3.4 5.96 4.8 5.30 3.54 5.97.45 4.50 5.36 3.48 5.9 4.83 36

Teste de normalidade de Kolmogorov-Smirnov H 0 : X j tem distribuição normal H : X j não tem distribuição normal A normalidade será testada para cada uma das variáveis envolvidas na análise, ou seja, de maneira univariada. 37

Kolmogorov-Smirnov Test for Normality: Statistic Probability X 0.0897055 0.4957 X 0.066007 0.850556 X3 0.0774565 0.688368 X4 0.04034 0.5533 X5 0.07985 0.579837 X6 0.006763 0.90697 X7 0.048586 0.99688 X8 0.0753 0.9763 X9 0.045 0.985054 X0 0.084450 0.50708 38

Teste de igualdade de vetores de médias H 0 : µ = µ =... = µ g H : Pelo menos um dos vetores de médias difere. T de Hotelling (g = ) Lambda de Wilks (g > ) 39

Testes > summary(m.bebidas, test="wilks") > summary(m.bebidas, test="roy") > summary(m.bebidas, test="pillai") > summary(m.bebidas, test="hotelling-lawley") Df Stat approx F num Df den Df Pr(>F) Wilks 0.695.797 0 84 <.e-6 *** Roy.7400.797 0 84 <.e-6 *** Pillai 0.73075.797 0 84 <.e-6 *** Hotelling-Lawley.7400.797 0 84 <.e-6 *** Signif. codes: 0 *** 0.00 ** 0.0 * 0.05. 0. 40