Infer^encias sobre o vetor de M edia: Regi~oes de Con an»ca e Intervalos Simult^aneos. (Johnson & Wichern, Cap. 5)

Documentos relacionados
Ralph S. Silva

Análise de Variância Multivariada (MANOVA) (Johnson & Wichern, Cap. 6)

Ralph S. Silva

Inferências sobre o vetor de Média. (Johnson & Wichern, Cap. 5) Considere o problema univariado no qual temse uma amostra aleatória de tamanho n da

Estatística e Probabilidade. Aula 11 Cap 06

Divisibilidade e o algoritmo da divis~ao em Z

Estatística Não Paramétrica. Como construir testes de aderência

Ralph S. Silva

AULA 05 Teste de Hipótese

3. Experimentos a um único fator: Análise de Variância (ANOVA) 3.7 Comparações entre médias de tratamento

Limites. Uma introdu»c~ao intuitiva

Estimação e Testes de Hipóteses

Inferência para duas populações

Canal do YouTube Prof. Guilherme Neves

Expansão linear e geradores

Esse material foi extraído de Barbetta (2007 cap 13)

Inferência a partir de duas amostras

EPGE / FGV MFEE - ECONOMETRIA. Monitoria 01-18/04/2008 (GABARITO)

Deriva»c~ao em cadeia e deriva»c~ao impl ³cita

,,,,,,,, e são constantes com,,,, e, não todas nulas. Uma equação desse tipo é a equação de uma quádrica. Observe que a equação

Espaços vectoriais reais

Distância Estatística

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ... ANÁLISE DE VARIÂNCIA. Departamento de Matemática ESTV.

Exemplo 1: Variáveis padronizadas Z t = ( Z 1 (1), Z 2 (1), Z 1 (2), Z 2 Z 1 (1) Z (1) = Z (2) = Z 2. Matriz de correlações:

Técnicas Multivariadas em Saúde

Estatísticas Inferenciais Distribuições Amostrais. Estatística

Equa»c~oes diofantinas lineares

CONHECIMENTOS ESPECÍFICOS

Aula 2 Uma breve revisão sobre modelos lineares

Distribuições Amostrais

Modelos de Regressão Linear Simples - Análise de Resíduos

FORMA CANÔNICA DE JORDAN

Universidade Federal de Lavras

Modelos de Regressão Linear Simples - Análise de Resíduos

AULA 7 - Inferência em MQO: ICs e Testes de

Inferência Estatistica

29 e 30 de julho de 2013

Estatística (MAD231) Turma: IGA. Período: 2016/2

Capítulo 4 Inferência Estatística

Limites (c alculo e signi cado)

8. Análise em Componentes Principais - ACP

Métodos Estatísticos Avançados em Epidemiologia

Probabilidade e Estatística

Os n umeros inteiros. 1.1 Propriedades b asicas

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

Análise Bayesiana de Dados - Aplicações 1 -

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Conjuntos Enumer aveis e Conjuntos N~ao Enumer aveis

CM005 Álgebra Linear Lista 3

54 CAPÍTULO 2. GEOMETRIA ANALÍTICA ( ) =

Matrizes Semelhantes e Matrizes Diagonalizáveis

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Unidade 6. Fun»c~oes trigonom etricas Regras de L'Hopital. 6.1 Pequena revis~ao de trigonometria Trigonometria geom etrica

Estudo de desempenho de testes de hipóteses multivariados no caso de dados de duas populações independentes

AULA 04 Teste de hipótese

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Álgebra Linear I - Aula Bases Ortonormais e Matrizes Ortogonais

AULA 07 Inferência a Partir de Duas Amostras

Aula 00 Aula Demonstrativa

Esbo»cando gr a cos: primeiros passos

Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas

1. Conceitos básicos de estatística Níveis de medição Medidas características de distribuições univariadas 21

Intervalos de Confiança

Mudança de Coordenadas

Universidade Federal de Viçosa Centro de Ciências Exatas e Tecnológicas Departamento de Matemática

Estatística Descritiva

CORRELAÇÃO. Flávia F. Feitosa

Equação Geral do Segundo Grau em R 2

Álgebra Linear I - Aula 22

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

G3 de Álgebra Linear I

Cap. 4 - Estimação por Intervalo

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Revisão de Estatística para ICMS-SC

X 2. (σ 2 + µ 2 ) = 1 n (nσ 2 + nµ 2 ) = σ 2 + µ 2. µ = 0 E(T ) = σ 2

Álgebra Linear I - Aula Forma diagonal de uma matriz diagonalizável

1 Probabilidade - Modelos Probabilísticos

Opera»c~oes Bin arias

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

Estatística Descritiva e Exploratória

Nome: N. o : f(u) du para todo o x (V) d) Se F (x) tiver pontos de descontinuidade, então X é discreta (F)

Análise Fatorial. Matriz R de coeficientes de correlação: Não confundir análise de componentes principais com análise fatorial!

MIEEC Probabilidades e Estatística 1 a Chamada 10/01/2008. Parte Prática

Prof. Dr. Engenharia Ambiental, UNESP

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

54 CAPÍTULO 2. GEOMETRIA ANALÍTICA ( ) =

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

Econometria para Avaliação de Políticas Públicas

AULA 02 Distribuição de probabilidade normal

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Métodos Quantitativos II

4 Medida de desempenho do gráfico de controle

Probabilidade e Estatística, 2009/1

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Distribuições derivadas da distribuição Normal. Distribuição Normal., x real.

Transcrição:

Infer^encias sobre o vetor de M edia: Regi~oes de Con an»ca e Intervalos Simult^aneos (Johnson & Wichern, Cap. 5) Dizemos que R(X) e uma regi~ao de 100(1 α)% de con an»ca para θ se Pr(R(X) compreender θ)=1 α. Aregi~aodecon an»caparaovetordem ediaµquandose disp~oedeumaamostraaleat oriadadistribui»c~aon p (µ, ) e dada por n(¹x µ) T S 1 (¹X µ)<= (n 1)p n p F p,n p(1 α) F p,n p (1 α) - representando o quantil acumulado de 100(1 α)% da distribui»c~ao F p,n p Este resultado e obtido usando-se a distribui»c~ao amostral da estat ³stica T 2 apresentada na aula anterior. Observe que a regi~ao de con an»ca e dada pelo hiperelips oide de eixos determinados pelos autovetores da matriz de covari^ancia amostral S e cujas medidas s~ao proporcionais µas raizes quadradas dos respectivos autovalores. Para veri car se um dado vetor µ 0 pertence µa regi~ao de con an»ca, basta calcular n(¹x µ 0 ) T S 1 (¹X µ 0 ) e comparar com (n 1)p n p F p,n p(1 α). 1

Para p >= 4 n~ao e poss ³vel representar visualmente a regi~ao de con an»ca. No entanto, podemos calcular as medidas dos eixos do hiperelips oide de con an»ca centrado em ¹X: n(¹x µ) T S 1 (¹X µ)<=c 2 = (n 1)p n p F p,n p(1 α) Lembre-se que os semi-eixos t^em medida λj c n = λ j (n 1)p n(n p) F p,n p(1 α). Exemplo: Construir uma regi~ao de con an»ca para o vetor de m edia, usando os dados sobre readia»c~ao em fornos de microondas. Os dados est~ao nas tabelas 4.1 e 4.5 do livro-texto. 2

O departamento de controle de qualidade de uma fabricante de fornos de microondas foi cobrado pelo governo federal a monitorar a quantidade de radia»c~ao quando as portas dos microondas s~ao fechadas. Observa»c~oes da radia»c~ao emitida atrav es das portas fechadas de n = 42 fornos selecionados ao acaso foram feitas. Medidas de radia»c~ao tamb em foram feitas com as portas abertas dos 42 fornos selecionados. Este conjunto de dados foi trabalhado no nal do cap ³tulo 4, exemplos 4.10 e 4.17. Nestes exemplos veri cou-se que a suposi»c~ao de normalidade n~ao era apropriada e uma transforma»c~ao pot^encia dos dados foi buscada. Vamos trabalhar aqui com a pot^encia 0,25 ou seja,araizquartadaescalaoriginaldamedida de radia»c~ao. 3

Nogr a coaseguir, eposs ³velverquecomesta transforma»c~ao nas duas medidas, os pontos nos qq-plots apresentam um comportamento mais pr oximo do linear. 4

Pede-se construir uma elipse de 95% de con- an»ca para o vetor de m edia, considerando a escala dos dados transformados de modo que a suposi»c~ao de normalidade e razo avel. Para isso vamos primeiro calcular o vetor de m edia e a matriz de vari^ancia amostrais. dados=read.table("http://www.im.ufrj.br/ avia/ mad484/microondas.txt",header=t) dadost=dados for (i in 1:2) dadost[,i]=dadost[,i] (1/4) xbarra=mean(dadost) S=cov(dadosT) IS=solve(dadosT) DES=eigen(S) n=42, p=2, qf(.95,p,n-p) 5

(Comandos em elipsemicroondas.txt) 6

Intervalos de Con an»ca Simult^aneos para os componentes do vetor de m edia Seja X N p (µ, ). Vimos que se a e um vetor de constantes em R p, ent~ao Z=a T X N(a T µ,a T a). Logo,seX 1,X 2,...,X n eumaamostraaleat oria da N p (µ, ), segue que Z 1,Z 2,...,Z n, de nidos por Z i = a T X i, i = 1,..,n e uma amostra aleat oria da N(a T µ,a }{{}} T {{ a } ). µ Z σ 2 Z Da teoria normal univariada, temos que um intervalo de 100(1 α)% de con an»ca para µ Z =a T µ e dado por IC(µ Z,1 α):a T ¹X±t n 1 (1 α/2) a T Sa n 7

Claramente, poder ³amos construir v arios intervalos de con an»ca sobre combina»c~oes lineares dos componentes do vetor µ, cada um associado com um coe ciente de con an»ca 1 α, escolhendo diferentes vetores de constantes a. Por em, o coe ciente de con an»ca conjunto do conjunto de intervalos resultantes n~ao ser a mais 1 α. E desej avel associar um coe ciente de con- an»ca COLETIVO de 1 α aos intervalos de con an»ca que podem ser gerados para todas as escolhas de a. Naturalmente, um pre»co dever a ser pago pela conveni^encia de uma con an»ca simult^anea grande para todos os intervalos: intervalos que s~ao mais largos (menos precisos) do que os intervalos apresentados anteriormente via a distribui»c~ao amostral t com n 1 graus del liberdade. 8

Dadooconjuntodedadosobservadosx 1,x 2,...,x n e um a particular t = n(a T x a t µ) a T Sa <=t n 1 (1 α/2) ou, equivalentemente, t 2 = n(at x a t µ) 2 a T Sa <=t 2 n 1 (1 α/2) Uma regi~ao de con an»ca simult^anea e dada para o conjunto de valores a T µ tais que t 2 e relativamente pequeno para todas as escolhas de a. Parece razo avel esperar que o valor t 2 n 1 (1 α/2) sejasubstitu ³doporumvalormaior,c 2,quando a rma»c~oes s~ao feitas para muitas escolhas de a. 9

Considerando os valores de a para os quais t 2 <=c 2, somos naturalmente levados a max a t 2 =max a n(a T x a t µ) 2 a T Sa Usando os resultados sobre desigualdades do cap ³tulo 2, e f acil ver que o m aximo ocorrer a para a S 1 (¹x µ). Ora, isto nos levar a µa estat ³stica T 2. Por conveni^encia, costuma se referir a esses intervalos como intervalos-t 2. Em particular, tomando os vetores a's como os vetores da base can^onica do R p, obt em-se p(n 1) ¹x j ± n p F p,n p(1 α) sjj n, j=1,2,...,n 10

Agoraosintervalos-T 2 coletivamentet^emn ³vel de con an»ca 1 α. Observe que tamb em podemos construir intervalos de con an»ca para rela»c~oes estruturais entre os componentes do vetor µ como, por exemplo, intervalos para as diferen»cas entre os componentes de µ. Fazendo a T =(0,...,0, 1 }{{} i- esima entrada,0,...0, 1 }{{} r- esima entrada,0,...,0), teremos atµ=µ i µ r, at¹x=¹x i ¹x r e a T Sa=s ii +s rr 2s ir. O intervalo para a diferen»ca µ i µ r ser a dado por ¹x i ¹x r ± p(n 1) n p F sii +s rr 2s p,n p(1 α) ir n 11

Exemplo: Obtivemos uma elipse de 95% de con an»ca para o vetor µ nos dados sobre radia»c~ao em microondas. Pede-se construir os intervalos-t 2 de95%decon an»caparaoscomponentes individuais do vetor µ, identi candoos como as \sombras" da elipse de 95% de con an»ca sobre os eixos coordenados. Pedese tamb em construir os intervalos baseados na distribui»c~ao t e compar a-los com os correspondentes intervalos T 2. linf1=0.5166803 lsup1=0.6118347 linf2=0.5550817 lsup2=0.6508807 12

13

Uma Compara»c~ao entre os intervalos T 2 e os intervalos separados A tabela a seguir mostra uma compara»c~ao entre os comprimentos dos intervalos de con- an»ca separados e os intervalos\simult^aneos" T 2 para alguns valores selecionados de p, n e α=0,05%. n t n 1 (0.975) p=4 p=10 15 2.145 4.14 11.52 25 2.064 3.60 6.39 50 2.010 3.31 5.05 100 1.970 3.19 4.61 1.960 3.08 4.28 Os valores nas duas ultimas colunas da tabela (n 1)p correspondem a n p F p,n p(.95). 14

A compara»c~ao feita e impr opria, pois o n ³vel de con an»ca associado a qualquer cole»c~ao de intervalos T 2, para p xado, e 0,95, e o n ³vel global associado com uma cole»c~ao de intervalos separados via distribui»c~ao t deve ser menor do que 0,95. Uma outra abordagem, conhecida como M etodo de Bonferroni de Compara»c~oes M ultiplas, ser a considerada. O m etodo leva este nome devido µa desigualdade de Bonferroni. SejaA 1,A 2,...,A m umacole»c~aodeeventosnum espa»co de probabilidade tais que P(A i )=1 α i, i=1,...,m. Ent~ao, P ( m i=1 A i) =1 P(\pelo menos um dos A i s e falso )>= >=1 m i=1 P(Ac i )=1 m i=1 α i=1 (α 1 +α 2 +...+α m ). 15

A desigualdade de Bonferroni permite ao investigador controlar a taxa de erro α 1 +α 2 +...+α m, sem olhar a estrutura de correla»c~ao por tr as dos intervalos de con an»ca. Assim, se o problema envolve a constru»c~ao de m intervalos importantes, a id eia e fazer α i =α/m e tomar os intervalos separados dados por a T ( ) ¹X±t n 1 1 α a T Sa 2m n Observe que agora vale que o coe ciente coletivo de con an»ca e pelo menos 1 α m + α m +...+ α }{{ m} m termos =1 α. 16

Portanto, com um coe ciente de con an»ca global de pelo menos 1 α, podemos construir os seguintes m=p intervalos para os componentes do vetor µ: IC(µ i,1 α): ¹X i ±t n 1 ( 1 α 2p ) sii n, i=1,2,...,p. Esses intervalos, podem ent~ao, de forma mais apropriada, ser comparados aos intervalos T 2. Exemplo: Usando novamente os dados sobre radia»c~ao em fornos de microondas, pede-se compararosintervalost 2 paraoscomponentes do vetor de m edia com os intervalos via Bonferroni. 17

linf1t=0.5212495, lsup1t=0.6072655 linf2t=0.5596819, lsup2t=0.6462806 18

A tabela a seguir ilustra uma compara»c~ao entre os comprimentos dos intervalos via Bonferroni e T 2 para alguns valores selecionados de p, m = p, n e α = 0,05. As entradas nas tr^es colunas referentes aos diferentes valores de p selecionados representam a raz~ao entre o comprimento do intervalo via Bonferroni e o comprimento do intervalo T 2. n p= 2 4 10 15 0,88 0,69 0,29 25 0,90 0,75 0,48 50 0,91 0,78 0,58 100 0,91 0,80 0,62 0,91 0,81 0,66 Podemos ver desta tabela que os intervalos via Bonferroni produzem intervalos mais estreitos quando m=p. Devido µa facilidade de aplica»c~ao e aos resultados mais e cientes em termos de estima»c~ao, geralmente e prefer ³vel usar os intervalos simult^aneos via Bonferroni. 19

Infer^encias sobre um vetor de m edia para grandes amostras Quando o tamanho da amostra e grande, testes de hip oteses e regi~oes de con an»ca para µ podem ser constru ³dos mesmo que a popula»c~ao subjacente n~ao seja normal. Veja os exerc ³cios 5.15, 5.16 e 5.17. Neles, para n grande, somos capazes de fazer infer^encias sobre o vetor de m edia da popula»c~ao apesar da distribui»c~ao populacional ser discreta. De fato, desvios fortes de uma popula»c~ao normal podem ser superados para tamanhos amostrais grandes. Ambos, testes de hip oteses e intervalos de con- an»ca simult^aneos, ter~ao n ³veis nominais aproximados. 20

As vantagens associadas com grandes amostras podem ser parcialmente compensadas por uma perda de informa»c~ao amostral causada pelo uso somente das estat ³sticas sum ario ¹X e S. Por outro lado, como (¹X,S) e uma estat ³stica su ciente para popula»c~oes normais, quanto mais pr oximas da normal multivariada forem as distribui»c~oes das popula»c~oes, mais e cientemente a informa»c~ao amostral ser a utilizada ao fazer infer^encias. Todas as infer^encias sobre µ quando se tem grandes amostras s~ao baseadas na distribui»c~ao de qui-quadrado. 21

Proposi»c~ao1: SejaX 1,X 2,...,X n umaamostra aleat oriadeumapopula»c~aocomm ediaµematriz de vari^ancia positiva de nida. Quando n p e grande, a hip otese H 0 : µ = µ 0 e rejeitada em favor de H 1 : µ µ 0, ao n ³vel de signi c^ancia α, se n(¹x µ 0 ) T S 1 (¹x µ 0 )>χ 2 p(1 α) Comparando este teste com o obtido via teoria normal, no in ³cio destas notas, vemos que a estat ³stica de teste e a mesma, o que muda e o valor cr ³tico. Um exame mais minucioso revela, por em, que ambos os testes produzir~ao os mesmos resultados em situa»c~oes nas quais o teste χ 2 e apropriado. De fato, (n 1)p n p F p,n p(1 α) e χ 2 p(1 α) s~ao aproximadamente iguais para n >> p. 22

Proposi»c~ao2: SejaX 1,X 2,...,X n umaamostra aleat oria de uma popula»c~ao com m edia µ e matriz de vari^ancia positiva de nida. Se n p e grande, a T ¹X± χ 2 a T Sa p(1 α) n compreeder a a T µ, para todo a com probabilidade aproximadamente 1 α. Consequentemente, podemos fazer a rma»c~oes simult^aneas para os p componentes do vetor de m edias dadas por ¹x i ± χ 2 sii p(1 α) n, i=1,2,...,p Observa»c~ao: Elipses de con an»ca para pares de componentes tamb em podem ser facilmente constru ³das. 23

Aquest~aodequ~aograndedeveserotamanho da amostra n~ao e simples de ser respondida. Em uma ou duas dimens~oes, tamanhos amostrais em torno de 30 a 50 podem geralmente ser considerados grandes. A medida que o n umero de caracter ³sticas torna-se maior, certamente tamanhos amostrais maiores ser~ao exigidos para que as distribui»c~oes assint oticas forne»cam boas aproxima»c~oes das verdadeiras distribui»c~oes das v arias estat ³sticas de teste. Na falta de estudos de nitivos os autores simplesmente prop~oem que n p deve ser grande, reconhecendo que o caso real pode ser mais complicado do que isso. Uma aplica»c~ao com p = 2 e n = 50 e muito diferente de uma aplica»c~ao com p = 52 e n = 100 apesar de ambas apresentarem n p=48. 24

Deve-se realizar as mesmas veri ca»c~oes exigidas para os m etodos baseados na normal. Apesar de pequenos desvios da normalidade n~ao causarem quaisquer di culdades para n grande, desvios extremos podem causar problemas. Especi camente, a taxa de erro verdadeira pode estar bem afastada do n ³vel nominal α. Se, combasenosq-qplotseoutrosesquemasde investiga»c~ao outliers e outras formas de desvios extremos aparecem, a»c~oes corretivas apropriadas, incluindo transforma»c~oes, s~ao desej aveis. 25

Exerc ³cios recomendados do cap ³tulo 5: 1 a 11, 15, 16 e 17, 18 a 24. 26