Introdução à probabilidade e estatística II

Documentos relacionados
Introdução à probabilidade e estatística II

Inferência para duas populações

Carlos Antonio Filho

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas

MAE Introdução à Probabilidade e Estatística II Resolução Lista 4

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Testes de Hipótese para uma única Amostra - parte II

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

X e Y independentes. n + 1 m

Testes de Hipótese para uma única Amostra - parte II

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Capítulo 4 Inferência Estatística

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Testes de Hipóteses II

Professora Ana Hermínia Andrade. Período

Inferência Estatistica

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses Paramétricos

Enrico A. Colosimo Depto. Estatística UFMG

Aula 8 - Testes de hipóteses

Introdução a Estatística

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Testes de Hipóteses Paramétricos

Teste de Hipótese. Capítulo 8 Triola, 10 a. Ed. (Capítulo 7 Triola, 9 a. Ed.) 1 Visão Geral. 2 Fundamentos do teste de hipótese

MAE0229 Introdução à Probabilidade e Estatística II

Distribuições derivadas da distribuição Normal. Distribuição Normal., x real.

Unidade IV Inferência estatística

Amostragem e distribuições por amostragem

1. (a) Lembre-se que a média de uma variável aleatória discreta é uma média ponderada de seus valores, com as probabilidades sendo os pesos.

Solução dos Exercícios - Capítulos 1 a 3

AULA 7 - Inferência em MQO: ICs e Testes de

Inferência Estatística Básica. Teste de Hipóteses para uma média populacional Cálculo do Valor p

Bioestatística CE001 Prof. Fernando de Pol Mayer Departamento de Estatística DEST Exercícios: inferência Nome: GABARITO

Probabilidade e Estatística

1 Probabilidade - Modelos Probabilísticos

Introdução à probabilidade e à estatística II. Prof. Alexandre G Patriota Sala: 298A Site:

Introdução em Probabilidade e Estatística II

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

Planejamento de Experimentos Introdução - Teste t

Intervalos de Confiança

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Prof. Lorí Viali, Dr. Mat2282 Análise Estatística Não Paramétrica

Professora Ana Hermínia Andrade. Período

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

Estatística II. Intervalo de Confiança Lista de Exercícios

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Teste de Hipóteses. Enrico A. Colosimo/UFMG enricoc/ Depto. Estatística - ICEx - UFMG 1/24

Intervalos de Confiança - Amostras Pequenas

Princípios de Bioestatística Teste de Hipóteses

Inferência a partir de duas amostras

Cálculo das Probabilidades e Estatística I

Aula 5. Teste de Hipóteses II. Capítulo 12, Bussab&Morettin Estatística Básica 7ª Edição

INTERVALOS DE CONFIANÇA: DIFERENÇA ENTRE DUAS MÉDIAS

Probabilidade e Estatística

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

TESTES DE HIPÓTESES. Conceitos, Testes de 1 proporção, Testes de 1 média

Inferência Estatística

AULA 07 Inferência a Partir de Duas Amostras

Prof. Lorí Viali, Dr.

Testes de Hipóteses para duas médias

TOMADA DE DECISÃO PARA UMA AMOSTRA. Estatística Aplicada à Engenharia 1

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

MAE0219 Introdução à Probabilidade e Estatística I

Teste de Comparações Múltiplas

Testes t para comparação de médias de dois grupos independentes

Variáveis bidimensionais

TESTE DE HIPÓTESE. Introdução

Testes de Hipótese para uma única Amostra - parte I

Introdução à Bioestatística Turma Nutrição

mat.ufrgs..ufrgs.br br/~viali/ mat.ufrgs..ufrgs.br

Teorema central do limite e es/mação da proporção populacional p

Distribuições amostrais

CONHECIMENTOS ESPECÍFICOS

Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística. Princípios de Bioestatística.

INFERÊNCIA ESTATÍSTICA. ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Prof. a Dr. a Simone Daniela Sartorio de Medeiros. DTAiSeR-Ar

Distribuições Amostrais e Estimação Pontual de Parâmetros

MAE0229 Introdução à Probabilidade e Estatística II

Distribuições de probabilidade de variáveis aleatórias contínuas

TESTES DE HIPÓTESES PARA DIFERENÇA DE DUAS MÉDIAS

Em aplicações práticas é comum que o interesse seja comparar as médias de duas diferentes populações (ambas as médias são desconhecidas).

RESPOSTAS - PROVA ESTATÍSTICA AGENTE PF 2018

Teste de Hipóteses Paramétricos

Transcrição:

Introdução à probabilidade e estatística II Testes de hipóteses para duas médias populacionais Prof. Alexandre G Patriota Sala: 98A Email: patriota@ime.usp.br Site: www.ime.usp.br/ patriota

Testes de hipóteses para duas Médias populacionais Sejam X e Y duas variáveis de interesse. Estaremos interessados em testar se a média de X é igual a média de Y. testar se o efeito médio do remédio proposto é maior do que o efeito médio do placebo testar se um determinado método de ensino é mais eficaz que outro. Há dois casos: as variáveis X e Y são dependentes (dados pareados). A mesma unidade amostral é medida duas vezes. as variáveis X e Y são independentes (dados não pareados). Todas as unidades amostrais são medidas apenas uma vez.

Exemplo de dados pareados (dependentes) Uma nutricionista propôs um novo complemento alimentar para aumentar o rendimento de jogadores de futebol. A variável de interesse: tempo de corrida na esteira a 15km/h até a fadiga. A pesquisadora selecionou 0 atletas com características similares (peso, altura, idade, etc). Na primeira semana a pesquisadora mediu o tempo de corrida sem utilizar a dieta (X ), na segunda semana a pesquisadora mediu o tempo de corrida utilizando a dieta (Y ) dos mesmos atletas. Interesse: verificar se em média houve um aumento no tempo médio na segunda semana em relação a primeira. Note que as variáveis X e Y referem-se ao mesmo atleta.

Exemplo de dados não pareados (independentes) Uma nutricionista propôs um novo complemento alimentar para aumentar o rendimento de jogadores de futebol. A variável de interesse: tempo de corrida na esteira a 15km/h até a fadiga. A pesquisadora selecionou 40 atletas com características similares (peso, altura, idade, etc). Dentre os 40 atletas, 0 utilizaram o novo complemento (X ) e 0 não utilizaram (Y ). Interesse: verificar se em média os atletas que utilizaram o novo complemento tiverem o tempo de corrida aumentado. Note que as variáveis X e Y referem-se a atletas diferentes.

Testes para duas médias populacionais Distribuição normal Sejam X N(µ x, σ x) e Y N(µ y, σ y) duas variáveis de interesse. As hipóteses de interesse (tanto para dados pareados como não-pareados) serão: { { H0 : µ (1) x µ y H0 : µ, () x µ y H 1 : µ x > µ y H 1 : µ x < µ y { H0 : µ e (3) x = µ y H 1 : µ x µ y Podemos definir µ D = µ x µ y e teremos de maneira equivalente: { { H0 : µ (1) D 0 H 1 : µ D > 0, () H0 : µ D 0 H 1 : µ D < 0 { H0 : µ e (3) D = 0 H 1 : µ D 0

Caso pareado e não-pareado No caso pareado, as variáveis são dependentes e observamos (X 1, Y 1 ), (X, Y ),..., (X n, Y n ) em que (X i, Y i ) é o par de variáveis do i-ésimo indivíduo, X i referente ao tratamento inicial e Y i referente ao tratamento final. No caso não-pareado, as variáveis são independentes e observamos dois conjuntos de dados (X 1, X,..., X n1 ), (Y 1, Y,..., Y n ). o primeiro referente a um tipo de tratamento e o segundo referente a outro tipo de tratamento.

Caso pareado e não-pareado No caso pareado, utilizamos a média das diferenças D i = X i Y i para fazer o teste de hipóteses, ou seja, Temos que D par N D par = 1 n n d i. i=1 ) (µ x µ y, σdn, em que em σd está embutida as variâncias de X, de Y e a respectiva covariância. A estimativa para σd será a variância amostral S D (denominador (n-1)) No caso não-pareado, utilizamos a diferença das médias X Ȳ para fazer o teste de hipóteses, ou seja, D npar = X Ȳ. ( Temos que D npar N µ x µ y, σ x + σ y n ).

Testes para duas médias para o caso pareado Distribuição normal Aqui sob H 0 (na igualdade), D par N(0, σd /n), assumimos que a variância σd é desconhecida (pois contém informações da covariância que não conhecemos). A região de rejeição para cada teste é dada por { } S Para as hipóteses em (1): RC = D par > t Dn α. Para as hipóteses em (): RC = Para as{ hipóteses em (3): S RC = D par < t α D n ou D par > t α { D par < t α S Dn }. S D n Como anteriormente, t α é o quantil 1 α de uma t-student com n-1 graus de liberdade. }.

Intervalo de confiança para a diferença das médias para o caso pareado Distribuição normal IC(µ x µ y, γ) = Lembrando que [ S D D par t α/ n ; S D ] D par + t α/ n P( t α < T n 1 < t α ) = γ = 1 α sendo T n 1 uma variável com distribuição t-student com n 1 graus de liberdade.

Foram coletados os tempos antes a após a aplicação do complemento alimentar e os seguintes dados foram obtidos para 1 atletas. Sabe-se que estes tempos se distribuem conforme a distribuição normal. Deseja-se verificar se o complemento aumenta o desempenho dos atletas. Ind Antes (horas) Depois (horas) d i 1,4 3, - 0,8,8 3,4-0,6 3 4,6 3, 1,4 4 3,1 3,3-0, 5 3,1 3,3-0, 6 4,7 3,0 1,7 7 3,5 3,8-0,3 8 1,7 3,5-1,8 9,3 3, -0,9 10,6 3,9-1,3 11 4, 3,6 0,6 1 3,4 3,4 0,0 Observou-se d par = -0,35 e S D = 1, 07. Defina as hipóteses e a região de rejeição para α = 0,05.

Testes para duas médias para o caso não-pareado Distribuição normal Quando X N(µ x, σ x) e Y N(µ y, σ y) são variáveis independentes temos que ( ) D npar N µ x µ y, σ x + σ y. n Sob a hipótese nula (na igualdade), temos que µ D = µ x µ y = 0 Temos três casos: As variâncias σ x e σ y são conhecidas. As variâncias são desconhecidas e iguais. As variâncias são desconhecidas e diferentes.

Regiões críticas quando as variâncias são conhecidas (não-pareado) Para as hipóteses em (1): RC = Para as hipóteses em (): RC = Para as{ hipóteses em (3): σ RC = D npar < z α x + σ y n { σx D npar > z α + σ y n }. { σx D npar < z α + σ y n }. ou D npar > z α σx + σ y n }.

Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias conhecidas Distribuição normal IC(µ x µ y, γ) = [ σx D npar z α + σ y σ ; D npar + z ] x α + σ y n n Lembrando que P( z α < Z < z α ) = γ = 1 α sendo Z uma variável com distribuição normal padrão.

Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas especiais. Para verificar o efeito dos métodos, foram usadas duas amostras cujos resultados estão no quadro abaixo (em porcentagem de corrosão eliminada). Método A Método B Média amostral 48 53 Variância populacional 10 15 Amostra 15 1 Assuma distribuições normais independentes para as variáveis de interesse. Verifique se os efeitos médios dos métodos são diferentes considerando α = 0,05. Faça um intervalo de confiança considerando γ = 0,95.

Regiões críticas quando as variâncias são desconhecidas e iguais (não-pareado) Para as hipóteses em (1): RC = Para as hipóteses em (): RC = Para as{ hipóteses em (3): RC = D npar < t s p α + s p n { D npar > tα s p + s p n }. { D npar < tα s p + s p n }. ou D npar > t α em que t α é o quantil 1 α de uma t-student com n = + n graus de liberdade e s p + s p n }. s p = ( 1) S X + (n 1) S Y n.

Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias desconhecidas e iguais Distribuição normal IC(µ x µ y, γ) = [ D npar t sp α + s p ; D npar + t s ] p α + s p n n Lembrando que P( t α < T < t α ) = γ = 1 α sendo T uma variável com distribuição t-student com n graus de liberdade (n = + n ).

Uma pesquisadora da área de nutrição propôs uma nova dieta para aumentar o nível de zinco plasmático em pacientes deficientes dessa substância. A pesquisadora selecionou 40 pacientes com deficiência de zinco, nos 15 primeiros ela não aplicou a dieta proposta e mediu a quantidade de zinco, nos outros 5 pacientes ela aplicou a dieta proposta e mediu a quantidade de zinco. S/ dieta C/ dieta Média amostral 57,9 65,5 Variância amostral 116 18 Amostra 15 5 Estudos anteriores mostraram que as populações tem variâncias iguais. Assuma distribuições normais independentes para as variáveis de interesse. Verifique se a dieta proposta aumenta em média o nível de zinco plasmático considerando α = 0,05. Faça um intervalo de confiança pasra a diferença de médias considerando γ = 0,99.

Regiões críticas quando as variâncias são desconhecidas e diferentes (não-pareado) { S Para as hipóteses em (1): RC = D npar > tα X { S Para as hipóteses em (): RC = D npar < tα X Para as hipóteses em (3): RC = { D npar < t α S X + S Y n S ou D npar > t X α em que tα é o quantil 1 α de uma t-student com ( arredondar S X n + S ) ( ) / S Y X n 1 + ( S Y n ) n 1 + S Y n }. + S Y n }. + S Y n }. graus de liberdade.

Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias desconhecidas e diferentes Distribuição normal IC(µ x µ y, γ) = Lembrando que [ S D npar t X α + S Y P( t α ; D npar +t α n < T < t α ) = γ = 1 α S X + S ] Y n sendo T uma variável com distribuição t-student com n graus de liberdade, sendo ( arredondar S X n + S ) ( ) / S ( ) Y X S Y n1 n 1 + n n 1

Queremos verificar se as resistências de dois tipos de vigas de aço, A e B, são diferentes. Aplicam-se cargas (em kn/cm ) até que a viga se rompa. Considere que foram testadas = 15 vigas do tipo A e n = 0 vigas do tipo B, obtemos os valores: Técnica A Técnica B Média amostral 71,5 85,3 Variância amostral 8,6 0,8 Assuma distribuição normal para as variáveis de interesse. Conduza os testes apropriados e faça intervalos de confiança para a diferença de médias populacionais.

Comparações de médias populacionais para distribuições não-normais (dados não pareados) Sejam X e Y variáveis aleatórias independentes com E(X ) = µ x, VAR(X ) = σ x, E(Y ) = µ y e VAR(Y ) = σ y. Sejam (X 1,..., X n1 ) e (Y 1,..., Y n ) amostras de X e Y, respectivamente. Sabemos pelo teorema do limite central que para e n grandes. X µ x σ x N(0, 1) e Ȳ µ y σ y n N(0, 1).

Comparações de médias populacionais para distribuições não-normais (dados não pareados) Combinando os dois resultados temos X Ȳ N(0, 1) σx + σ y n Substituindo as variâncias desconhecidas por estimadores consistentes, temos X Ȳ N(0, 1) ˆσ x + ˆσ y n

Regiões críticas aproximadas Para as hipóteses em (1): RC = Para as hipóteses em (): RC = Para as{ hipóteses em (3): ˆσ RC = D npar < z α x + ˆσ y n { ˆσ x D npar > z α + ˆσ y n }. { } ˆσ x D npar < z α + ˆσ y n ou D npar > z α ˆσ x + ˆσ y n }.

Exemplo: Comparações de proporções Sejam X e Y variáveis Bernoulli independentes com P(X = 1) = p x e P(Y = 1) = p y. Note que µ x = p x, σ x = p x (1 p x ), µ y = p y e σ y = p y (1 p y ). Note portanto que testar as médias é equivalente a testar as proporções. Utilizamos o teste para variáveis não-normais usando: ˆσ x = x(1 x) e ˆσ y = ȳ(1 ȳ) Basta substitui-las nas fórmulas acima para cada caso pertinente para o problema de interesse.

O nível descritivo do teste (valor-p) Caso pareado: ( ) Para as hipóteses em (1): α = P T n 1 > d/ S D /n ( ) Para as hipóteses em (): α = P T n 1 < d/ S D /n ( Para as hipóteses em (3): α = P T n 1 < d / S D ). /n Caso não pareado (variâncias conhecidas): ( Para as hipóteses em (1): α = P Z > d/ ( Para as hipóteses em (): α = P Z < d/ ( Para as hipóteses em (3): α = P Z < d / σ x + σ y n ) σ x + σ y n ) σ x + σ y n ).

Caso não pareado (variâncias desconhecidas e iguais): ( ) Para as hipóteses em (1): α = P T s > d/ p + s p n ( Para as hipóteses em (): α = P T s < d/ p ( Para as hipóteses em (3): α = P T < d / ) + s p n s p + s p n ). Caso não pareado (variâncias desconhecidas e diferentes): ( ) Para as hipóteses em (1): α = P T > d/ S X + S Y n Para as hipóteses em (): α = P Para as hipóteses ( em (3): S α = P T X < d / + S Y n ). ( T < d/ S X ) + S Y n em que T e T são variáveis aleatórias com distribuição t-student cujos graus de liberdades foram definidos anteriormente.

Para variáveis que não tem distribuição normal. Caso não pareado (variâncias desconhecidas e diferentes): ( Para as hipóteses em (1): α P Z > d/ ˆσ X ( Para as hipóteses em (): α P Para as hipóteses em (3): α P Z < d/ ˆσ X ) + ˆσ Y n ( Z < d / ˆσ X Aproximação feita utilizando o teorema do limite central. ) + ˆσ Y n + ˆσ Y n ).

Testes para duas variâncias populacionais Observe que para fazer as comparações de duas médias populacionais (no caso não pareado de variâncias desconhecidas) precisamos saber se as variâncias são iguais ou diferentes. Veremos a seguir como fazer testes de hipóteses para duas variâncias populacionais de variáveis com distribuição normal. Considere X N(µ x, σ x) e Y N(µ y, σ y) cujas respectivas amostras são (X 1, X,..., X n1 ), (Y 1, Y,..., Y n ) Queremos testar as seguintes hipóteses { H0 : σx = σy H 1 : σx σy

Testes para duas variâncias populacionais Sejam (X 1, X,..., X n1 ) e (Y 1, Y,..., Y n ) as duas amostras das variáveis de interesse (com distribuição normal). Sabemos que e U 1 = ( 1) S X σ x χ ( 1) Vimos que U = (n 1) S Y σ y χ (n 1) U 1 1 U n 1 F (n1 1,n 1)

Testes para duas variâncias populacionais Portanto, S X S Y σy σx F (n1 1,n 1) Sob a hipótese nula σx = σ Y, temos que W = S X S Y F (n1 1,n 1)

Região crítica para o testes de duas variâncias populacionais A região crítica para o teste é dada por RC = {W < F 1 ou W > F } sendo que os valores F 1 e F são obtidos da tabela da distribuição F de Snedecor com 1 graus de liberdade no numerador e n 1 graus de liberdade no denominador considerando P(W < F 1 ) = P(W > F ) = α lembrando que, sob a hipótese nula, W F (n1 1,n 1).

Distribuição F O valor F é obtido diretamente usando F (n1 1,n 1) P(F (n1 1,n 1) > F ) = α O valor F 1 = 1/ F em que F é obtido da tabela F (n 1, 1). P(F (n1 1,n 1) < F 1 ) = P(F (n 1, 1) > F ) = α

Exemplo Uma pesquisadora da área de nutrição propôs uma nova dieta para aumentar o nível de zinco plasmático em pacientes deficientes dessa substância. A pesquisadora selecionou 40 pacientes com deficiência de zinco, nos 15 primeiros ela não aplicou a dieta proposta e mediu a quantidade de zinco, nos outros 5 pacientes ela aplicou a dieta proposta e mediu a quantidade de zinco. S/ dieta C/ dieta Média amostral 57,9 65,5 Variância amostral 116 18 Amostra 15 5 Verifique se as variâncias populacionais são iguais a 5% de significância estatística.