Introdução à probabilidade e estatística II

Documentos relacionados
Introdução à probabilidade e estatística II

Inferência para duas populações

Carlos Antonio Filho

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas

MAE Introdução à Probabilidade e Estatística II Resolução Lista 4

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

X e Y independentes. n + 1 m

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Testes de Hipótese para uma única Amostra - parte II

Testes de Hipótese para uma única Amostra - parte II

Teste de Hipótese. Capítulo 8 Triola, 10 a. Ed. (Capítulo 7 Triola, 9 a. Ed.) 1 Visão Geral. 2 Fundamentos do teste de hipótese

Testes de Hipóteses II

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

MAE0229 Introdução à Probabilidade e Estatística II

Unidade IV Inferência estatística

Introdução a Estatística

Inferência Estatistica

Introdução à probabilidade e à estatística II. Prof. Alexandre G Patriota Sala: 298A Site:

Capítulo 4 Inferência Estatística

Professora Ana Hermínia Andrade. Período

Testes de Hipóteses Paramétricos

Distribuições derivadas da distribuição Normal. Distribuição Normal., x real.

1. (a) Lembre-se que a média de uma variável aleatória discreta é uma média ponderada de seus valores, com as probabilidades sendo os pesos.

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Professora Ana Hermínia Andrade. Período

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

Testes de Hipóteses Paramétricos

Inferência Estatística Básica. Teste de Hipóteses para uma média populacional Cálculo do Valor p

1 Probabilidade - Modelos Probabilísticos

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Enrico A. Colosimo Depto. Estatística UFMG

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Aula 8 - Testes de hipóteses

AULA 7 - Inferência em MQO: ICs e Testes de

Testes de Hipótese para uma única Amostra - parte I

Prof. Lorí Viali, Dr. Mat2282 Análise Estatística Não Paramétrica

Probabilidade e Estatística

Aula 5. Teste de Hipóteses II. Capítulo 12, Bussab&Morettin Estatística Básica 7ª Edição

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

Cálculo das Probabilidades e Estatística I

Amostragem e distribuições por amostragem

Estatística II. Intervalo de Confiança Lista de Exercícios

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

AULA 07 Inferência a Partir de Duas Amostras

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Bioestatística CE001 Prof. Fernando de Pol Mayer Departamento de Estatística DEST Exercícios: inferência Nome: GABARITO

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

Introdução em Probabilidade e Estatística II

Inferência a partir de duas amostras

Intervalos de Confiança - Amostras Pequenas

Probabilidade e Estatística

Solução dos Exercícios - Capítulos 1 a 3

INTERVALOS DE CONFIANÇA: DIFERENÇA ENTRE DUAS MÉDIAS

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Princípios de Bioestatística Teste de Hipóteses

Inferência Estatística

Prof. Lorí Viali, Dr.

Teste de Hipóteses. Enrico A. Colosimo/UFMG enricoc/ Depto. Estatística - ICEx - UFMG 1/24

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Planejamento de Experimentos Introdução - Teste t

Testes de Hipóteses para duas médias

MAE0219 Introdução à Probabilidade e Estatística I

Teste de Comparações Múltiplas

Testes t para comparação de médias de dois grupos independentes

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

mat.ufrgs..ufrgs.br br/~viali/ mat.ufrgs..ufrgs.br

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Inferência Estatística:

X 2. (σ 2 + µ 2 ) = 1 n (nσ 2 + nµ 2 ) = σ 2 + µ 2. µ = 0 E(T ) = σ 2

Distribuições amostrais

Introdução à Bioestatística Turma Nutrição

Teorema central do limite e es/mação da proporção populacional p

Teste de Hipóteses Paramétricos

Inferências sobre o vetor de Média. (Johnson & Wichern, Cap. 5) Considere o problema univariado no qual temse uma amostra aleatória de tamanho n da

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

TESTES DE HIPÓTESES. Lucas Santana da Cunha Universidade Estadual de Londrina

TESTES DE HIPÓTESES. Conceitos, Testes de 1 proporção, Testes de 1 média

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

Intervalos de Confiança

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

TESTES DE HIPÓTESES PARA DIFERENÇA DE DUAS MÉDIAS

AULA 04 Teste de hipótese

Variáveis bidimensionais

Testes de Hipóteses: Média e proporção

TESTES DE HIPÓTESES ADICIONAIS

AULA 05 Teste de Hipótese

TESTE DE HIPÓTESE. Introdução

CONHECIMENTOS ESPECÍFICOS

Transcrição:

Introdução à probabilidade e estatística II Testes de hipóteses para duas médias populacionais Prof. Alexandre G Patriota Sala: 98A Email: patriota@ime.usp.br Site: www.ime.usp.br/ patriota

Testes de hipóteses para duas Médias populacionais Sejam X e Y duas variáveis de interesse. Estaremos interessados em testar se a média de X é igual a média de Y. testar se o efeito médio do remédio proposto é maior do que o efeito médio do placebo testar se um determinado método de ensino é mais eficaz que outro. Há dois casos: as variáveis X e Y são dependentes (dados pareados). A mesma unidade amostral é medida duas vezes. as variáveis X e Y são independentes (dados não pareados). Todas as unidades amostrais são medidas apenas uma vez.

Exemplo de dados pareados (dependentes) Uma nutricionista propôs um novo complemento alimentar para aumentar o rendimento de jogadores de futebol. A variável de interesse: tempo de corrida na esteira a 15km/h até a fadiga. A pesquisadora selecionou 0 atletas com características similares (peso, altura, idade, etc). Na primeira semana a pesquisadora mediu o tempo de corrida sem utilizar a dieta (X ), na segunda semana a pesquisadora mediu o tempo de corrida utilizando a dieta (Y ) dos mesmos atletas. Interesse: verificar se em média houve um aumento no tempo médio na segunda semana em relação a primeira. Note que as variáveis X e Y referem-se ao mesmo atleta.

Exemplo de dados não pareados (independentes) Uma nutricionista propôs um novo complemento alimentar para aumentar o rendimento de jogadores de futebol. A variável de interesse: tempo de corrida na esteira a 15km/h até a fadiga. A pesquisadora selecionou 40 atletas com características similares (peso, altura, idade, etc). Dentre os 40 atletas, 0 utilizaram o novo complemento (X ) e 0 não utilizaram (Y ). Interesse: verificar se em média os atletas que utilizaram o novo complemente tiverem o tempo de corrida aumentado. Note que as variáveis X e Y referem-se a atletas diferentes.

Testes para duas médias populacionais Distribuição normal Sejam X N(µ x, σ x) e Y N(µ y, σ y) duas variáveis de interesse. As hipóteses de interesse (tanto para dados pareados como não-pareados) serão: { { H0 : µ (1) x µ y H0 : µ, () x µ y H 1 : µ x > µ y H 1 : µ x < µ y { H0 : µ e (3) x = µ y H 1 : µ x µ y Podemos definir µ D = µ x µ y e teremos de maneira equivalente: { { H0 : µ (1) D 0 H 1 : µ D > 0, () H0 : µ D 0 H 1 : µ D < 0 { H0 : µ e (3) D = 0 H 1 : µ D 0

Caso pareado e não-pareado No caso pareado, as variáveis são dependentes e observamos (X 1, Y 1 ), (X, Y ),..., (X n, Y n ) em que (X i, Y i ) é o par de variáveis do i-ésimo indivíduo, X i referente ao tratamento inicial e Y i referente ao tratamento final. No caso não-pareado, as variáveis são independentes e observamos dois conjuntos de dados (X 1, X,..., X n1 ), (Y 1, Y,..., Y n ). o primeiro referente a um tipo de tratamento e o segundo referente a outro tipo de tratamento.

Caso pareado e não-pareado No caso pareado, utilizamos a média das diferenças D i = X i Y i para fazer o teste de hipóteses, ou seja, Temos que D par N D par = 1 n n d i. i=1 (µ x µ y, σdn ), em que σ D está embutida as variâncias de X, Y e a covariância. A estimativa para σd será a variância amostral S D (denominador (n-1)) No caso não-pareado, utilizamos a diferença das médias X Ȳ para fazer o teste de hipóteses, ou seja, D npar = X Ȳ. ( Temos que D npar N µ x µ y, σ x n 1 + σ y n ).

Testes para duas médias para o caso pareado Distribuição normal Aqui sob H 0 (na igualdade), D par N(0, σd /n), assumimos que a variância σd é desconhecida (pois contém informações da covariância que não conhecemos). A região de rejeição para cada teste é dada por Para o Teste (1): RC = { D par > d c }, com d c = t α S D n Para o Teste (): RC = { D par < d c }, com d c = t α S D n Para o Teste (3): RC = { D par < d 1c ou D par > d c }, com S D S D n n. d 1c = t α e d c = t α Como anteriormente, t α e t α/ são os 1 α e 1 α/ quantis, respectivamente, de uma t-student com n-1 graus de liberdade.

Intervalo de confiança para a diferença das médias para o caso pareado Distribuição normal IC(µ x µ y, γ) = Lembrando que [ S D D par t α/ n ; S D ] D par + t α/ n P( t α < T < t α ) = γ = 1 α sendo T uma variável com distribuição t-student com n 1 graus de liberdade

Foram coletados os tempos antes a após a aplicação do complemento alimentar e os seguintes dados foram obtidos para 1 atletas. Sabe-se que estes tempos se distribuem conforme a distribuição normal. Deseja-se verificar se o complemento aumenta o desempenho dos atletas. Ind Antes (horas) Depois (horas) d i 1,4 3, - 0,8,8 3,4-0,6 3 4,6 3, 1,4 4 3,1 3,3-0, 5 3,1 3,3-0, 6 4,7 3,0 1,7 7 3,5 3,8-0,3 8 1,7 3,5-1,8 9,3 3, -0,9 10,6 3,9-1,3 11 4, 3,6 0,6 1 3,4 3,4 0,0 Observou-se d par = -0,35 e S D = 1, 07. Defina as hipóteses e a região de rejeição para α = 0,05.

Testes para duas médias para o caso não-pareado Distribuição normal Quando X N(µ x, σ x) e Y N(µ y, σ y) são variáveis independentes temos que ( ) D npar N µ x µ y, σ x + σ y. n 1 n Sob a hipótese nula (na igualdade), temos que µ D = µ x µ y = 0 Temos três casos: As variâncias σ x e σ y são conhecidas. As variâncias são desconhecidas e iguais. As variâncias são desconhecidas e diferentes.

Regiões críticas quando as variâncias são conhecidas (não-pareado) σ x Para o Teste (1): RC = { D npar > d c }, com d c = z α n 1 + σ y n Para o Teste (): RC = { D npar < d c }, com d c = z α σ x n 1 + σ y n Para o Teste (3): RC = { D npar < d 1c ou D npar > d c }, com σ d 1c = z α x n 1 + σ y σ n e d c = z α x n 1 + σ y n.

Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias conhecidas Distribuição normal IC(µ x µ y, γ) = [ σx D npar z α + σ y σ ; D npar + z ] x α + σ y n 1 n n 1 n Lembrando que P( z α < Z < z α ) = γ = 1 α sendo Z uma variável com distribuição normal padrão.

Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas especiais. Para verificar o efeito dos tratamentos, foram usadas amostras cujos resultados estão no quadro abaixo (em porcentagem de corrosão eliminada). Método A Método B Média amostral 48 53 Variância populacional 10 15 Amostra 15 1 Assuma distribuições normais independentes para as variáveis de interesse. Verifique se os efeitos médios dos métodos são diferentes considerando α = 0,05. Faça um intervalo de confiança considerando γ = 0,95.

Regiões críticas quando as variâncias são desconhecidas e iguais (não-pareado) Para o Teste (1): RC = { D npar > d c }, com d c = t α s p n 1 + s p n Para o Teste (): RC = { D npar < d c }, com d c = tα s p n 1 + s p n Para o Teste (3): RC = { D npar < d 1c ou D npar > d c }, com d 1c = t s p α n 1 + s p n e d c = t s p α n 1 + s p n. em que tα e t α são os quantis 1 α e 1 α, respectivamente de uma t-student com n = n 1 + n graus de liberdade e s p = (n 1 1) S X + (n 1) S Y n.

Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias desconhecidas e iguais Distribuição normal IC(µ x µ y, γ) = [ D npar t sp α + s p ; D npar + t s ] p α + s p n 1 n n 1 n Lembrando que P( t α < T < t α ) = γ = 1 α sendo T uma variável com distribuição t-student com n graus de liberdade (n = n 1 + n ).

Duas técnicas de venda são aplicadas por dois grupos de vendedores: a técnica A, por 1 vendedores, e a técnica B, por 15 vendedores. Espera-se que a técnica B produza melhores resultados. No final de um mês, obtiveram-se os resultados (em porcentagem de vendas): Técnica A Técnica B Média amostral 68 76 Variância amostral 50 5 Assuma distribuição normal para as variáveis de interesse. Sabe-se, por estudos anteriores, que a variância populacional das duas técnicas são iguais. Conduza os testes apropriados e faça intervalos de confiança para a diferença de médias populacionais.

Regiões críticas quando as variâncias são desconhecidas e diferentes (não-pareado) Para o Teste (1): RC = { D npar > d c }, com d c = t α S X n 1 + S Y n Para o Teste (): RC = { D npar < d c }, com d c = t α S X n 1 + S Y n Para o Teste (3): RC = { D npar < d 1c ou D npar > d c }, com d 1c = t α S X n 1 em que em que tα e t α de uma t-student com + S Y n n = ( S X n 1 + S Y n e d c = t α S X n 1 + S Y n. são os quantis 1 α e 1 α, respectivamente ) / ( S X n 1 1 + n 1 n 1 ) ( S Y n ) graus de liberdade.

Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias desconhecidas e diferentes Distribuição normal IC(µ x µ y, γ) = Lembrando que [ s D npar t n, α X + s Y s ; D ] npar +t n 1 n n, α X + s Y n 1 n P( t α < T < t α ) = γ = 1 α sendo T uma variável com distribuição t-student com n graus de liberdade, sendo ( ) s X n n1 + s Y n = ( s X n 1 ) n 1 1 + ( s Y n ) n 1

Queremos verificar se as resistências de dois tipos de vigas de aço, A e B, são diferentes. Aplicam-se cargas (em kn/cm ) até que a viga se rompa. Considere que foram testadas n 1 = 15 vigas do tipo A e n = 0 vigas do tipo B, obtemos os valores: Técnica A Técnica B Média amostral 71,5 85,3 Variância amostral 8,6 0,8 Assuma distribuição normal para as variáveis de interesse. Conduza os testes apropriados e faça intervalos de confiança para a diferença de médias populacionais.

Comparações de médias populacionais para distribuições não-normais Sejam X e Y variáveis aleatórias independentes com E(X ) = µ x, VAR(X ) = σ x, E(Y ) = µ y e VAR(Y ) = σ y. Sejam (X 1,..., X n1 ) e (Y 1,..., Y n ) amostras de X e Y, respectivamente. Sabemos pelo teorema do limite central que X µ x σ x N(0, 1) e n 1 para n 1 e n forem grandes. Ȳ µ y σ y n N(0, 1).

Comparações de médias populacionais para distribuições não-normais Combinando os dois resultados temos X Ȳ N(0, 1) σx n 1 + σ y n Substituindo as variâncias desconhecidas por estimadores consistentes, temos X Ȳ N(0, 1) ˆσ x n 1 + ˆσ y n

Regiões críticas aproximadas ˆσ x Para o Teste (1): RC = { D npar > d c }, com d c = z α n 1 + ˆσ y n Para o Teste (): RC = { D npar < d c }, com d c = z α ˆσ x n 1 + ˆσ y n Para o Teste (3): RC = { D npar < d 1c ou D npar > d c }, com ˆσ d 1c = z α x n 1 + ˆσ y ˆσ n e d c = z α x n 1 + ˆσ y n.

Exemplo: Comparações de proporções Sejam X e Y variáveis Bernoulli independentes com P(X = 1) = p x e P(Y = 1) = p y. Note que µ x = p x, σ x = p x (1 p x ), µ y = p y e σ y = p y (1 p y ). Note portanto que testar as médias é equivalente a testar as proporções. Utilizamos o teste para variáveis não-normais usando: ˆσ x = x(1 x) e ˆσ y = ȳ(1 ȳ)

O nível descritivo do teste (valor-p) O nível descritivo do teste (valor-p) é definido como o menor nível de significância em que a hipótese nula é rejeitada. É calculado substitiundo d c pela média D observada. Para o Teste (1): α = P( D > d quando µ D = 0) Para o Teste (): α = P( D < d quando µ D = 0) Para o Teste (3): α = P( D < d quando µ D = 0) se d < 0 ou α = P( D > d quando µ = 0) se d > 0. A distribuição utilizada depende da situação: caso pareado ou não-pareado (variâncias conhecidas ou desconhecidas).

Testes para duas variâncias populacionais Observe que para fazer as comparações de duas médias populacionais (no caso não pareado de variâncias desconhecidas) precisamos saber se as variâncias são iguais ou diferentes. Veremos a seguir como fazer testes de hipóteses para duas variâncias populacionais de variáveis com distribuição normal. Ou seja, se X N(µ x, σ x) e Y N(µ y, σ y) com (X 1, X,..., X n1 ), (Y 1, Y,..., Y n ) as respectivas amostras. Queremos testar as seguintes hipóteses { H0 : σ x = σ y H 1 : σ x σ y

Testes para duas variâncias populacionais Sejam (X 1, X,..., X n1 ) e (Y 1, Y,..., Y n ) as duas amostras das variáveis de interesse (com distribuição normal). Sabemos que e U 1 = (n 1 1) S X σ x χ (n 1 1) Vimos que U = (n 1) S Y σ y χ (n 1) U 1 n 1 1 U n 1 F (n1 1,n 1)

Testes para duas variâncias populacionais Portanto, S X S Y σy σx F (n1 1,n 1) Sob a hipótese nula σx = σ Y, temos que W = S X S Y F (n1 1,n 1)

Região crítica para o testes de duas variâncias populacionais A região crítica para o teste é dada por RC = {W < F 1 ou W > F } sendo que os valores F 1 e F são obtidos da tabela da distribuição F de Snedecor com n 1 1 graus de liberdade no numerador e n 1 graus de liberdade no denominador. P(W < F 1 ) = P(W > F ) = α lembrando que, sob a hipótese nula, W F (n1 1,n 1).

Distribuição F O valor F é obtido diretamente usando F (n1 1,n 1) P(F (n1 1,n 1) > F ) = α O valor F 1 = 1/ F em que F é obtido da tabela F (n 1,n 1 1). P(F (n1 1,n 1) < F 1 ) = P(F (n 1,n 1 1) > F ) = α

Exemplo Duas técnicas de venda são aplicadas por dois grupos de vendedores: a técnica A, por 1 vendedores, e a técnica B, por 15 vendedores. Espera-se que a técnica B produza melhores resultados. No final de um mês, obtiveram-se os resultados: Técnica A Técnica B Média amostral 68 76 Variância amostral 50 5 Verifique se as variâncias populacionais são iguais a 5% de significância estatística.