Introdução à probabilidade e estatística II Testes de hipóteses para duas médias populacionais Prof. Alexandre G Patriota Sala: 98A Email: patriota@ime.usp.br Site: www.ime.usp.br/ patriota
Testes de hipóteses para duas Médias populacionais Sejam X e Y duas variáveis de interesse. Estaremos interessados em testar se a média de X é igual a média de Y. testar se o efeito médio do remédio proposto é maior do que o efeito médio do placebo testar se um determinado método de ensino é mais eficaz que outro. Há dois casos: as variáveis X e Y são dependentes (dados pareados). A mesma unidade amostral é medida duas vezes. as variáveis X e Y são independentes (dados não pareados). Todas as unidades amostrais são medidas apenas uma vez.
Exemplo de dados pareados (dependentes) Uma nutricionista propôs um novo complemento alimentar para aumentar o rendimento de jogadores de futebol. A variável de interesse: tempo de corrida na esteira a 15km/h até a fadiga. A pesquisadora selecionou 0 atletas com características similares (peso, altura, idade, etc). Na primeira semana a pesquisadora mediu o tempo de corrida sem utilizar a dieta (X ), na segunda semana a pesquisadora mediu o tempo de corrida utilizando a dieta (Y ) dos mesmos atletas. Interesse: verificar se em média houve um aumento no tempo médio na segunda semana em relação a primeira. Note que as variáveis X e Y referem-se ao mesmo atleta.
Exemplo de dados não pareados (independentes) Uma nutricionista propôs um novo complemento alimentar para aumentar o rendimento de jogadores de futebol. A variável de interesse: tempo de corrida na esteira a 15km/h até a fadiga. A pesquisadora selecionou 40 atletas com características similares (peso, altura, idade, etc). Dentre os 40 atletas, 0 utilizaram o novo complemento (X ) e 0 não utilizaram (Y ). Interesse: verificar se em média os atletas que utilizaram o novo complemente tiverem o tempo de corrida aumentado. Note que as variáveis X e Y referem-se a atletas diferentes.
Testes para duas médias populacionais Distribuição normal Sejam X N(µ x, σ x) e Y N(µ y, σ y) duas variáveis de interesse. As hipóteses de interesse (tanto para dados pareados como não-pareados) serão: { { H0 : µ (1) x µ y H0 : µ, () x µ y H 1 : µ x > µ y H 1 : µ x < µ y { H0 : µ e (3) x = µ y H 1 : µ x µ y Podemos definir µ D = µ x µ y e teremos de maneira equivalente: { { H0 : µ (1) D 0 H 1 : µ D > 0, () H0 : µ D 0 H 1 : µ D < 0 { H0 : µ e (3) D = 0 H 1 : µ D 0
Caso pareado e não-pareado No caso pareado, as variáveis são dependentes e observamos (X 1, Y 1 ), (X, Y ),..., (X n, Y n ) em que (X i, Y i ) é o par de variáveis do i-ésimo indivíduo, X i referente ao tratamento inicial e Y i referente ao tratamento final. No caso não-pareado, as variáveis são independentes e observamos dois conjuntos de dados (X 1, X,..., X n1 ), (Y 1, Y,..., Y n ). o primeiro referente a um tipo de tratamento e o segundo referente a outro tipo de tratamento.
Caso pareado e não-pareado No caso pareado, utilizamos a média das diferenças D i = X i Y i para fazer o teste de hipóteses, ou seja, Temos que D par N D par = 1 n n d i. i=1 (µ x µ y, σdn ), em que σ D está embutida as variâncias de X, Y e a covariância. A estimativa para σd será a variância amostral S D (denominador (n-1)) No caso não-pareado, utilizamos a diferença das médias X Ȳ para fazer o teste de hipóteses, ou seja, D npar = X Ȳ. ( Temos que D npar N µ x µ y, σ x n 1 + σ y n ).
Testes para duas médias para o caso pareado Distribuição normal Aqui sob H 0 (na igualdade), D par N(0, σd /n), assumimos que a variância σd é desconhecida (pois contém informações da covariância que não conhecemos). A região de rejeição para cada teste é dada por Para o Teste (1): RC = { D par > d c }, com d c = t α S D n Para o Teste (): RC = { D par < d c }, com d c = t α S D n Para o Teste (3): RC = { D par < d 1c ou D par > d c }, com S D S D n n. d 1c = t α e d c = t α Como anteriormente, t α e t α/ são os 1 α e 1 α/ quantis, respectivamente, de uma t-student com n-1 graus de liberdade.
Intervalo de confiança para a diferença das médias para o caso pareado Distribuição normal IC(µ x µ y, γ) = Lembrando que [ S D D par t α/ n ; S D ] D par + t α/ n P( t α < T < t α ) = γ = 1 α sendo T uma variável com distribuição t-student com n 1 graus de liberdade
Foram coletados os tempos antes a após a aplicação do complemento alimentar e os seguintes dados foram obtidos para 1 atletas. Sabe-se que estes tempos se distribuem conforme a distribuição normal. Deseja-se verificar se o complemento aumenta o desempenho dos atletas. Ind Antes (horas) Depois (horas) d i 1,4 3, - 0,8,8 3,4-0,6 3 4,6 3, 1,4 4 3,1 3,3-0, 5 3,1 3,3-0, 6 4,7 3,0 1,7 7 3,5 3,8-0,3 8 1,7 3,5-1,8 9,3 3, -0,9 10,6 3,9-1,3 11 4, 3,6 0,6 1 3,4 3,4 0,0 Observou-se d par = -0,35 e S D = 1, 07. Defina as hipóteses e a região de rejeição para α = 0,05.
Testes para duas médias para o caso não-pareado Distribuição normal Quando X N(µ x, σ x) e Y N(µ y, σ y) são variáveis independentes temos que ( ) D npar N µ x µ y, σ x + σ y. n 1 n Sob a hipótese nula (na igualdade), temos que µ D = µ x µ y = 0 Temos três casos: As variâncias σ x e σ y são conhecidas. As variâncias são desconhecidas e iguais. As variâncias são desconhecidas e diferentes.
Regiões críticas quando as variâncias são conhecidas (não-pareado) σ x Para o Teste (1): RC = { D npar > d c }, com d c = z α n 1 + σ y n Para o Teste (): RC = { D npar < d c }, com d c = z α σ x n 1 + σ y n Para o Teste (3): RC = { D npar < d 1c ou D npar > d c }, com σ d 1c = z α x n 1 + σ y σ n e d c = z α x n 1 + σ y n.
Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias conhecidas Distribuição normal IC(µ x µ y, γ) = [ σx D npar z α + σ y σ ; D npar + z ] x α + σ y n 1 n n 1 n Lembrando que P( z α < Z < z α ) = γ = 1 α sendo Z uma variável com distribuição normal padrão.
Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas especiais. Para verificar o efeito dos tratamentos, foram usadas amostras cujos resultados estão no quadro abaixo (em porcentagem de corrosão eliminada). Método A Método B Média amostral 48 53 Variância populacional 10 15 Amostra 15 1 Assuma distribuições normais independentes para as variáveis de interesse. Verifique se os efeitos médios dos métodos são diferentes considerando α = 0,05. Faça um intervalo de confiança considerando γ = 0,95.
Regiões críticas quando as variâncias são desconhecidas e iguais (não-pareado) Para o Teste (1): RC = { D npar > d c }, com d c = t α s p n 1 + s p n Para o Teste (): RC = { D npar < d c }, com d c = tα s p n 1 + s p n Para o Teste (3): RC = { D npar < d 1c ou D npar > d c }, com d 1c = t s p α n 1 + s p n e d c = t s p α n 1 + s p n. em que tα e t α são os quantis 1 α e 1 α, respectivamente de uma t-student com n = n 1 + n graus de liberdade e s p = (n 1 1) S X + (n 1) S Y n.
Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias desconhecidas e iguais Distribuição normal IC(µ x µ y, γ) = [ D npar t sp α + s p ; D npar + t s ] p α + s p n 1 n n 1 n Lembrando que P( t α < T < t α ) = γ = 1 α sendo T uma variável com distribuição t-student com n graus de liberdade (n = n 1 + n ).
Duas técnicas de venda são aplicadas por dois grupos de vendedores: a técnica A, por 1 vendedores, e a técnica B, por 15 vendedores. Espera-se que a técnica B produza melhores resultados. No final de um mês, obtiveram-se os resultados (em porcentagem de vendas): Técnica A Técnica B Média amostral 68 76 Variância amostral 50 5 Assuma distribuição normal para as variáveis de interesse. Sabe-se, por estudos anteriores, que a variância populacional das duas técnicas são iguais. Conduza os testes apropriados e faça intervalos de confiança para a diferença de médias populacionais.
Regiões críticas quando as variâncias são desconhecidas e diferentes (não-pareado) Para o Teste (1): RC = { D npar > d c }, com d c = t α S X n 1 + S Y n Para o Teste (): RC = { D npar < d c }, com d c = t α S X n 1 + S Y n Para o Teste (3): RC = { D npar < d 1c ou D npar > d c }, com d 1c = t α S X n 1 em que em que tα e t α de uma t-student com + S Y n n = ( S X n 1 + S Y n e d c = t α S X n 1 + S Y n. são os quantis 1 α e 1 α, respectivamente ) / ( S X n 1 1 + n 1 n 1 ) ( S Y n ) graus de liberdade.
Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias desconhecidas e diferentes Distribuição normal IC(µ x µ y, γ) = Lembrando que [ s D npar t n, α X + s Y s ; D ] npar +t n 1 n n, α X + s Y n 1 n P( t α < T < t α ) = γ = 1 α sendo T uma variável com distribuição t-student com n graus de liberdade, sendo ( ) s X n n1 + s Y n = ( s X n 1 ) n 1 1 + ( s Y n ) n 1
Queremos verificar se as resistências de dois tipos de vigas de aço, A e B, são diferentes. Aplicam-se cargas (em kn/cm ) até que a viga se rompa. Considere que foram testadas n 1 = 15 vigas do tipo A e n = 0 vigas do tipo B, obtemos os valores: Técnica A Técnica B Média amostral 71,5 85,3 Variância amostral 8,6 0,8 Assuma distribuição normal para as variáveis de interesse. Conduza os testes apropriados e faça intervalos de confiança para a diferença de médias populacionais.
Comparações de médias populacionais para distribuições não-normais Sejam X e Y variáveis aleatórias independentes com E(X ) = µ x, VAR(X ) = σ x, E(Y ) = µ y e VAR(Y ) = σ y. Sejam (X 1,..., X n1 ) e (Y 1,..., Y n ) amostras de X e Y, respectivamente. Sabemos pelo teorema do limite central que X µ x σ x N(0, 1) e n 1 para n 1 e n forem grandes. Ȳ µ y σ y n N(0, 1).
Comparações de médias populacionais para distribuições não-normais Combinando os dois resultados temos X Ȳ N(0, 1) σx n 1 + σ y n Substituindo as variâncias desconhecidas por estimadores consistentes, temos X Ȳ N(0, 1) ˆσ x n 1 + ˆσ y n
Regiões críticas aproximadas ˆσ x Para o Teste (1): RC = { D npar > d c }, com d c = z α n 1 + ˆσ y n Para o Teste (): RC = { D npar < d c }, com d c = z α ˆσ x n 1 + ˆσ y n Para o Teste (3): RC = { D npar < d 1c ou D npar > d c }, com ˆσ d 1c = z α x n 1 + ˆσ y ˆσ n e d c = z α x n 1 + ˆσ y n.
Exemplo: Comparações de proporções Sejam X e Y variáveis Bernoulli independentes com P(X = 1) = p x e P(Y = 1) = p y. Note que µ x = p x, σ x = p x (1 p x ), µ y = p y e σ y = p y (1 p y ). Note portanto que testar as médias é equivalente a testar as proporções. Utilizamos o teste para variáveis não-normais usando: ˆσ x = x(1 x) e ˆσ y = ȳ(1 ȳ)
O nível descritivo do teste (valor-p) O nível descritivo do teste (valor-p) é definido como o menor nível de significância em que a hipótese nula é rejeitada. É calculado substitiundo d c pela média D observada. Para o Teste (1): α = P( D > d quando µ D = 0) Para o Teste (): α = P( D < d quando µ D = 0) Para o Teste (3): α = P( D < d quando µ D = 0) se d < 0 ou α = P( D > d quando µ = 0) se d > 0. A distribuição utilizada depende da situação: caso pareado ou não-pareado (variâncias conhecidas ou desconhecidas).
Testes para duas variâncias populacionais Observe que para fazer as comparações de duas médias populacionais (no caso não pareado de variâncias desconhecidas) precisamos saber se as variâncias são iguais ou diferentes. Veremos a seguir como fazer testes de hipóteses para duas variâncias populacionais de variáveis com distribuição normal. Ou seja, se X N(µ x, σ x) e Y N(µ y, σ y) com (X 1, X,..., X n1 ), (Y 1, Y,..., Y n ) as respectivas amostras. Queremos testar as seguintes hipóteses { H0 : σ x = σ y H 1 : σ x σ y
Testes para duas variâncias populacionais Sejam (X 1, X,..., X n1 ) e (Y 1, Y,..., Y n ) as duas amostras das variáveis de interesse (com distribuição normal). Sabemos que e U 1 = (n 1 1) S X σ x χ (n 1 1) Vimos que U = (n 1) S Y σ y χ (n 1) U 1 n 1 1 U n 1 F (n1 1,n 1)
Testes para duas variâncias populacionais Portanto, S X S Y σy σx F (n1 1,n 1) Sob a hipótese nula σx = σ Y, temos que W = S X S Y F (n1 1,n 1)
Região crítica para o testes de duas variâncias populacionais A região crítica para o teste é dada por RC = {W < F 1 ou W > F } sendo que os valores F 1 e F são obtidos da tabela da distribuição F de Snedecor com n 1 1 graus de liberdade no numerador e n 1 graus de liberdade no denominador. P(W < F 1 ) = P(W > F ) = α lembrando que, sob a hipótese nula, W F (n1 1,n 1).
Distribuição F O valor F é obtido diretamente usando F (n1 1,n 1) P(F (n1 1,n 1) > F ) = α O valor F 1 = 1/ F em que F é obtido da tabela F (n 1,n 1 1). P(F (n1 1,n 1) < F 1 ) = P(F (n 1,n 1 1) > F ) = α
Exemplo Duas técnicas de venda são aplicadas por dois grupos de vendedores: a técnica A, por 1 vendedores, e a técnica B, por 15 vendedores. Espera-se que a técnica B produza melhores resultados. No final de um mês, obtiveram-se os resultados: Técnica A Técnica B Média amostral 68 76 Variância amostral 50 5 Verifique se as variâncias populacionais são iguais a 5% de significância estatística.