Introdução à probabilidade e estatística II

Introdução à probabilidade e estatística II Testes de hipóteses para duas médias populacionais Prof. Alexandre G Patriota Sala: 98A Email: patriota@ime.usp.br Site: www.ime.usp.br/ patriota

Testes de hipóteses para duas Médias populacionais Sejam X e Y duas variáveis de interesse. Estaremos interessados em testar se a média de X é igual a média de Y. testar se o efeito médio do remédio proposto é maior do que o efeito médio do placebo testar se um determinado método de ensino é mais eficaz que outro. Há dois casos: as variáveis X e Y são dependentes (dados pareados). A mesma unidade amostral é medida duas vezes. as variáveis X e Y são independentes (dados não pareados). Todas as unidades amostrais são medidas apenas uma vez.

Exemplo de dados pareados (dependentes) Uma nutricionista propôs um novo complemento alimentar para aumentar o rendimento de jogadores de futebol. A variável de interesse: tempo de corrida na esteira a 15km/h até a fadiga. A pesquisadora selecionou 0 atletas com características similares (peso, altura, idade, etc). Na primeira semana a pesquisadora mediu o tempo de corrida sem utilizar a dieta (X ), na segunda semana a pesquisadora mediu o tempo de corrida utilizando a dieta (Y ) dos mesmos atletas. Interesse: verificar se em média houve um aumento no tempo médio na segunda semana em relação a primeira. Note que as variáveis X e Y referem-se ao mesmo atleta.

Exemplo de dados não pareados (independentes) Uma nutricionista propôs um novo complemento alimentar para aumentar o rendimento de jogadores de futebol. A variável de interesse: tempo de corrida na esteira a 15km/h até a fadiga. A pesquisadora selecionou 40 atletas com características similares (peso, altura, idade, etc). Dentre os 40 atletas, 0 utilizaram o novo complemento (X ) e 0 não utilizaram (Y ). Interesse: verificar se em média os atletas que utilizaram o novo complemento tiverem o tempo de corrida aumentado. Note que as variáveis X e Y referem-se a atletas diferentes.

Testes para duas médias populacionais Distribuição normal Sejam X N(µ x, σ x) e Y N(µ y, σ y) duas variáveis de interesse. As hipóteses de interesse (tanto para dados pareados como não-pareados) serão: { { H0 : µ (1) x µ y H0 : µ, () x µ y H 1 : µ x > µ y H 1 : µ x < µ y { H0 : µ e (3) x = µ y H 1 : µ x µ y Podemos definir µ D = µ x µ y e teremos de maneira equivalente: { { H0 : µ (1) D 0 H 1 : µ D > 0, () H0 : µ D 0 H 1 : µ D < 0 { H0 : µ e (3) D = 0 H 1 : µ D 0

Caso pareado e não-pareado No caso pareado, as variáveis são dependentes e observamos (X 1, Y 1 ), (X, Y ),..., (X n, Y n ) em que (X i, Y i ) é o par de variáveis do i-ésimo indivíduo, X i referente ao tratamento inicial e Y i referente ao tratamento final. No caso não-pareado, as variáveis são independentes e observamos dois conjuntos de dados (X 1, X,..., X n1 ), (Y 1, Y,..., Y n ). o primeiro referente a um tipo de tratamento e o segundo referente a outro tipo de tratamento.

Caso pareado e não-pareado No caso pareado, utilizamos a média das diferenças D i = X i Y i para fazer o teste de hipóteses, ou seja, Temos que D par N D par = 1 n n d i. i=1 ) (µ x µ y, σdn, em que em σd está embutida as variâncias de X, de Y e a respectiva covariância. A estimativa para σd será a variância amostral S D (denominador (n-1)) No caso não-pareado, utilizamos a diferença das médias X Ȳ para fazer o teste de hipóteses, ou seja, D npar = X Ȳ. ( Temos que D npar N µ x µ y, σ x + σ y n ).

Testes para duas médias para o caso pareado Distribuição normal Aqui sob H 0 (na igualdade), D par N(0, σd /n), assumimos que a variância σd é desconhecida (pois contém informações da covariância que não conhecemos). A região de rejeição para cada teste é dada por { } S Para as hipóteses em (1): RC = D par > t Dn α. Para as hipóteses em (): RC = Para as{ hipóteses em (3): S RC = D par < t α D n ou D par > t α { D par < t α S Dn }. S D n Como anteriormente, t α é o quantil 1 α de uma t-student com n-1 graus de liberdade. }.

Intervalo de confiança para a diferença das médias para o caso pareado Distribuição normal IC(µ x µ y, γ) = Lembrando que [ S D D par t α/ n ; S D ] D par + t α/ n P( t α < T n 1 < t α ) = γ = 1 α sendo T n 1 uma variável com distribuição t-student com n 1 graus de liberdade.

Foram coletados os tempos antes a após a aplicação do complemento alimentar e os seguintes dados foram obtidos para 1 atletas. Sabe-se que estes tempos se distribuem conforme a distribuição normal. Deseja-se verificar se o complemento aumenta o desempenho dos atletas. Ind Antes (horas) Depois (horas) d i 1,4 3, - 0,8,8 3,4-0,6 3 4,6 3, 1,4 4 3,1 3,3-0, 5 3,1 3,3-0, 6 4,7 3,0 1,7 7 3,5 3,8-0,3 8 1,7 3,5-1,8 9,3 3, -0,9 10,6 3,9-1,3 11 4, 3,6 0,6 1 3,4 3,4 0,0 Observou-se d par = -0,35 e S D = 1, 07. Defina as hipóteses e a região de rejeição para α = 0,05.

Testes para duas médias para o caso não-pareado Distribuição normal Quando X N(µ x, σ x) e Y N(µ y, σ y) são variáveis independentes temos que ( ) D npar N µ x µ y, σ x + σ y. n Sob a hipótese nula (na igualdade), temos que µ D = µ x µ y = 0 Temos três casos: As variâncias σ x e σ y são conhecidas. As variâncias são desconhecidas e iguais. As variâncias são desconhecidas e diferentes.

Regiões críticas quando as variâncias são conhecidas (não-pareado) Para as hipóteses em (1): RC = Para as hipóteses em (): RC = Para as{ hipóteses em (3): σ RC = D npar < z α x + σ y n { σx D npar > z α + σ y n }. { σx D npar < z α + σ y n }. ou D npar > z α σx + σ y n }.

Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias conhecidas Distribuição normal IC(µ x µ y, γ) = [ σx D npar z α + σ y σ ; D npar + z ] x α + σ y n n Lembrando que P( z α < Z < z α ) = γ = 1 α sendo Z uma variável com distribuição normal padrão.

Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas especiais. Para verificar o efeito dos métodos, foram usadas duas amostras cujos resultados estão no quadro abaixo (em porcentagem de corrosão eliminada). Método A Método B Média amostral 48 53 Variância populacional 10 15 Amostra 15 1 Assuma distribuições normais independentes para as variáveis de interesse. Verifique se os efeitos médios dos métodos são diferentes considerando α = 0,05. Faça um intervalo de confiança considerando γ = 0,95.

Regiões críticas quando as variâncias são desconhecidas e iguais (não-pareado) Para as hipóteses em (1): RC = Para as hipóteses em (): RC = Para as{ hipóteses em (3): RC = D npar < t s p α + s p n { D npar > tα s p + s p n }. { D npar < tα s p + s p n }. ou D npar > t α em que t α é o quantil 1 α de uma t-student com n = + n graus de liberdade e s p + s p n }. s p = ( 1) S X + (n 1) S Y n.

Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias desconhecidas e iguais Distribuição normal IC(µ x µ y, γ) = [ D npar t sp α + s p ; D npar + t s ] p α + s p n n Lembrando que P( t α < T < t α ) = γ = 1 α sendo T uma variável com distribuição t-student com n graus de liberdade (n = + n ).

Uma pesquisadora da área de nutrição propôs uma nova dieta para aumentar o nível de zinco plasmático em pacientes deficientes dessa substância. A pesquisadora selecionou 40 pacientes com deficiência de zinco, nos 15 primeiros ela não aplicou a dieta proposta e mediu a quantidade de zinco, nos outros 5 pacientes ela aplicou a dieta proposta e mediu a quantidade de zinco. S/ dieta C/ dieta Média amostral 57,9 65,5 Variância amostral 116 18 Amostra 15 5 Estudos anteriores mostraram que as populações tem variâncias iguais. Assuma distribuições normais independentes para as variáveis de interesse. Verifique se a dieta proposta aumenta em média o nível de zinco plasmático considerando α = 0,05. Faça um intervalo de confiança pasra a diferença de médias considerando γ = 0,99.

Regiões críticas quando as variâncias são desconhecidas e diferentes (não-pareado) { S Para as hipóteses em (1): RC = D npar > tα X { S Para as hipóteses em (): RC = D npar < tα X Para as hipóteses em (3): RC = { D npar < t α S X + S Y n S ou D npar > t X α em que tα é o quantil 1 α de uma t-student com ( arredondar S X n + S ) ( ) / S Y X n 1 + ( S Y n ) n 1 + S Y n }. + S Y n }. + S Y n }. graus de liberdade.

Intervalo de confiança para a diferença das médias para o caso não-pareado com variâncias desconhecidas e diferentes Distribuição normal IC(µ x µ y, γ) = Lembrando que [ S D npar t X α + S Y P( t α ; D npar +t α n < T < t α ) = γ = 1 α S X + S ] Y n sendo T uma variável com distribuição t-student com n graus de liberdade, sendo ( arredondar S X n + S ) ( ) / S ( ) Y X S Y n1 n 1 + n n 1

Queremos verificar se as resistências de dois tipos de vigas de aço, A e B, são diferentes. Aplicam-se cargas (em kn/cm ) até que a viga se rompa. Considere que foram testadas = 15 vigas do tipo A e n = 0 vigas do tipo B, obtemos os valores: Técnica A Técnica B Média amostral 71,5 85,3 Variância amostral 8,6 0,8 Assuma distribuição normal para as variáveis de interesse. Conduza os testes apropriados e faça intervalos de confiança para a diferença de médias populacionais.

Comparações de médias populacionais para distribuições não-normais (dados não pareados) Sejam X e Y variáveis aleatórias independentes com E(X ) = µ x, VAR(X ) = σ x, E(Y ) = µ y e VAR(Y ) = σ y. Sejam (X 1,..., X n1 ) e (Y 1,..., Y n ) amostras de X e Y, respectivamente. Sabemos pelo teorema do limite central que para e n grandes. X µ x σ x N(0, 1) e Ȳ µ y σ y n N(0, 1).

Comparações de médias populacionais para distribuições não-normais (dados não pareados) Combinando os dois resultados temos X Ȳ N(0, 1) σx + σ y n Substituindo as variâncias desconhecidas por estimadores consistentes, temos X Ȳ N(0, 1) ˆσ x + ˆσ y n

Regiões críticas aproximadas Para as hipóteses em (1): RC = Para as hipóteses em (): RC = Para as{ hipóteses em (3): ˆσ RC = D npar < z α x + ˆσ y n { ˆσ x D npar > z α + ˆσ y n }. { } ˆσ x D npar < z α + ˆσ y n ou D npar > z α ˆσ x + ˆσ y n }.

Exemplo: Comparações de proporções Sejam X e Y variáveis Bernoulli independentes com P(X = 1) = p x e P(Y = 1) = p y. Note que µ x = p x, σ x = p x (1 p x ), µ y = p y e σ y = p y (1 p y ). Note portanto que testar as médias é equivalente a testar as proporções. Utilizamos o teste para variáveis não-normais usando: ˆσ x = x(1 x) e ˆσ y = ȳ(1 ȳ) Basta substitui-las nas fórmulas acima para cada caso pertinente para o problema de interesse.

O nível descritivo do teste (valor-p) Caso pareado: ( ) Para as hipóteses em (1): α = P T n 1 > d/ S D /n ( ) Para as hipóteses em (): α = P T n 1 < d/ S D /n ( Para as hipóteses em (3): α = P T n 1 < d / S D ). /n Caso não pareado (variâncias conhecidas): ( Para as hipóteses em (1): α = P Z > d/ ( Para as hipóteses em (): α = P Z < d/ ( Para as hipóteses em (3): α = P Z < d / σ x + σ y n ) σ x + σ y n ) σ x + σ y n ).

Caso não pareado (variâncias desconhecidas e iguais): ( ) Para as hipóteses em (1): α = P T s > d/ p + s p n ( Para as hipóteses em (): α = P T s < d/ p ( Para as hipóteses em (3): α = P T < d / ) + s p n s p + s p n ). Caso não pareado (variâncias desconhecidas e diferentes): ( ) Para as hipóteses em (1): α = P T > d/ S X + S Y n Para as hipóteses em (): α = P Para as hipóteses ( em (3): S α = P T X < d / + S Y n ). ( T < d/ S X ) + S Y n em que T e T são variáveis aleatórias com distribuição t-student cujos graus de liberdades foram definidos anteriormente.

Para variáveis que não tem distribuição normal. Caso não pareado (variâncias desconhecidas e diferentes): ( Para as hipóteses em (1): α P Z > d/ ˆσ X ( Para as hipóteses em (): α P Para as hipóteses em (3): α P Z < d/ ˆσ X ) + ˆσ Y n ( Z < d / ˆσ X Aproximação feita utilizando o teorema do limite central. ) + ˆσ Y n + ˆσ Y n ).

Testes para duas variâncias populacionais Observe que para fazer as comparações de duas médias populacionais (no caso não pareado de variâncias desconhecidas) precisamos saber se as variâncias são iguais ou diferentes. Veremos a seguir como fazer testes de hipóteses para duas variâncias populacionais de variáveis com distribuição normal. Considere X N(µ x, σ x) e Y N(µ y, σ y) cujas respectivas amostras são (X 1, X,..., X n1 ), (Y 1, Y,..., Y n ) Queremos testar as seguintes hipóteses { H0 : σx = σy H 1 : σx σy

Testes para duas variâncias populacionais Sejam (X 1, X,..., X n1 ) e (Y 1, Y,..., Y n ) as duas amostras das variáveis de interesse (com distribuição normal). Sabemos que e U 1 = ( 1) S X σ x χ ( 1) Vimos que U = (n 1) S Y σ y χ (n 1) U 1 1 U n 1 F (n1 1,n 1)

Testes para duas variâncias populacionais Portanto, S X S Y σy σx F (n1 1,n 1) Sob a hipótese nula σx = σ Y, temos que W = S X S Y F (n1 1,n 1)

Região crítica para o testes de duas variâncias populacionais A região crítica para o teste é dada por RC = {W < F 1 ou W > F } sendo que os valores F 1 e F são obtidos da tabela da distribuição F de Snedecor com 1 graus de liberdade no numerador e n 1 graus de liberdade no denominador considerando P(W < F 1 ) = P(W > F ) = α lembrando que, sob a hipótese nula, W F (n1 1,n 1).

Distribuição F O valor F é obtido diretamente usando F (n1 1,n 1) P(F (n1 1,n 1) > F ) = α O valor F 1 = 1/ F em que F é obtido da tabela F (n 1, 1). P(F (n1 1,n 1) < F 1 ) = P(F (n 1, 1) > F ) = α

Exemplo Uma pesquisadora da área de nutrição propôs uma nova dieta para aumentar o nível de zinco plasmático em pacientes deficientes dessa substância. A pesquisadora selecionou 40 pacientes com deficiência de zinco, nos 15 primeiros ela não aplicou a dieta proposta e mediu a quantidade de zinco, nos outros 5 pacientes ela aplicou a dieta proposta e mediu a quantidade de zinco. S/ dieta C/ dieta Média amostral 57,9 65,5 Variância amostral 116 18 Amostra 15 5 Verifique se as variâncias populacionais são iguais a 5% de significância estatística.