Introdução em Probabilidade e Estatística II Lista 7 Exercicio Em estudo genético um gene A foi destacado para detectar uma doença. Se dita que em pessoas doentes (pacientes) este gene mostra atividade maior de que em pessoas sadias. Para testar essa hipótese foi criado um estudo caso controle: 0 pessoas com a doença e 5 pessoas sadias. A atividade (expressão gênica) de gene A foi medida. Em grupo de pacientes deu seguintes valores: 5.9, 2.0, 7.7, 22.3, 2.8, 20.8, 8.7, 7.5, 22.5, 28.8. Em grupo de controle (pessoas sadias): 5.2, 9.3, 25.8, 3.8, 8.4, 8.8, 9.4, 5.2, 9.3, 9.6, 6., 6.5, 0., 6.9, 7.3. (a) Existe as evidencias para aceitar a hipótese com nível de signicância de 5%? e de %? Para testar hipótese assumimos que a distribuição de expressão de gene é distribuição normal com as variâncias iguais, desconhecidas. Neste problema temos duas variaveis X: Atividade (expressão gênica) de gene A em pessoas doentes (pacientes) X N(µ, σ 2 ). Y: Atividade (expressão gênica) de gene A em pessoas sadias Y N(µ 2, σ 2 ). Hipóteses nula e alternativa: As hipóteses para o modelo são:
H: µ = µ 2. A: µ µ 2. Para testar hipótese assumimos que a distribuição de expressão de gene é distribuição normal com as variâncias iguais, desconhecidas. Neste caso temos: X: n = 0 Y: m = 5 A estatística sob a hipotese H é: T = onde S p = (n )S2 +(m )S2 2 n+m 2 Calculando S p e t obs : X Y S p /n + /m t n+m 2, Sp 2 (0 )3.222 + (5 )20.788 = 0 + 5 2 20.7 5.447 t obs = 4.223. 0 + 5 = 7.828. = 5.253.7237 = 3.0474. Caso α = 5%: Para calcular a região critica usamos a tabel t-student 0.95 = P(t 23 > t 23,0.95 ) t 23,0.95 =.74, assim RC = [.74, ). Como t obs = 3.0474 RC, então rejeitamos H. Caso α = %: Para calcular a região critica usamos a tabel t-student 0.99 = P(t 23 > t 23,0.99 ) t 23,0.99 = 2.5, 2
assim RC = [2.5, ). rejeitamos H. Como t obs = 3.0474 RC, então (b) Construir intervalo de conança para diferença das médias. Caso α = 5%: Temos que t 23,0.95 =.74 e S p = 4.223, então IC 0.95 = 5.253 ±.74 4.223 0 + 5 = 5.253 ± 2.96 Caso α = %: Temos que t 23,0.99 = 2.5 e S p = 4.223, então IC 0.99 = 5.253 ± 2.5 4.223 0 + 5 = 5.253 ± 4.3 (c) Para item anterior assumimos que as variâncias são iguais. Pelos dados podemos mesmo assumir isso, por exemplo, com nível de signicância de 5%? e com %? Hipótese nula e alternativa: As hipóteses para o modelo são: H: σ = σ 2. A: σ σ 2. Da amostra temos que S 2 = 3.222 e S 2 2 = 20.788. Na prática consideramos o cociente de tal sorte que o cociente de variancia seja >. Neste caso esse cociente é : f obs = S2 2 S 2 = 20.788 3.222 =.572. 3
Caso α = 5%: Temos que α 2 = 2.5%. Usando a tabela da distribuição F temos que f 4,9 97.5% 3.67. Logo f 4,9 2.5% = f 9,4 97.5% = 3.2 = 0.35. Assim a região crítica será RC = [0, 0.35] [3.67, ). Como f obs =.572 / RC, então aceitamos H, isto é, as variancias são iguais. Caso α = %: Temos que α 2 = 0.5%. Usando a tabela da distribuição F temos que f 4,9 99.5% 6.089. Logo f 4,9 0.5% = f 9,4 99.5% = 4.77 = 0.22. Assim a região crítica será RC = [0, 0.22] [6.089, ). Como f obs =.572 / RC, então aceitamos H, isto é, as variancias são iguais. Exercicio 2 Um grupo de planejamento urbano está interessado em estimar a diferença entre a média de rendimentos familiares para dois bairros em uma grande área metropolitana. Amostras aleatórias independentes de famílias nos bairros fornecem os seguintes resultados. Bairro : n = 8, x = $5700, s = $700 Bairro 2: n 2 = 2, x 2 = $4500, s 2 = $850 (a) Desenvolva uma estimativa pontual da diferença entre a média de rendimentos nos dois bairros. 4
Estimativa pontual: x x 2 = 200. (b) Desenvolva um intervalo de conança de 95% para a diferença entre a média de rendimentos nos bairros. Calculando S p : S p = 7(700)2 + (850) 2 8 = 795.04. Para utilizar os valores de t 95% ou t 97.5%, vai depender das hipoteses H e A: Caso unilateral: Temos que t 95% =.734, então IC 95% = 200 ±.734(795.04) 8 + 2 = 200 ± 629.24. Caso bilateral: Temos que t 97.5% = 2.0, então IC 95% = (x x 2 ) ± (t 95% or t 97.5% )S p n + n 2. IC 95% = 200 ± 2.0(795.04) 8 + 2 = 200 ± 762.42. (c) Que hipótese foram feitas para calcular as estimativas por intervalo no item (b)? 5
As hipoteses foram: Bairro N(µ, σ 2 ) Bairro 2 N(µ 2, σ 2 ) As amsotras do bairro e 2 são independentes. Alem disso, as hipotese foram: Caso unilateral: H: µ = µ 2, H: µ > µ 2. Caso bilateral: H: µ = µ 2, H: µ µ 2. Exercicio 3 A Associação Nacional dos Construtores de Casas forneceu dados sobre o custo dos mais populares projetos de reforma de casas (USA Today, 7 de junho de 997). Dados de amostra sobre o custo em milhares de dólares para dois tipos de projetos de reforma são apresentadas a seguir. Cozinha: 25.2, 7.4, 22.8, 2.9, 9.7, 23.0, 9.7, 6.9, 2.8, 23.6 Quarto do Casal: 8.0, 22.9, 26.4, 24.8, 26.9, 7.8, 24.6, 2.0 (a) Desenvolva uma estimativa pontual da diferença entre os custos médios de reforma da população para os dois tipos de projetos. Cozinha (X): x = 2.2, s 2 = 7.32 Quarto de casal (Y): x = 22.8, s 2 = 2.6 Estimativa pontual: x x 2 =.6. (b) envolva o intervalo de conança de 90% para a diferença entre as duas médias da população. 6
Queremos um intervalo de conança de 90%, então α = 0%. As hipotese são: H: µ = µ 2, A: µ µ 2. IC 90% = (x x 2 ) ± t 95% S p +. n n 2 Calculando S p : S 2 p = 9 7.356+7 2.64 6 = 9.6337, então S p = 3.038. Calculando t 95% : 0.9 = P( t 95% < t 6 < t 95% ), então t 95% =.746. Portanto Exercicio 4 IC 90% =.6 ± 2.5706. Em um caso de discriminação de salários envolvendo empregados do sexo masculino e feminino, amostras independentes de empregados do sexo masculino e feminino com experiência de cinco anos ou mais forneceram os seguintes resultados de salários (em salário por hora). Empregados do Sexo F: n = 32, x = $8.7, s = $0.8 Empregados do Sexo M: n 2 = 2, x = $9.25, s 2 = $ Parece haver discriminação salarial neste caso? (a) Formule hipótese nula e alternativa. As hipotese são: H: µ = µ 2, A: µ 2 > µ. (b) Teste hipótese com α = 0.0. Calculando S p : S 2 p = 3(0.8)2 + 43() 2 74 7 = 0.8492,
então S p = 0.925. Calculando t obs : t obs = 9.25 8.7 0.925 32 + 44 = 2.569. Calculado a região crítica: 0.99 = P(t 74 > t 74, 99% ). Usando a tabela da distribuição t-student com 74 graus de liberdade, temos t 74, 99% = 2.34. Então a região crítica será RC = [2.34, ). Como t obs RC então rejeitamos H, isto é, a amostra evidencia um caso de discriminação. 8