Introdução em Probabilidade e Estatística II Lista 6 Exercicio 1 O tempo residual do efeito de um agrotóxico está sendo analisado. Estudos anteriores, com produtos similares, indicam que o modelo exponencial em que a probabilidade do tempo residual nos intervalos [0, 1), [1, 2), [2, 3), [3, 4), [4, 5), [5, 6) e [6, ) são, respectivamente, 0.283; 0.203; 0.146; 0.104; 0.075; 0.054 e 0.135 é adequado. Para verificar se esse modelo também é indicado para o agrotóxico em estudo, foi feita uma análise em laboratório de uma amostra de 300 aplicações do agrotóxico, obtendo os seguintes resultados: Faixas de Frequência Frequência tempo observada (O i ) esperada (E i = N p i ) I 1 = [0, 1) 89 84.9 I 2 = [1, 2) 60 60.9 I 3 = [2, 3) 43 43.8 I 4 = [3, 4) 40 31.2 I 5 = [4, 5) 25 22.5 I 6 = [5, 6) 22 16.2 I 7 = [6, ) 21 40.5 Tabela 1: Tabela de frequências. (a) Se o modelo exponencial for adequado, quantas amostras são esperadas com tempo residual no intervalo [3, 4). E 1
no intervalo [0, 1)? E quantas foram observadas em cada caso?. Se o modelo for adequado, no intervalo [3, 4) se espera uma frequência de 31.2. No intervalo [0, 1) se espera uma frequência de 84.9. Nos outros casos ver tabela 1. (b) Formule as hipóteses estatísticas H e A de um teste de hipóteses apropriado ao problema. Hipóteses nula e alternativa: As hipóteses para o modelo são: H: O modelo exponencial é adequado. p I1 = 0.283, p I2 = 0.203,..., p I6 = 0.054, p I7 = 0.135. A: Existem i, j tal que p Ii p Ij, ou equivalentemente, o modelo exponencial não é adequado. (c) Para o teste das hipóteses formuladas acima, obtenha o valor observado da estatística χ 2 (especifique o número de graus de liberdade) e o correspondente nível descritivo (valor P). A estatística do teste de aderência é χ 2 = 7 i=1 (O i E i ) 2 E i. Onde χ 2 χ 2 q com q = 7 1 = 6 graus de liberdade. 2
O nivel descriptivo ou valor P : P = P(χ 2 6 χ 2 obs ). Para calular χ 2 obs usamos a tabela 1. Assim obtemos χ 2 obs = 14.452. Usando a tabela da distribuição χ 2 6, obtemos P = P(χ 2 6 χ 2 obs) 2.5%. (d) Com base no valor encontrado para o nível descritivo, qual é a conclusão sobre suas hipóteses, considerando nível de significância de 5%? Nível de significância: α = 5% Como P = 2.5% < 5% rejeitamos a hipotese nula H, isto é, não podemos usar o modelo exponencial para o novo agrotóxico. Temos evidencia que modelo exponencial não é adequado. Exercicio 2 Um certo jornal faz pesquisas sobre temas polêmicos entre seus leitores. Em uma dessas pesquisas, o sofrimento animal foi um tema abordado. A pergunta feita aos leitores citava um artigo do filósofo Adam Shriver, publicado recentemente no periódico Neuroethics. A pergunta feita aos leitores foi: O filósofo Adam Shriver afirma em um novo artigo que a biotecnologia deveria criar animais incapazes de sentir dor para serem usados em pecuária. Você concorda com a ideia? O leitor deveria escolher uma dentre as alternativas abaixo: 1. Sim. É moralmente correto fazer todo o possível para evitar dor e sofrimento em animais. 3
2. Depende. Isso só vale se a biotecnologia eliminar também o sofrimento mental de viver em confinamento. Não é apenas a dor física do abate e de maus tratos que afeta animais de fazenda. 3. Não. A questão moral vai além da dor. Os humanos não devem ter o direito de manipular nem matar animais. 4. Não. Criar animais sem dor é perda de tempo. Não há diferença entre matar vegetais e animais só porque uns podem sentir dor e outros não. 5. Não concordo com nenhuma das alternativas acima. De 700 leitores que responderam essa pesquisa, os seguintes resultados foram encontrados: Medio Superior Posgraduação Total completo completo completo 1 19 27 14 60 2 22 31 17 70 3 106 156 84 346 4 9 16 7 32 5 48 79 65 192 Total 204 309 187 700 Tabela 2: Resultados da pesquisa. (a) Dê uma estimativa para a proporção de leitores deste jornal que concordam com a resposta (3) entre os que têm apenas o ensino médio completo. Calcule também uma estimativa 4
para essa proporção entre os leitores com pós-graduação completa. Proporção de leitores deste jornal que concordam com a resposta (3) entre os que têm apenas o ensino médio completo. 106 204 = 0.5196. Proporção de leitores deste jornal que concordam com a resposta (3) entre os que têm posgraduação completo 84 187 = 0.4492. (b) Se a escolaridade não interfere na opinião dos leitores deste jornal sobre sofrimento animal, quantos leitores com ensino superior completo você esperaria que escolhessem a alternativa (5)? E quantos leitores com ensino médio? Quantos foram observados?. Neste problema temos duas variaveis X: resposta da pesquisa, Y: escolaridade das pessoas. Supondo que as variaveis X, Y são independientes, temos e E 5,superior = E 5,ensino medio = 192 309 700 192 204 700 = 84.75 = 55.954 (c) Formule as hipótese H e A adequadas a esta situação. 5
Hipóteses nula e alternativa: H: As variaveis X, Y são independentes. A: As variaveis X, Y não são independentes. (d) Por meio de um teste estatístico apropriado, conclua sobre suas hipóteses calculando o nível descritivo. Utilize um nível de significância de 5%. Comente. A estatística do teste de independência é χ 2 = 5 i=1 3 j=1 (O ij E ij ) 2 E ij. Onde χ 2 χ 2 q com q = (5 1) (3 1) = 8 graus de liberdade. Nivel descritivo: P = P(χ 2 8 χ 2 obs ). Calculando todos os valores E ij obtemos χ 2 obs = 7.50862 então P = P(χ 2 8 7.50862) = 48%. Regra de decisão: Se P α, então rejeitamos H. Se P > α, então aceitamos H. Como P = P(χ 2 8 7.50862) = 48% > 5%, existe evidencia na amostra para aceitar a independência das variaveis X e Y. Exercicio 3 Uma pesquisa realizada entre estudantes da USP foi conduzida 6
no ano de 2009, sendo que um dos objetivos era verificar a existência de associação entre a área do curso e o uso de álcool. Para isso, uma amostra de 3715 alunos foi selecionada e os alunos responderam um questionário. Dos 958 alunos de cursos da área biológica (exceto medicina), 623 disseram ter utilizado álcool nos últimos 30 dias. Dentre os alunos de ciências exatas, 457 disseram não ter ingerido álcool nos últimos 30 dias e, finalmente, 962 dos 1373 alunos de cursos de ciências humanas disseram ter ingerido bebidas alcoólicas nos últimos 30 dias. (a) Escreva as informações da pesquisa em uma tabela de distribuição conjunta de frequências. No Si Total Biologia 335 623 958 310.222 647.78 Exatas 457 927 1384 448.17 935.83 Humanas 411 962 1373 444.61 928.39 Total 1203 2512 3715 Tabela 3: Resultados da pesquisa. Os números vermelhos são os valores esperados sob hipotese H (b) Qual é a proporção de alunos que disseram ter ingerido álcool nos últimos 30 dias? Dentre os alunos de ciências humanas, qual é essa proporção? 7
Proporção de alunos que disseram ter ingerido álcool nos últimos 30 dias 2512 3715 = 0.67618. Proporção dentre os alunos de ciências humanas que disseram ter ingerido álcool nos últimos 30 dias 962 1373 = 0.70066. (c) Formule hipóteses H e A adequadas para a situação Neste problema temos duas variaveis X: uso do alcool, Y: área do curso. Hipóteses nula e alternativa: H: As variaveis X, Y são independentes. A: As variaveis X, Y não são independentes. (d) Se não há associação entre área do curso e uso de álcool, quantos alunos do curso de ciências exatas espera-se que usem álcool? E exatas, usam alcool = 1384 2512 3715 = 935.83. (e) Por meio do nível descritivo, conclua sobre suas hipóteses, adotando um nível de significância igual a 1%. Qual o número de graus de liberdade associado ao teste utilizado? 8
A estatística do teste de independência é 3 2 χ 2 (O ij E ij ) 2 =. E ij i=1 j=1 Onde χ 2 χ 2 q com q = (3 1) (2 1) = 2 graus de liberdade. Nivel descritivo: P = P(χ 2 2 χ 2 obs ). Calculando todos os valores E ij obtemos χ 2 obs = 6.9418 então P = P(χ 2 2 6.9418) 3%. Regra de decisão: Se P α, então rejeitamos H. Se P > α, então aceitamos H. Como P = P(χ 2 2 6.9418) = 3% > 1%, existe evidencia na amostra para aceitar a independência das variaveis X e Y. Exercicio 4 Quatro máquinas de grande porte trabalham de forma independente e ao fim da jornada de trabalho, são vistoriadas pelo controle de qualidade e, se necessário, as máquinas são ajustadas. Das informações arquivadas pela empresa, sorteamos 22 dias e anotamos o número de máquinas que sofreram ajuste nesses dias. Os dados são apresentados na tabela abaixo. O engenheiro de manutenção pretende verificar se o número de máquinas ajustadas em um dia segue uma distribuição binomial com n = 4 e p = 0.1. Especifique as hipóteses estatísticas H e A apropriadas e conclua com base no nível descritivo, considerando nível de significância de 4%. 9
0 1 2 3 4 frequência 13 6 2 1 0 14.432 6.424 1.078 0.088 0.0022 Tabela 4: Resultados da pesquisa. Os números vermelhos são os valores esperados sob hipotese H Tamanho da amostra: n = 22 Hipóteses nula e alternativa: H: O número de máquinas ajustadas em um dia segue uma distribuição binomial com n = 4 e p = 0.1. A: O número de máquinas ajustadas em um dia NÃO segue uma distribuição binomial com n = 4 e p = 0.1. A estatística do teste de aderência é 5 χ 2 (O i E i ) 2 =. E i i=0 Onde χ 2 χ 2 q com q = (5 1) = 4 graus de liberdade. Nivel descritivo: P = P(χ 2 4 χ 2 obs ). Calculando todos os valores E i obtemos χ 2 obs = 10, 367 então P = P(χ 2 4 10, 367) 4%. Regra de decisão: Se P α, então rejeitamos H. Se P > α, então aceitamos H. Como P = P(χ 2 4 10, 367) 4%, não há evidencia na amostra para aceitar que o número de máquinas ajustadas em um dia segue uma distribuição binomial com n = 4 e p = 0.1. 10