MAE116 - Noções de Estatística Grupo A - 1 semestre de 2015 Gabarito da Lista de exercícios 10 - Introdução à Estatística Descritiva - CASA Exercício 1. (2 pontos) Sabe-se que, historicamente, 18% dos estudantes ingressantes em certa universidade cursaram o ensino médio em escola pública. Com o objetivo de vericar se essa porcentagem se alterou, uma amostra aleatória de 400 calouros (ingressantes em 2014) foi coletada. Seja p a proporção de estudantes, ingressantes nessa universidade em 2014, que cursaram o ensino médio em escola pública. a. Dena as hipóteses estatísticas adequadas ao problema. Seja p: proporção de estudantes da universidade que cursaram o ensino médio em escola pública. As hipóteses estatísticas do teste são: H 0 : p = 0, 18 H 1 : p 0, 18 b. Suponha que entre os 400 estudantes, observou-se o seguinte resultado: Escola Frequência Pública 54 Particular 346 Total 400 Utilizando o nível descritivo, qual é a conclusão, adotando α = 5%? Estimativa de p: ˆp = 54 = 0, 135 (proporção amostral) 400 Nivel descritivo: P = P (ˆp 0, 135 ou ˆp 0, 225 p = 0, 18) = 0, 135 0, 18 2 P Z 0,18 0,82 400 = 2 P (Z 2, 34) = 2 (1 A(2, 34)) = 2 (1 0, 9904) = 2 0.0096 = 0, 0192. 1
Para α = 0.05, temos que o valor P é menor que 0, 05, decidimos por rejeitar a hipótese nula H 0, ou seja, concluímos que há evidência suciente para se armar que houve uma mudança na proporção de alunos da universidade, que cursaram ensino público, ao nível de signicância de 5%. c. Construa um intervalo de conança para a proporção de alunos que cursaram o ensino médio em escola pública. Use coeciente de conança de 95%. Ao nível de conança γ = 0, 95, temos que z = 1, 96 e ˆp = 0, 135, o Intervalo de Conança (IC) é dado por : ] ˆp(1 ˆp) ˆp(1 ˆp) IC(p; γ) = ˆp z ; ˆp + z n n ] 0, 135(1 0, 135) 0, 135(1 0, 135) IC(p; 0, 95) = 0, 135 1, 96 ; 0, 195 + 1, 96 400 400 = 0, 135 0, 0335 ; 0, 135 + 0.0335] = 0, 1015 ; 0, 1685] Temos então que a estimativa intervalar para p é 0, 1015 ; 0, 1685] com 95% de conança. 2
Exercício 2. (2 pontos) Uma companhia farmacêutica está interessada em investigar se uma nova droga tem a propriedade de baixar a taxa de colesterol. Um dos estudos dessa pesquisa foi conduzido com 15 pacientes, sendo medida a taxa de colesterol no inicio do experimento (antes de tomar a droga) e após 2 meses tomando o medicamento. Os decréscimos observados nas taxas de colesterol (taxa após 2 meses menos a taxa inicial) foram: -4; -9; 3; 1; -2; 2; -2; 0; -6; -3; 1; -5; 2; 0; -7. a. Quais são as hipóteses estatísticas adequadas ao problema? Seja a v.a. D: diferença entre taxas de colesterol de após 2 meses tomarem a nova droga, em relação ao início do tratamento, sem ter tomado a nova droga e µ é a média da variável diferença na taxa de colesterol 2 meses após o uso da nova droga em relação do antes de tomar a droga. As hipóteses a serem testadas são dadas por H 0 : µ = 0, H 1 : µ < 0. Em palavras, poderíamos entender H 0 e H 1 da seguinte forma: H 0 : A nova droga não altera a taxa de colesterol dos individuos que a utilizam. H 1 : A nova droga tem a propriedade de baixar a taxa de colesterol. b. Quais suposições são necessárias para realizar o teste? Supomos que os 15 pacientes tenham sido escolhidos ao acaso, isto é, de maneira aleatória. Como o tamanho de amostra é pequena (n=15) o TCL não pode ser utilizado. Faremos, então, a suposição que a variável aleatória D pode ser modelada pela distribuição normal. Como nada foi informado sobre o desvio padrão σ de D, utilizamos o desvio padrão amostral das diferenças s, como uma estimativa de σ. Portanto, a variável utilizada no teste é T = X µ 0 s/ n t n 1, sob H 0. c. Calcule o nível descritivo do teste e conclua a um nível de signicância de 5%. Interprete sua conclusão em termos práticos. Se necessário construa intervalo de 90% de conança apropriado. Dos dados amostrais temos que a média amostral é d = 4 + 9 +... + 0 + ( 7) 15 = 29 15 = 1, 933 e 3
n (d i d) 2 i=1 s = n 1 = ( 4 + 1, 933) 2 +... + ( 7 + 1, 933) 2 14 = 186, 933 14 = 3, 6541. Assim, o nível descritivo para esse teste será dado por P = P ( ( ) X 1, 933 µ = 0 = P T ) 1, 9333 15 3, 6541 = P (T 2, 049) = 0, 02984446, onde T tem distribuição t Student com n 1 = 15 1 = 14 graus de liberdade. O cálculo exato da probabilidade dada acima pode ser obtido pelo Rcmdr pela sequência: Distribuições Distrib. Contínua Distrib. t Probabilidades da Distrib. t valor = -2.049, graus de liberdade 14, cauda inferior. Pela tabela da t-student, pode ser visto que P < 0, 05, pois o valor 2, 049 > 1, 761 com 1 A = P = 0.05. Assim, como P < α = 0, 05, há evidências para rejeitarmos H 0 ao nível de signicância de 5%, ou seja, ao nível de signicância de 5%, há evidências de que a nova droga tem a propriedade de baixar a taxa de colesterol. Intervalo de 90% de conança para µ. Lembre-se que, nessas condições, um intervalo com coeciente de conança γ para µ ca, de modo geral, dada por ] s s IC(µ, γ) = x t n 1 ; x + t n 1 n n Nesse caso, temos γ = 90%, n = 20, x = 1, 9333 e s = 3, 6541. Ademais, pela Tabela da t Student com 14 graus de liberdade, segue que, para γ = 90%, t 14 = 1, 761. Portanto, IC(µ, γ = 90%) = ] 3, 6541 3, 6541 1, 9333 1, 761 ; 1, 9333 + 1, 761 = 3, 5945 ; 0, 2715]. 15 15 Ademais, o fato do intervalo construído conter apenas valores negativos rearma o que já havia sido estabelecido no teste de hipóteses realizado acima, isto é, há evidências de que a nova droga tem a propriedade de baixar a taxa de colesterol. 4
(3 pontos) Num programa de diminuição da poluição sonora em cidades grandes, realizou-se uma campanha educativa durante 2 meses. A tabela abaixo apresenta os índices de poluição alcançados antes e após a campanha, em 40 pontos da cidade sorteados ao acaso. Exercício 3. Pontos Antes Depois Pontos Antes Depois Pontos Antes Depois Pontos Antes Depois 1 23 21 11 38 31 21 20 22 31 70 62 2 44 30 12 69 65 22 52 44 32 61 53 3 56 45 13 33 29 23 28 27 33 32 22 4 34 35 14 42 39 24 37 29 34 24 26 5 25 26 15 55 41 25 44 38 35 53 47 6 67 50 16 26 26 26 65 60 36 47 40 7 21 23 17 62 51 27 48 41 37 29 30 8 23 22 18 21 22 28 27 26 38 34 26 9 73 57 19 39 36 29 39 31 39 49 37 10 58 46 20 45 34 30 61 49 40 52 49 Descreva o procedimento de testes de hipóteses estatístico adequado para vericar se a campanha surtiu efeito e, utilizando o nível descritivo, qual é a conclusão ao nível de 6%? (Dica: Exercício 3 da lista de classe) A companha surtiu efeito se o índice depois é menor do índice antes da campanha, ou seja, µ = µ D µ A < 0. A Tabela seguinte mostra as diferencias observadas entre os índices de polução antes e depois da campanha educativa, dos 40 pontos da cidade. Pontos d Pontos d Pontos d Pontos d 1-2 11-7 22 2 31-8 2-14 12-4 44-8 32-8 3-11 13-4 27-1 33-10 4 1 14-3 29-8 34 2 5 1 15-14 38-6 35-6 6-17 16 0 60-5 36-7 7 2 17-11 41-7 37 1 8-1 18 1 26-1 38-8 9-16 19-3 31-8 39-12 10-12 20-11 49-12 40-3 Seja D: a diferença entre os índices de poluição, medidas depois da campanha menos o índice antes da campanha e µ é a diferencia média dos índices de poluição depois e antes da companha educativa. Então, as hipoteses estatísticas do teste são: H 0 : µ = 0, H 1 : µ < 0. Em palavras podemos entender H 0 e H 1 da seguinte forma H 0 : A companha educativa não alterou o índice de poluição H 1 : A companha educativa diminuiu o índice de polução Estatística de teste: X Nível de signicância : α = 0, 06 5
Evidência amostral: Tamanho de amostra: n = 40 Média amostral: x obs = 5, 95 Desvio padrão amostral: s = 5, 373 Cálculo do nível descrito P. A região crítica é da forma RC = {X k}. Portanto, o nível descritivo ou valor P é calculado por: P = P (X 5, 95 µ = 0) = P ( X µ S/ n = P (T 7, 00) 1, 2798 10 12 0, 0000 Decisão e conclusão: Como P α, rejeitamos H 0. 5, 95 0 5, 373/ 40 ) Logo ao nível de 6%, há evidências sucientes para concluir que a campanha educativa surtiu efeito, ou seja, diminuiu o índice de polução da cidade. 6
Exercício 4. (3 pontos) Considere o problema descrito no Exemplo 2 da Aula 2. Os dados estão disponíveis no arquivo CEA08P05.xls. Dos levantamentos dos últimos anos nas varas dessa Comarca, o tempo médio (em dias) desde a entrada do processo até a audiência preliminar era 200 dias. Recentemente, foram implantadas algumas medidas com o intuito de diminuir esse tempo. a. (a) Formule esse problema como um problema de teste de hipóteses, especicando o parâmetro que está sendo testado. Temos que X é o tempo (em dias) desde a entrada do processo até a audiência preliminar, após implantação das medidas, na Comarca de São Bernardo do Campo. Então as hipóteses são H 0 : µ = 200, H 1 : µ < 200, sendo µ: tempo médio em dias do início ate a 1 a audiência, após implantação de medidas na Comarca da São Bernardo do Campo. b. (b) Interprete os erros. Erro tipo I: Rejeitar H 0 quando H 0 é verdadeira. Armar que o tempo médio desde a entrada do processo ate a audiência preliminar, após mudanças diminuiu em relação ao padrão histórico, quando na verdade o tempo médio não se alterou, ou seja, µ = 200. Erro tipo II: Não rejeita H 0 quando H 0 é falsa. Armar que o tempo médio desde a entrada do processo até a audiência preliminar, apos mudanças se manteve no padrão histórico quando, na verdade, ele diminuiu µ < 200. c. Usando as informações pertinentes do arquivo, calcule o nível descritivo e conclua a um nível de signicância de 5%? Estatística de teste: média amostral X Nível de signicância : α = 0, 05 Evidência amostral: Tamanho de amostra: n = 184 Média amostral: x obs = 166, 277 Desvio padrão amostral: s = 220, 492 Cálculo do nível descrito P. A região crítica é da forma RC = {X k}. Portanto, o nível descritivo ou valor P é calculado por: P = P (X 166, 277 µ = 200). 7
Como não temos informação que X é normal, e desconhecemos σ, sendo o tamanho da amostra grande, então temos pelo TCL que P = P ( X µ S/ n = P (Z 2, 07) = 0, 0192 166, 277 200 220, 492/ 184 ) Decisão e conclusão: Para α = 0.05, P < α então H 0 é rejeitada, ou seja, há evidências sucientes para concluir que o tempo médio desde a entrada do processo até a audiência preliminar, após implementação de medidas é menor que 200, indicando que, as medidas implantadas surtiram o efeito desejado. d. Se as medidas implantadas surtiram o efeito desejado, encontre uma estimativa intervalar do tempo médio atual, com 90% de conança. Considerando as mesmas condições em (c), um intervalo de conança com coeciente de conança γ para µ é expresso por IC(µ, γ) = x z s ; x + z s ] n n IC(µ, γ = 90%) = ] 220, 492 220, 492 166, 277 1, 64 ; 166, 277 + 1, 64 184 184 = 139, 679 ; 192, 935]. Como esperado, o IC não contem o valor 200. 8