Solução do Conjunto de Problemas 2 Parte A. Capítulo 3. 1. 66 & 71.999 2. Veja anexo (a) idade 1 : 8/5 = 1,6% idade 11 : 13/9 = 1,444% Portanto, há mais crianças na idade 1. (b) idade 21 : 10/7 = 1,4% idade 31 : 9/5 = 1,8% Portanto, há mais pessoas de 31 anos de idade. (c) mais idade 35-44 (d) cerca de 50% 4. (a) 1.8(5) + 1(5) + 0.8(10) + 0.3(10) = 9+5+8+3 = 25. Resposta: 25% (b) 99% (c) 135-140mm : 1% x 5 = 5% 140-150mm : 0,8% x 10 = 8% mais mulheres no intervalo de 140-150mm. (d) 135-140mm interval (e) 5x 2,1% = 10,5% (f) 102-103mm (g) 115-120mm 8. (a) Verdadeiro. 7,3%/5 = 1,46% (10-15), 15,6%/10 = 1,56% (15-25), 15%/10 = 1,5% (25-35)? as famílias cuja renda é entre $10.000 e $35,000 são dispersas de modo bastante homogêneo. (b) Falso. 19,2%/15 = 1,38% (35-50), 19.6%/25 = 0,78% (50-75)? a porcentagem de famílias cuja renda é entre $35,000 and $50,000 é maior que a de famílias com renda entre $50,000 e 75,000. (c) Falso. No histograma, a altura dos blocos representa a porcentagem por unidade horizontal. Aqui, a porcentagem é representada como área. Além do mais, o eixo x não é dividido pela unidade determinada. 9. (a) Verdadeiro. (b) Verdadeiro
2 (c) Você pode analisar de duas maneiras. Talvez haja muitos estudantes que estudaram apenas o suficiente para passarem de ano. Portanto, vários estudantes passaram "raspando" e receberam 2 como média de notas. Alternativamente, talvez o instrutor tenha uma tendência a ser "bonzinho" (ao contrário de seu professor) com os alunos mais fracos, dando-lhes um "C." 10. (a) veja anexo. (b) Poderia ser um relatório errôneo de entrevistados ou pesquisador. Leve em consideração o baixo nível de educação, a falta de um sistema de certidão de nascimento preciso e a falta de ferramentas precisas de censo que existiam no passado. As pessoas podem não conhecer a data do próprio nascimento com precisão, pois as certidões de nascimento nem sempre eram emitidas, e nem todo mundo sabia ler. Os entrevistados podem ter respondido sua idade arredondando a década ou a meiadécada, o que parece ser mais simples e fácil de responder (por exemplo, "por volta de 40"). Como o censo é feito em anos com final "0", pode ter havido uma tendência a responder com os anos de nascimento que terminam em zero. (c) O censo se tornou mais sofisticado com o tempo e consegue a emissão de certidões de nascimento em razão da adoção do seguro social e de outros fatores. As pessoas também estão mais esclarecidas. (d) Igual nos dois momentos. Capítulo 4. 1. (a) (41+48+50+50+54+57)/6 = 50. [{(50-41) 2 + (50-48) 2 + (50-50) 2 + (50-54) 2 + (57-50) 2 + (50-50) 2 }/6] 1/2 = 5? média = 50 e DV = 5 (b) 50 + 0,5(5) = 52,5 50-0,5(5) = 47,5? 48, 50, 50 estão dentro de DPs de 0,5 da média. 50 + 1,5(5) = 57,5 50-1,4(4) = 42,5? 48, 50, 50, 54, 57 estão dentro de DPs de 1,5 da média.. 2. (a) (ii) possui um DP menor. Como não há diferença em razão dos três 50s adicionais, e é dividido por 10 em vez de 7, ele gera um DP menor que (i). (b) (i) possui um DP menor. Dois elementos adicionais (1 e 99) aumentarão as distâncias da média 50, que excederá bastante o denominador aumentado. 3. (a) 5 (b) Considerando que a média seja 5, seu DP deveria ser por volta de 3, já que a média mais ou menos 2DP deve cobrir 95% dos dados.
3 5. Assumindo que tenha uma distribuição normal, a ligação mais baixa é 96 (124-2x14) e a ligação mais alta é 152 (124+2x14). Assim, 80mm e 210mm são, respectivamente, baixo demais e alto demais em comparação com a média. 6. (a) (i) média 60 (ii) média 50 (iii) média 40 (b) (i) média < mediano (ii) média = mediano (iii) média > mediano (c) 15 (d) Falso. (i) parece ser mais disperso, tendo uma variância maior que (iii) no gráfico. 7. (a) Média de homens = 66, DP m = 9 Média de mulheres = 55, DP f = 9 Média DP Homens 145,2 19,8 Mulheres 121 19,8 (b) 66-9 = 57, 66 + 9 = 75. Assim, 1 DP da média, o que inclui 68% dos homens. (c) Mais que 9 kg. Pergunta-se o que acontece se você reunir as duas variáveis. As duas variáveis têm o mesmo DP, mas médias diferentes. Ao contrário do fato, imagine que as duas variáveis tenham a mesma média. Agora, separe a amostra, movendo metade para a esquerda e metade para a direita em quantidades iguais, retendo o mesmo DP da amostra separada. O DP da amostra geral aumentará (ou pelo menos, é assim que se desenvolve a intuição). 10. (a) A melhor suposição é 163. (b) $8 Capítulo 8. 1. QI médio DP Maridos 100 15 Esposas 100 15
4 (a) r = 0,6 variações de x e y: 70-130 (15x2 = 30) As médias estão fora da variação. (b) A variação é muito pequena para x e y. (c) A variação é muito grande para x e y. (d) 2. (a) Diagrama de dispersão correto. Negativo. À medida que o carro fica mais velho, ele começa a "beber" combustível e a economia em gasolina diminui. Além do mais, os carros novos cumprem com os recentes padrões de economia de combustível. Os dois fatores conspiram para produzir uma correlação negativa entre idade e economia de combustível. (c) As pessoas com rendas mais altas podem comprar carros novos, que têm uma economia de gasolina maior que os carros antigos ou usados. 3. O coeficiente de correlação é 1, porque há um relacionamento linear perfeito. 6. Falso. Não há relacionamento direto entre dois coeficientes de correlação diferentes, pois os coeficientes de correlação são números padronizados. 7. Como a ordem mostrada 8. 0,62-1 -0,85 0,97 0,06-0,38 11. resposta: -1 média correta: 6,4 DP r = 2 média incorreta: 3,6 DP w = 2 correta = 10 incorreta Corr(r,w) = Cov(r,w)/(SD r xsd w ) Cov(r,w) =?(r i 6,4)(w i 3,6)/n =? (r i w i )/n (6,4)(3,6) =?r i (10-r i )/n (6,4)(3,6) =? (10r i r i 2 )/n (6,4)(3,6) = 10?r i /n -?r i 2 /n 23,04 = 10(6,4) -?r i 2 /n - 23,4?r i 2 /n = Var(r) + média(r) 2 = 4 + (6,4) 2? Var(r) =?r i 2 /n - média (r) 2? Cov(r,w) = 10(6,4) - (4+6,4 2 ) 23,04 = -4? Corr(r,w) = -4/(2x2) = -1. Intuitivamente, podemos imaginar que as respostas incorretas e as respostas corretas terão um relacionamento linear preciso.
5 Parte B. 1. e 2. devem resultar nas mesmas respostas que da parte C 3. Há um GRANDE fator externo em (1), que não é tão óbvio na versão em log. A versão em log pode ser melhor Parte C. 1. 0,566 2. 0,503 3. Gráficos anexados e veja o log abaixo. Agora é mais claro que a correlação do log é melhor, conforme descrito em B3. Log do Problema C Parte D.
6 1. Veja o arquivo ".do" e o log abaixo. A correlação correta é 0,475. O relacionamento não é bem descrito, já que a associação é claramente não linear. Colocar os dados em um gráfico faz isso ficar claro. 3. Dependendo de se você fez ou não como eu, como mostrado abaixo, ou usou a ponderação, você teria obtido os seguintes resultados corretos. De qualquer maneira, fica claro que a leitura central faz uma GRANDE diferença nos votos não contados. Weighted: 0.005, 0.057 Unweighted: 0.006, 0.061 Pset2-D do arquivo do ".do" use "E:\My Documents\17871\fla_precinct_subset.dta", clear gen resid= undervote + overvote gen resrate= resid/ total_ball corr blackrv resrate sort county save fla_precinct_subset, replace use "E:\My Documents\17871\fla_county_subset.dta", clear sort county save fla_county_subset, replace merge county using fla_precinct_subset save fla_merged, replace table centraltab, c(mean resrate) Log do Problema D. do Pset2-D. use "E:\My Documents\17871\fla_precinct_subset.dta", clear. gen resid= undervote + overvote. gen resrate= resid/ total_ball (70 missing values generated). corr blackrv resrate (obs=5816) blackrv resrate -------------+------------------ blackrv 1.0000 resrate 0.4748 1.0000. sort county. save fla_precinct_subset, replace file fla_precinct_subset.dta saved. use "E:\My Documents\17871\fla_county_subset.dta", clear. sort county. save fla_county_subset, replace file fla_county_subset.dta saved. merge county using fla_precinct_subset. save fla_merged, replace file fla_merged.dta saved. table centraltab, c(mean resrate)
7 ------------------------- CENTRAL OR PRECINCT TAB mean(resrate) ----------+-------------- 1.0063025 2.0613287 9.0420813 -------------------------. end of do-file