CE-001: Bioestatística, turma A 1 a Prova - 2 o semestre 2004 01 de outubro de 2004 Prova 1 1. (2,0 pontos) Os dados a seguir correspondem a teores de um elemento coletados em amostras de sangue de dois grupos de animais. Grupo 1 0.9 2.5 9.2 3.2 3.7 1.3 1.2 2.4 3.6 8.3 Grupo 2 5.3 6.3 5.5 3.6 4.1 2.7 2.0 1.5 5.1 3.5 (a) Faça um box-plot para cada um dos grupos (b) calcule a média, variância e coeficiente de variação para cada grupo (c) comente os dados e compare os grupos baseando-se nos resultados dos do ítem anterior > m1 <- c(0.9, 2.5, 9.2, 3.2, 3.7, 1.3, 1.2, 2.4, 3.6, 8.3) > m2 <- c(5.3, 6.3, 5.5, 3.6, 4.1, 2.7, 2, 1.5, 5.1, 3.5) > boxplot(m1, m2) > m1m <- mean(m1) > m1v <- var(m1) > m1cv <- 100 * sd(m1)/mean(m1) > m2m <- mean(m2) > m2v <- var(m2) > m2cv <- 100 * sd(m2)/mean(m2) > res <- matrix(c(m1m, m1v, m1cv, m2m, m2v, m2cv), nr = 3) > dimnames(res) <- list(c("média", "vari^ancia", "cv"), c("método 1", "Método 2")) > res Método 1 Método 2 média 3.63000 3.960000 vari^ancia 8.28900 2.531556 cv 79.31301 40.178947 Aspectos a serem comentados: comparação das médias comparação variâncias/variabilidades coeficiente da variação comparando variabilidades de grupos com médias diferentes Outros possíveis comentários
2 4 6 8 1 2 Figura 1: Box-plot dos dados dos dois grupos da Questão 1. assimetria presença (ou não) de dados discrepantes 2. (1,0 pontos) Foram coletados dados de uma medida de produtividade de 40 funcionários da linha de produção de 2 fábricas. A figura abaixo mostra os boxplot obtidos com os dados dos dois grupos. Discuta o resultado comparando os dois grupos. 40 50 60 70 80 1 2 Figura 2: Box-plot dos dados das 2 fábricas da Questão 2. Comentários mínimos a serem feitos: O grupo 1 apresenta menor valor de medida de tendência central (mediana) e maior variabilidade (amplitude interquartílica), apresentando ainda uma leve assimetria. O grupo 2 é mais homogêneo, porém apresenta 3 dados atípicos. 3. (1,5 pontos) O conjunto de dados chickwts do R mostra o resultado de um experimento conduzido para comparar a eficácia de 6 suplementos alimentares no crescimento de frangos. Os dados contém 2 colunas com: o peso dos frangos (weight) e o tipo de suplemento (feed). Carregue o conjunto de dados com o comando data(chickwts) e compare os suplementos,
justificando sua resposta com análises adequadas dos dados. (OBS: Lembre-se que para saber mais sobre estes dados voce pode usar?chickwts.) Inicialmente carregamos os dados, inspecionamos as 3 primeiras linhas do data-frame, a anexamos o objeto ao caminh de procura. > data(chickwts) > chickwts[1:3, ] weight feed 1 179 horsebean 2 160 horsebean 3 136 horsebean > attach(chickwts) Agora produzimos um reumo geral dos dados que mostra também quantos dados são disponíveis para cada grupo. Note que o número de observações por grupo é razoavelmente similar, variando de 10 a 14. Depois produzimos medidas resumo para cada grupo. > summary(chickwts) weight feed Min. :108.0 casein :12 1st Qu.:204.5 horsebean:10 Median :258.0 linseed :12 Mean :261.3 meatmeal :11 3rd Qu.:323.5 soybean :14 Max. :423.0 sunflower:12 > tapply(weight, feed, summary) $casein 216.0 277.3 342.0 323.6 370.8 404.0 $horsebean 108.0 137.0 151.5 160.2 176.3 227.0 $linseed 141.0 178.0 221.0 218.8 257.8 309.0 $meatmeal 153.0 249.5 263.0 276.9 320.0 380.0 $soybean 158.0 206.8 248.0 246.4 270.0 329.0
$sunflower 226.0 312.8 328.0 328.9 340.3 423.0 > tapply(weight, feed, sd) casein horsebean linseed meatmeal soybean sunflower 64.43384 38.62584 52.23570 64.90062 54.12907 48.83638 > tapply(weight, feed, function(x) 100 * sd(x)/mean(x)) casein horsebean linseed meatmeal soybean sunflower 19.91260 24.11101 23.87918 23.43752 21.96542 14.84765 Na sequência produzimos gráficos box-plot para cada grupo. Mostramos aqui 2 tipos de boxplot : o usual e um modificado que mostra também intervalos de confiança para mediana e larguras proporcionais à raiz quadrada do número de observações. > par(mfrow = c(1, 2)) > boxplot(weight ~ feed) > boxplot(weight ~ feed, varwidth = T, notch = T) 100 150 200 250 300 350 400 100 150 200 250 300 350 400 casein linseed soybean casein linseed soybean Figura 3: Box-plot dos dados de ganho de peso para os diferentes tipos de suplementos da Questão 3. Os resultados mostram que o grupo horsebean produziu média inferior a todos os demais. Os grupos casein e sunflower são os que apresentaram maiores médias. Os grupos horsebean e sunflower possuem menor amplitude interquartílica. O grupo sunflower foi o único que apresentou dados discrepantes (dois deles acima dos demais e um abaixo) o que explica o desvio padrão não muito inferior aos demais. Os grupos linseed e soybean apresentaram resultados semelhantes e meatmeal apresentou resultados apenas ligeiramente superiores a estes dois. 4. (3,5 pontos) Carregue o conjunto airquality que contém medidas de qualidade do ar em um certo período. Descreva cada uma das variávies de qualidade do ar individualmente. Formule 3 perguntas interessantes que envolvam 2 variáveis e as responda fazendo uma análise adequada. (OBS: Lembre-se que para saber mais sobre estes dados voce pode usar?airquality.) Carregando, visualizando parte dos dados.
> data(airquality) > airquality[1:3, ] Ozone Solar.R Wind Temp Month Day 1 41 190 7.4 67 5 1 2 36 118 8.0 72 5 2 3 12 149 12.6 74 5 3 > attach(airquality) Note que apenas as 4 primeiras colunas são variávies, sendo todas tratadas como quantitativas contínuas. Um resumo rápido dos dados é apresentado a seguir, mostrando ainda que há 37 dados falantes para Ozone e 7 para Solar.R. > summary(airquality[, 1:4]) Ozone Solar.R Wind Temp Min. : 1.00 Min. : 7.0 Min. : 1.700 Min. :56.00 1st Qu.: 18.00 1st Qu.:115.8 1st Qu.: 7.400 1st Qu.:72.00 Median : 31.50 Median :205.0 Median : 9.700 Median :79.00 Mean : 42.13 Mean :185.9 Mean : 9.958 Mean :77.88 3rd Qu.: 63.25 3rd Qu.:258.8 3rd Qu.:11.500 3rd Qu.:85.00 Max. :168.00 Max. :334.0 Max. :20.700 Max. :97.00 NA s : 37.00 NA s : 7.0 Seguem exemplos de possíveis questões de interesse: (a) Existe associação entre as variáveis? (b) Descreva as relações entre as variáveis. (c) O que pode-se dizer do comportamento das variáveis ao longo do tempo de observação. Vamos fazer um gráfico que mostre a relação entre variáveis, calcular coeficientes de correlação, > cor(airquality[, 1:4], use = "pairwise") Ozone Solar.R Wind Temp Ozone 1.0000000 0.34834169-0.60154653 0.6983603 Solar.R 0.3483417 1.00000000-0.05679167 0.2758403 Wind -0.6015465-0.05679167 1.00000000-0.4579879 Temp 0.6983603 0.27584027-0.45798788 1.0000000 > cor(airquality[, 1:4], use = "pairwise", method = "spearman") Ozone Solar.R Wind Temp Ozone 1.0000000 0.358469977-0.587889541 0.7787908 Solar.R 0.3584700 1.000000000-0.002156183 0.2079466 Wind -0.5878895-0.002156183 1.000000000-0.4465408 Temp 0.7787908 0.207946604-0.446540777 1.0000000
> plot(airquality[, 1:4]) 0 100 250 60 80 Ozone 0 50 150 0 100 250 Solar.R Wind 5 10 20 60 80 Temp 0 50 150 5 10 20 Figura 4: Relação entre variáveis de qualidade do ar da Questão 4. Solar.R não apresenta nenhuma associação com as demais variáveis. Ozone aresnta uma relação não linear com Wind (negativa) e Temp (positiva). Wind e Temp apresntam associação linear porém fraca. Para ver o comportamento das variáveis ao longo do tempo temos primeiro que criar um vetor para indicar o tempo porque nos dados originais esta informação está em 2 colunas: Month e Day. Como os dados já estão ordenados no tempo basta criar um vetor de 1 a 153 que é o total de dias de observação (que coincide com o número de linhas do data-frame). > tempo <- 1:nrow(airquality) E agora fazemos um gráfico de cada variável no tempo. Em cada gráfico adicionamos uma curva lowess qua ajuda a visualizar o a comportamento ao longo do tempo. Basicamente nenhuma variável tem uma variação clara no tempo, exceto a variável Temp
> par(mfrow = c(2, 2), mar = c(3, 3, 0.5, 0.5), mgp = c(1.7, 0.8, 0)) > plot(tempo, Ozone) > lines(lowess(ozone[!is.na(ozone)] ~ tempo[!is.na(ozone)])) > plot(tempo, Solar.R) > lines(lowess(solar.r[!is.na(solar.r)] ~ tempo[!is.na(solar.r)])) > plot(tempo, Wind) > lines(lowess(wind ~ tempo)) > plot(tempo, Temp) > lines(lowess(temp ~ tempo)) Ozone tempo Solar.R 0 50 150 250 tempo Wind 5 10 15 20 tempo Temp 60 70 80 90 tempo Figura 5: Comportamento das variáveis de qualidade do ar da Questão 4 ao longo do tempo. que mostra um comportamento aproximadamente parabólico, aumentando nos primeiros meses e decrescente no final, o que mostra a variação esperada ao longo das estações do ano. A variável Ozone mostra uma variação com padrão parecido porém menos claro, mostrando ainda uma variabilidade maior nos meses onde os valores são mais elevados. 5. (2,0 pontos) Verifique se as afirmações abaixo são verdadeiras (V) ou falsas (F) e, no caso de
falsa, corrija a afirmação. (a) o coeficiente de correlação de Pearson mede a associação entre uma variável qualitativa e uma quantitativa FALSO. O coeficiente de correlação de Pearson mede a associação entre duas variáveis quantitativas. (b) O chi-quadrado (χ 2 ) é uma medida de associação entre variáveis quantitativas. FALSO. Entre categóricas. (c) o gráfico de barras é adequado para representar variáveis qualitativas nominais FALSO. Barras para ordinais, para nominais deve ser usado o gráfico de setores ( pizza ). (d) o desvio padrão é uma medida de dispersão, enquanto que a amplitude é uma medida de posição. FALSO. Ambas são de dispersão. (e) uma das vantagens da média sobre a mediana é que a média é menos sensível a dados discrepantes FALSO. O contrário, a mediana é menos sensível.