CE-001: Bioestatística, turma A

Documentos relacionados
Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

Bioestatística CE001 Prof. Fernando de Pol Mayer Departamento de Estatística DEST Exercícios: medidas resumo Nome: GABARITO

SS714 - Bioestatística

Métodos Quantitativos II

Bioestatística Medidas de tendência central, posição e dispersão PARTE II Roberta de Vargas Zanini 11/05/2017

Módulo VII: Estatística elementar

Grupo A - I semestre de 2014 Lista de exercícios 2 - Introdução à Estatística Descritiva C A S A (gabarito)

Medidas Descritivas de Posição, Tendência Central e Variabilidade

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Grupo A - 1 semestre de 2012 Lista de exercícios 2 - Estatística Descritiva II C A S A (gabarito)

MAE116 Noções de Estatística

Lista de Exercícios Cap. 2

Capítulo 1 Estatística Descritiva. Prof. Fabrício Maciel Gomes

Estatística Computacional Profª Karine Sato da Silva

MAE0219 Introdução à Probabilidade e Estatística I

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Grupo A - 1 semestre de 2012 Lista de exercícios 1 - Introdução à Estatística Descritiva C A S A (gabarito)

Medidas Descritivas de Posição, Tendência Central e Variabilidade

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Estatística para Cursos de Engenharia e Informática

Capítulo 1. Análise Exploratória de Dados

Elementos de Estatística

Estatística Descritiva

Estatística Aplicada

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Estatística Descritiva (II)

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

MAE Introdução à Probabilidade e Estatística I 1 o semestre de 2014 Gabarito da lista de exercícios 1 - Estatística descritiva I - CASA

EXPERIMENTAÇÃO AGRÍCOLA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Estatística Aplicada

INTRODUÇÃO À ESTATÍSTICA

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

HEP Bioestatística

Aula 4: Medidas Resumo

(a) Classifique cada uma das variáveis.

Aula 05. Análise Bidimensional. Stela Adami Vayego - DEST/UFPR 1

Lista de exercicios 1 Prof.: Marcus Guimaraes Disciplina: Introdução a Estatística Econômica

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

Medidas de dispersão. 23 de agosto de 2018

MAE0219 Introdução à Probabilidade e Estatística I

CAP1: Estatística Descritiva para análise da variabilidade uma amostra de dados quantitativos

CE-003: Estatística II - Turma: AMB, Avaliações Semanais 1 o semestre/2012

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Princípios de Bioestatística Estatística Descritiva/Exploratória

ESTATÍSTICA DESCRITIVA

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Introdução à Probabilidade e Estatística I

ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE A ATITUDE E O DESEMPENHO DOS ALUNOS

Estatística Aplicada ao Serviço Social AULA 06. Estatística Descritiva - Medidas de dispersão. Universidade Federal da Paraíba

ESTATÍSTICA DESCRITIVA

Fernando de Pol Mayer

Cap. 6 Medidas descritivas

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Modelo de Relatório. Disciplina: ACH0021- Tratamento e Análise de Dados e Informações. Estrutura do trabalho

Estatística descritiva

Medidas de Dispersão. Introdução Amplitude Variância Desvio Padrão Coeficiente de Variação

ESTATÍSTICA. Tabelas e Gráficos. Elisabeti Kira - IME USP. Beti Kira (IME-USP) Estatística 18.abril.

Estatística Aplicada

Lista 8 - Introdução à Probabilidade e Estatística

Estatística Descritiva (II)

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

INTRODUÇÃO À ESTATÍSTICA: Medidas de Tendência Central e Medidas de Dispersão. Prof. Dr. Guanis de Barros Vilela Junior

Unidade III Medidas Descritivas

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

MEDIDAS DE DISPERSÃO. Os dados a seguir referem-se ao índice pluviométrico de três cidades no Estado de São Paulo, em 3 diferentes ocasiões

( ) Referem-se aos dados coletados e podem ser

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

Unidade III Medidas Descritivas

Bioestatística. Parte I. Prof a Dr a Alcione Miranda dos Santos. Abril, 2011

Estatística Descritiva (aula 2) Curso de Farmácia Prof. Hemílio Fernandes

Função prcomp. 1. Introdução

Estatística Descritiva

Métodos Quantitativos

Transcrição:

CE-001: Bioestatística, turma A 1 a Prova - 2 o semestre 2004 01 de outubro de 2004 Prova 1 1. (2,0 pontos) Os dados a seguir correspondem a teores de um elemento coletados em amostras de sangue de dois grupos de animais. Grupo 1 0.9 2.5 9.2 3.2 3.7 1.3 1.2 2.4 3.6 8.3 Grupo 2 5.3 6.3 5.5 3.6 4.1 2.7 2.0 1.5 5.1 3.5 (a) Faça um box-plot para cada um dos grupos (b) calcule a média, variância e coeficiente de variação para cada grupo (c) comente os dados e compare os grupos baseando-se nos resultados dos do ítem anterior > m1 <- c(0.9, 2.5, 9.2, 3.2, 3.7, 1.3, 1.2, 2.4, 3.6, 8.3) > m2 <- c(5.3, 6.3, 5.5, 3.6, 4.1, 2.7, 2, 1.5, 5.1, 3.5) > boxplot(m1, m2) > m1m <- mean(m1) > m1v <- var(m1) > m1cv <- 100 * sd(m1)/mean(m1) > m2m <- mean(m2) > m2v <- var(m2) > m2cv <- 100 * sd(m2)/mean(m2) > res <- matrix(c(m1m, m1v, m1cv, m2m, m2v, m2cv), nr = 3) > dimnames(res) <- list(c("média", "vari^ancia", "cv"), c("método 1", "Método 2")) > res Método 1 Método 2 média 3.63000 3.960000 vari^ancia 8.28900 2.531556 cv 79.31301 40.178947 Aspectos a serem comentados: comparação das médias comparação variâncias/variabilidades coeficiente da variação comparando variabilidades de grupos com médias diferentes Outros possíveis comentários

2 4 6 8 1 2 Figura 1: Box-plot dos dados dos dois grupos da Questão 1. assimetria presença (ou não) de dados discrepantes 2. (1,0 pontos) Foram coletados dados de uma medida de produtividade de 40 funcionários da linha de produção de 2 fábricas. A figura abaixo mostra os boxplot obtidos com os dados dos dois grupos. Discuta o resultado comparando os dois grupos. 40 50 60 70 80 1 2 Figura 2: Box-plot dos dados das 2 fábricas da Questão 2. Comentários mínimos a serem feitos: O grupo 1 apresenta menor valor de medida de tendência central (mediana) e maior variabilidade (amplitude interquartílica), apresentando ainda uma leve assimetria. O grupo 2 é mais homogêneo, porém apresenta 3 dados atípicos. 3. (1,5 pontos) O conjunto de dados chickwts do R mostra o resultado de um experimento conduzido para comparar a eficácia de 6 suplementos alimentares no crescimento de frangos. Os dados contém 2 colunas com: o peso dos frangos (weight) e o tipo de suplemento (feed). Carregue o conjunto de dados com o comando data(chickwts) e compare os suplementos,

justificando sua resposta com análises adequadas dos dados. (OBS: Lembre-se que para saber mais sobre estes dados voce pode usar?chickwts.) Inicialmente carregamos os dados, inspecionamos as 3 primeiras linhas do data-frame, a anexamos o objeto ao caminh de procura. > data(chickwts) > chickwts[1:3, ] weight feed 1 179 horsebean 2 160 horsebean 3 136 horsebean > attach(chickwts) Agora produzimos um reumo geral dos dados que mostra também quantos dados são disponíveis para cada grupo. Note que o número de observações por grupo é razoavelmente similar, variando de 10 a 14. Depois produzimos medidas resumo para cada grupo. > summary(chickwts) weight feed Min. :108.0 casein :12 1st Qu.:204.5 horsebean:10 Median :258.0 linseed :12 Mean :261.3 meatmeal :11 3rd Qu.:323.5 soybean :14 Max. :423.0 sunflower:12 > tapply(weight, feed, summary) $casein 216.0 277.3 342.0 323.6 370.8 404.0 $horsebean 108.0 137.0 151.5 160.2 176.3 227.0 $linseed 141.0 178.0 221.0 218.8 257.8 309.0 $meatmeal 153.0 249.5 263.0 276.9 320.0 380.0 $soybean 158.0 206.8 248.0 246.4 270.0 329.0

$sunflower 226.0 312.8 328.0 328.9 340.3 423.0 > tapply(weight, feed, sd) casein horsebean linseed meatmeal soybean sunflower 64.43384 38.62584 52.23570 64.90062 54.12907 48.83638 > tapply(weight, feed, function(x) 100 * sd(x)/mean(x)) casein horsebean linseed meatmeal soybean sunflower 19.91260 24.11101 23.87918 23.43752 21.96542 14.84765 Na sequência produzimos gráficos box-plot para cada grupo. Mostramos aqui 2 tipos de boxplot : o usual e um modificado que mostra também intervalos de confiança para mediana e larguras proporcionais à raiz quadrada do número de observações. > par(mfrow = c(1, 2)) > boxplot(weight ~ feed) > boxplot(weight ~ feed, varwidth = T, notch = T) 100 150 200 250 300 350 400 100 150 200 250 300 350 400 casein linseed soybean casein linseed soybean Figura 3: Box-plot dos dados de ganho de peso para os diferentes tipos de suplementos da Questão 3. Os resultados mostram que o grupo horsebean produziu média inferior a todos os demais. Os grupos casein e sunflower são os que apresentaram maiores médias. Os grupos horsebean e sunflower possuem menor amplitude interquartílica. O grupo sunflower foi o único que apresentou dados discrepantes (dois deles acima dos demais e um abaixo) o que explica o desvio padrão não muito inferior aos demais. Os grupos linseed e soybean apresentaram resultados semelhantes e meatmeal apresentou resultados apenas ligeiramente superiores a estes dois. 4. (3,5 pontos) Carregue o conjunto airquality que contém medidas de qualidade do ar em um certo período. Descreva cada uma das variávies de qualidade do ar individualmente. Formule 3 perguntas interessantes que envolvam 2 variáveis e as responda fazendo uma análise adequada. (OBS: Lembre-se que para saber mais sobre estes dados voce pode usar?airquality.) Carregando, visualizando parte dos dados.

> data(airquality) > airquality[1:3, ] Ozone Solar.R Wind Temp Month Day 1 41 190 7.4 67 5 1 2 36 118 8.0 72 5 2 3 12 149 12.6 74 5 3 > attach(airquality) Note que apenas as 4 primeiras colunas são variávies, sendo todas tratadas como quantitativas contínuas. Um resumo rápido dos dados é apresentado a seguir, mostrando ainda que há 37 dados falantes para Ozone e 7 para Solar.R. > summary(airquality[, 1:4]) Ozone Solar.R Wind Temp Min. : 1.00 Min. : 7.0 Min. : 1.700 Min. :56.00 1st Qu.: 18.00 1st Qu.:115.8 1st Qu.: 7.400 1st Qu.:72.00 Median : 31.50 Median :205.0 Median : 9.700 Median :79.00 Mean : 42.13 Mean :185.9 Mean : 9.958 Mean :77.88 3rd Qu.: 63.25 3rd Qu.:258.8 3rd Qu.:11.500 3rd Qu.:85.00 Max. :168.00 Max. :334.0 Max. :20.700 Max. :97.00 NA s : 37.00 NA s : 7.0 Seguem exemplos de possíveis questões de interesse: (a) Existe associação entre as variáveis? (b) Descreva as relações entre as variáveis. (c) O que pode-se dizer do comportamento das variáveis ao longo do tempo de observação. Vamos fazer um gráfico que mostre a relação entre variáveis, calcular coeficientes de correlação, > cor(airquality[, 1:4], use = "pairwise") Ozone Solar.R Wind Temp Ozone 1.0000000 0.34834169-0.60154653 0.6983603 Solar.R 0.3483417 1.00000000-0.05679167 0.2758403 Wind -0.6015465-0.05679167 1.00000000-0.4579879 Temp 0.6983603 0.27584027-0.45798788 1.0000000 > cor(airquality[, 1:4], use = "pairwise", method = "spearman") Ozone Solar.R Wind Temp Ozone 1.0000000 0.358469977-0.587889541 0.7787908 Solar.R 0.3584700 1.000000000-0.002156183 0.2079466 Wind -0.5878895-0.002156183 1.000000000-0.4465408 Temp 0.7787908 0.207946604-0.446540777 1.0000000

> plot(airquality[, 1:4]) 0 100 250 60 80 Ozone 0 50 150 0 100 250 Solar.R Wind 5 10 20 60 80 Temp 0 50 150 5 10 20 Figura 4: Relação entre variáveis de qualidade do ar da Questão 4. Solar.R não apresenta nenhuma associação com as demais variáveis. Ozone aresnta uma relação não linear com Wind (negativa) e Temp (positiva). Wind e Temp apresntam associação linear porém fraca. Para ver o comportamento das variáveis ao longo do tempo temos primeiro que criar um vetor para indicar o tempo porque nos dados originais esta informação está em 2 colunas: Month e Day. Como os dados já estão ordenados no tempo basta criar um vetor de 1 a 153 que é o total de dias de observação (que coincide com o número de linhas do data-frame). > tempo <- 1:nrow(airquality) E agora fazemos um gráfico de cada variável no tempo. Em cada gráfico adicionamos uma curva lowess qua ajuda a visualizar o a comportamento ao longo do tempo. Basicamente nenhuma variável tem uma variação clara no tempo, exceto a variável Temp

> par(mfrow = c(2, 2), mar = c(3, 3, 0.5, 0.5), mgp = c(1.7, 0.8, 0)) > plot(tempo, Ozone) > lines(lowess(ozone[!is.na(ozone)] ~ tempo[!is.na(ozone)])) > plot(tempo, Solar.R) > lines(lowess(solar.r[!is.na(solar.r)] ~ tempo[!is.na(solar.r)])) > plot(tempo, Wind) > lines(lowess(wind ~ tempo)) > plot(tempo, Temp) > lines(lowess(temp ~ tempo)) Ozone tempo Solar.R 0 50 150 250 tempo Wind 5 10 15 20 tempo Temp 60 70 80 90 tempo Figura 5: Comportamento das variáveis de qualidade do ar da Questão 4 ao longo do tempo. que mostra um comportamento aproximadamente parabólico, aumentando nos primeiros meses e decrescente no final, o que mostra a variação esperada ao longo das estações do ano. A variável Ozone mostra uma variação com padrão parecido porém menos claro, mostrando ainda uma variabilidade maior nos meses onde os valores são mais elevados. 5. (2,0 pontos) Verifique se as afirmações abaixo são verdadeiras (V) ou falsas (F) e, no caso de

falsa, corrija a afirmação. (a) o coeficiente de correlação de Pearson mede a associação entre uma variável qualitativa e uma quantitativa FALSO. O coeficiente de correlação de Pearson mede a associação entre duas variáveis quantitativas. (b) O chi-quadrado (χ 2 ) é uma medida de associação entre variáveis quantitativas. FALSO. Entre categóricas. (c) o gráfico de barras é adequado para representar variáveis qualitativas nominais FALSO. Barras para ordinais, para nominais deve ser usado o gráfico de setores ( pizza ). (d) o desvio padrão é uma medida de dispersão, enquanto que a amplitude é uma medida de posição. FALSO. Ambas são de dispersão. (e) uma das vantagens da média sobre a mediana é que a média é menos sensível a dados discrepantes FALSO. O contrário, a mediana é menos sensível.