ESTATÍSTICA I LISTA DE EXERCÍCIOS 1 GABARITO 1. Para o cojuto de dados abaixo, determie: Produtividade da cultura da soja (kg por hectare) 3600 3545 3658 3498 3657 345 3785 354 366 3641 3687 3698 361 3654 3554 3569 3598 3578 3567 3574 (a) Classificação da variável. (b) A média. (c) A variâcia. (d) O coeficiete de variação. (a) Quatitativa cotíua. (b) (c) S = X = i=1 X i = 7149 i=1(x i X) 0 = 3571.45 1 = 3740.95 0 1 = 1731.734 (d) CV = S X 100 = 1731.734 3571.45 = 3.676%. Os dados em rol relacioados a seguir referem-se à produção diária de leite de vacas da raça Holadesa obtida em duas ordehas, em kg. 4.0 4.5 5.0 5.0 5.0 5.5 6.0 6.0 6.5 6.5 6.5 6.5 7.0 7.0 7.0 7.0 7.0 7.0 7.5 8.5 9.0 9.0 9.0 9.5 10.0 10.0 10.5 10.5 11.0 1.0 1.5 13.0 13.0 Calcule o coeficiete de variação desse cojuto de dados. O coeficiete de variação é calculado da seguite forma: > media <- mea(leite) > desvio <- sd(leite) > media 1
[1] 8 > desvio [1].5373 > desvio / media * 100 # coeficiete de variaç~ao [1] 31.7159 X = i=1 X i ( i=1 Xi X ) S = 1 = 64 33 = 8 = 06 33 1 =.537 CV = S X 100 =.537 8 100 = 31.715% 3. A tabela seguite apreseta a produção de café, em milhões de toeladas, a região DELTA. Ao To. 1 199 1 1993 15 3 1994 18 4 1995 5 1996 17 6 1997 14 7 1998 18 8 1999 3 9 000 9 10 001 1 (a) Calcule o valor da produção média. (b) Calcule o valor da mediaa da produção. (c) Calcule o valor do desvio padrão da produção.
> mea(cafe) # média [1] 18 > media(cafe) # mediaa [1] 17.5 > sd(cafe) # desvio-padr~ao [1] 5.374838 (a) X = i=1 X i = 180 10 = 18 (b) Md = (c) S = X ( ) +X ( +1 ) i=1(x i X) = X (5)+X (6) = 17+18 = 17.5 = 60 = 8.889 = 5.375 1 10 1 4. Foi realizado a região Oeste do Paraá, o Muicípio de Marechal Câdido Rodo, em 199, um levatameto da produtividade leiteira diária de 30 produtores rurais, atedidos pelo plao Paela Cheia (Roesler, 1997). Os resultados da produção diária dos 30 produtores estão apresetados a seguir: 3.83 4.08 4.59 5.80 7.81 6.31 8.37 7.50 9.30 5.98 6.78 5.3 7.50 6.6.80 6.51 5.7 5.44 6.08 6.66 8.49 3.86.91 5.8 7.47 6.5 6.61 7.80 5.6 8.3 Faça uma represetação gráfica para os dados. Serão apresetadas duas alterativas de resposta: > hist(paela) 3
Histogram of paela Frequecy 0 4 6 8 4 6 8 10 paela > boxplot(paela) 3 4 5 6 7 8 9 5. Um talhão de 3 hectares de caa-de-açúcar foi subdividido em parcelas de 1000 m cada uma. As produções dessas parcelas, em toeladas, foram as que se seguem: 4
9.3 7.8 8.3 10.1 10. 9.5 8.7 9.0 8.7 9.7 9.1 8.8 3.6 9.4 3.6 8.9 9. 9.4 11.4 3.1 9.6 3.1.0 9.8 8.7 9.0 8.6 9. 10.1 9.3 (a) Calcule o valor da produção média. (b) Calcule o valor da mediaa da produção. (c) Faça uma represetação gráfica para o cojuto de dados. (d) Compare os valores da média e da mediaa e explique a difereça ecotrada. > hist(caa) Histogram of caa Frequecy 0 5 10 15 0 4 6 8 10 1 caa > boxplot(caa) 5
4 6 8 10 > mea(caa) [1] 8.4 > media(caa) [1] 9.05 X = i=1 X i = 47. 30 = 8.4 Md = X ( ) + X ( +1) = X (15) + X (16) = 9 + 9.1 = 9.05 Difereça etre a média e a mediaa é um idicativo de assimetria o cojuto de dados, que também pode ser verificada os gráficos apresetados. No caso, foram verificados algus talhões com resultados muito baixos, que faz com que o valor da média também seja puxado para baixo. Esse efeito ão é verificado o cálculo da mediaa que verifica apeas o valor cetral do cojuto de dados. 6. (Magalhães pg 8 adaptado) O ídice de germiação dos pricipais fatores para defiir a qualidade das semetes. Ele é determiado em experimeto cietifico coduzido pelo fabricate e regulametado pelos órgãos fiscalizadores. Um fabricate afirma que o ídice de germiação de suas semetes de milho é de 85%. Para verificar 6
tal afirmação, uma cooperativa de agricultores sorteou 0 amostras com 100 semetes em cada uma e aotou a porcetagem de germiação em cada amostra. 8.1 74.9 80.4 85.3 90.5 8.4 85.1 8.7 75.4 80.7 80.8 8.7 89.1 87. 8.1 81.6 86.8 86.1 79. 79.1 (a) Faça uma represetação gráfica da tabela acima. (b) Comete a afirmação do fabricate. > hist(milho) Histogram of milho Frequecy 0 1 3 4 5 75 80 85 90 milho > boxplot(milho) 7
75 80 85 90 > mea(milho) [1] 8.71 X = i=1 X i = 1654. 0 = 8.71 Se verifica que a média da amostra foi meor que o ídice iformado pelo fabricate. Porém, como a difereça foi pequea, é difícil afirmar que a média da população de semetes é realmete meor que o iformado, uma vez que foram aalisadas apeas 0 amostras. Testes estatísticos são idicados para se avaliar essa difereça. 7. (Magalhães pg 8 adaptado) Uma ova ração foi forecida a suíos recém desmamados e deseja se avaliar sua eficiêcia. A ração tradicioal dava um gaho de peso ao redor de 3,5 kg em um mês. A seguir, apresetamos os dados referetes o gaho, em quilos, para essa ova ração, aplicada durate um mês em 0 aimais as codições acima..94 3.38.49 3.5.97.09.91 1.74 4.7 5.17.7 1.79 3.16.47 5.99.55 3.9.61 1.99.76 8
(a) Costrua o histograma. (b) Determie o 1º, º e 3º quartis. (c) Você acha que a ova ração é mais eficiete que a tradicioal? Justifique. > hist(suios) Histogram of suios Frequecy 0 4 6 8 10 1 3 4 5 6 suios > mea(suios) [1] 3.018 X = i=1 X i = 60.36 0 = 3.018 > quatile(suios, c(0.5, 0.50, 0.75), type=) 5% 50% 75%.370.835 3.335 Q 1 = X ( 4 ) + X ( 4 +1) = X (5) + X (6) =.7 +.47 =.37 9
Md = X ( ) + X ( +1) = X (10) + X (11) =.76 +.91 =.835 Q 3 = X ( 3 4 ) + X ( 3 4 +1) = X (15) + X (16) = 3.9 + 3.38 = 3.335 Apeas verificado os resultados já se ota que o gaho médio de peso a amostra foi muito meor que o da ração tradicioal, que idica que a ova ração a verdade é meos eficiete. 8. A tabela abaixo se refere ao úmero de dias cosecutivos sem chuva em algumas cidades de uma região do sertão da Paraíba. Itervalo fi Fi fr Fr 1 [8,10) 3 10.0 [10,1) 9 1 30.0 40.0 3 [1,14) 7 4 [14,16) 13.3 76.7 5 [16,18) 4 7 90.0 6 [18,0] 3 30 10.0 100.0 (a) Qual a classificação da variável? (b) Complete a tabela para ecotrar a média de dias sem chuva. (c) Ecotre também a variâcia. Itervalo fi Fi fr Fr 1 [8,10) 3 3 10.0 10.0 [10,1) 9 1 30.0 40.0 3 [1,14) 7 19 3.3 63.3 4 [14,16) 4 3 13.3 76.7 5 [16,18) 4 7 13.3 90.0 6 [18,0] 3 30 10.0 100.0 (a) Quatitativa discreta (b) X = i=1 (X i f i ) i=1 f i = 7+99+91+60+68+57 30 = 40 30 = 13.4 10
(c) S = i=1(x i X) f i 1 = 58.08+51.84+1.1+10.4+51.84+94.08 30 1 = 67. 9 = 9.1 9. Em uma graja foi observado o peso de 80 fragos: 961 967 971 974 979 98 99 996 997 998 998 999 1000 1000 100 100 100 1003 1004 1004 1005 1005 1007 1007 1008 1009 1009 1009 1010 1013 1014 1016 1016 1017 1017 100 101 101 10 104 105 106 107 108 108 108 109 1030 1030 1030 1030 1031 1031 103 103 103 1033 1034 1034 1034 1038 1038 1039 1040 1041 1041 1041 104 1049 105 1054 1056 1065 1069 1071 107 1079 108 1083 1084 Queremos dividir os fragos em 4 categorias, com relação ao peso, de modo que: i. Os 0% mais leves sejam da categoria A. ii. Os 30% seguites sejam da categoria B. iii. Os 30% seguites sejam da categoria C. iv. Os 0% seguites (ou seja, os 0% mais pesados) sejam da categoria D. Quais os limites de peso etre as categorias A, B, C e D? Estamos iteressados em ecotrar os quatis 0% (segudo decil), 50% (mediaa) e 80% (oitavo decil). > quatis <- c(0, 0., 0.5, 0.8, 1) > quatile(fragos, quatis, type=) 0% 0% 50% 80% 100% 961.0 100.0 104.5 1040.5 1084.0 D = X ( 5 ) + X ( 5 +1) = X (16) + X (17) = 100 + 100 = 100 Md = X ( ) + X ( +1) = X (40) + X (41) = 104 + 105 = 104.5 D 8 = X ( 4 5 ) + X ( 4 5 +1) = X (64) + X (65) = 1040 + 1041 = 1040.5 11
Categoria Limites A 961 100 B 100 104.5 C 104.5 1040.5 D 1040.5 1084 10. Foi verificado em duas localidades o crescimeto de árvores de uma determiada espécie em um itervalo de tempo defiido: Localidade 1 9.4 9. 10. 1.5 1. 10.5 1.1 10. 11.4 10.1 10.1 8.7 8.5 6.5 9.6 Localidade 10.8 11.7 11.5 11.7 11 11.9 11.3 11.7 10.5 10.7 11.6 1.4 11.8 1.4 1.5 Fote: software R, pacote agricolae, base de dados growth. Há algum idício de que a localidade em que a árvore está platada causou ifluêcia em seu crescimeto? > require(agricolae) # pacote que cotém a base de dados > data(growth) # armazea a base de dados > attach(growth) # separa as coluas da tabela Média por localidade. > tapply(height, place, mea) L1 L 10.08000 11.56667 Variâcia por localidade. > tapply(height, place, var) L1 L.504571 0.38381 Desvio-padrão por localidade. > tapply(height, place, sd) 1
L1 L 1.585838 0.6183696 Coeficiete de variação por localidade. > tapply(height, place, sd) / tapply(height, place, mea) * 100 L1 L 15.70036 5.346135 > boxplot(height ~ place, xlab="localidade", ylab="crescimeto") Crescimeto 7 8 9 10 11 1 L1 L Localidade > detach(growth) # remove os dados da memória De acordo com os resultados, o crescimeto das árvores foi um pouco maior a localidade L, e como a dispersão dos dados foi pequea, este é um forte idicativo de que essa difereça verificada etre as duas localidades é realmete sigificativa. 11. Para os resultados abaixo referetes a pesos e comprimetos de bezerros de um determiado cofiameto: 13
Peso por raça Comprimeto por raça Peso (kg) 40 45 50 55 Comprimeto (cm) 80 90 100 110 Raça A Raça B Raça A Raça B Peso Média Variâcia CV (%) Raça A 10 49.4 6.933333 5.33007 Raça B 10 49.4 36.488889 1.794 Comprimeto Média Variâcia CV (%) Raça A 10 39.6 7.66574 Raça B 10 95.8 8.64708 Os valores omitidos da tabela são respectivamete: (a) 65.4 e 11.079 (b) 7.7 e 11.079 (c) 86.6 e 68.6 (d) 86.6 e 8.84 (e) 65.4 e 68.6 Para o primeiro valor ausete CV = S X 100 7.66574 = 39.6 X 100 14
X = 39.6 7.66574 100 X = 86.6 Para o segudo valor ausete CV = S X 100 8.64708 = S 95.8 100 S = 8.64708 95.8 100 S = 8.83853 S = 68.6 (a) FALSO (b) FALSO (c) VERDADEIRO (d) FALSO (e) FALSO 1. Utilizado os dados da Tabela 1 15
Tabela 1: Iformações sobre estado civil, grau de istrução, º de filhos, salário (expresso como fração do salário míimo), idade (medida em aos) e procedêcia de 36 fucioários da seção de orçametos, da Compahia Mista. Estado civil Grau de istrução Nº filhos Salário Idade Região de procedêcia 1 Solteiro Es. Fud. 4,00 6 Iterior Casado Es. Fud. 1 4,56 3 Capital 3 Casado Es. Fud. 5,5 36 Capital 4 Solteiro Es. Médio 5,73 0 Outro 5 Solteiro Es. Fud. 6,6 40 Outro 6 Casado Es. Fud. 0 6,66 8 Iterior 7 Solteiro Es. Fud. 6,86 41 Iterior 8 Solteiro Es. Fud. 7,39 43 Capital 9 Casado Es. Médio 1 7,59 34 Capital 10 Solteiro Es. Médio 7,44 3 Outro 11 Casado Es. Médio 8,1 33 Iterior 1 Solteiro Es. Fud. 8,46 7 Capital 13 Solteiro Es. Médio 8,74 37 Outro 14 Casado Es. Fud. 3 8,95 44 Outro 15 Casado Es. Médio 0 9,13 30 Iterior 16 Solteiro Es. Médio 9,35 38 Outro 17 Casado Es. Médio 1 9,77 31 Capital 18 Casado Es. Fud. 9,80 39 Outro 19 Solteiro Superior 10,53 5 Iterior 0 Solteiro Es. Médio 10,76 37 Iterior 1 Casado Es. Médio 1 11,06 30 Outro Solteiro Es. Médio 11,59 34 Capital 3 Solteiro Es. Fud. 1,00 41 Outro 4 Casado Superior 0 1,79 6 Outro 5 Casado Es. Médio 13,3 3 Iterior 6 Casado Es. Médio 13,60 35 Outro 7 Solteiro Es. Fud. 13,85 46 Outro 8 Casado Es. Médio 0 14,69 9 Iterior 9 Casado Es. Médio 5 14,71 40 Iterior 30 Casado Es. Médio 15,99 35 Capital 31 Solteiro Superior 16, 31 Outro 3 Casado Es. Médio 1 16,61 36 Iterior 33 Casado Superior 3 17,6 43 Capital 34 Solteiro Superior 18,75 33 Capital 35 Casado Es. Médio 19,40 48 Capital 36 Casado Superior 3 3,30 4 Iterior Tabela: Estatística Básica, Wilto O. Bussab e Pedro A. Morettim, pg 4. Fote: dados hipotéticos. (a) Costrua a distribuição de frequêcia absoluta, frequêcia relativa, porcetagem e porcetagem acumulada, para as variáveis estado civil, grau de istrução, úmero de filhos e região de procedêcia. 16
(b) Costrua um gráfico de pizza para a variável grau de istrução e um para região de procedêcia. (c) Costrua um gráfico de barras para a variável estado civil e um para umero de filhos. (d) Costrua um histograma para a variável salário e um para idades. (e) A média da variável úmero de filhos, a mediaa da variável idade o primeiro e terceiro quartil da variável salário. > read.table("tabela.txt", header=true) > attach(tabela) Tabela para estado civil. > tabcivil <- data.frame(fi = as.umeric(table(civil))) > tabcivil$fi <- cumsum(table(civil)) > tabcivil$fr <- table(civil) / legth(civil) * 100 > tabcivil$fr <- cumsum(table(civil)) / legth(civil) * 100 > rowames(tabcivil) <- ames(table(civil)) > tabcivil fi Fi fr Fr Casado 0 0 55.55556 55.55556 Solteiro 16 36 44.44444 100.00000 Tabela para grau de istrução. > tabgrau <- data.frame(fi = as.umeric(table(grau))) > tabgrau$fi <- cumsum(table(grau)) > tabgrau$fr <- table(grau) / legth(grau) * 100 > tabgrau$fr <- cumsum(table(grau)) / legth(grau) * 100 > rowames(tabgrau) <- ames(table(grau)) > tabgrau fi Fi fr Fr Es. Fud. 1 1 33.33333 33.33333 Es. Médio 18 30 50.00000 83.33333 Superior 6 36 16.66667 100.00000 Tabela para úmero de filhos. 17
> tabfilhos <- data.frame(fi = as.umeric(table(filhos))) > tabfilhos$fi <- cumsum(table(filhos)) > tabfilhos$fr <- table(filhos) / legth(filhos[complete.cases(filhos)]) * 100 > tabfilhos$fr<-cumsum(table(filhos))/legth(filhos[complete.cases(filhos)])*100 > rowames(tabfilhos) <- ames(table(filhos)) > tabfilhos fi Fi fr Fr 0 4 4 0 0 1 5 9 5 45 7 16 35 80 3 3 19 15 95 5 1 0 5 100 Tabela para região de procedêcia. > tabregiao <- data.frame(fi = as.umeric(table(regiao))) > tabregiao$fi <- cumsum(table(regiao)) > tabregiao$fr <- table(regiao) / legth(regiao) * 100 > tabregiao$fr <- cumsum(table(regiao)) / legth(regiao) * 100 > rowames(tabregiao) <- ames(table(regiao)) > tabregiao fi Fi fr Fr Capital 11 11 30.55556 30.55556 Iterior 1 3 33.33333 63.88889 Outro 13 36 36.11111 100.00000 > pie(table(grau), labels=ames(table(grau))) 18
Es. Fud. Es. Médio Superior > pie(table(regiao), labels=ames(table(regiao))) Capital Iterior Outro > barplot(table(civil), xlab="estado civil") 19
0 5 10 15 0 Casado Solteiro Estado civil > barplot(table(filhos), xlab="número de filhos") 0 1 3 4 5 6 7 0 1 3 5 Número de filhos > hist(salario, mai=null, xlab="salário", ylab="frequ^ecia") 0
Frequêcia 0 4 6 8 5 10 15 0 Salário > hist(idade, mai=null, xlab="idade", ylab="frequ^ecia") Frequêcia 0 4 6 8 10 0 5 30 35 40 45 50 Idade > mea(filhos, a.rm=true) [1] 1.65 > media(idade) 1
[1] 34.5 > quatile(salario, c(0.5, 0.75), type=) 5% 75% 7.515 14.70 > detach(tabela)