Estatística Descritiva Cristian Villegas clobos@usp.br Departamento Ciências Exatas, ESALQ (USP) Agosto de 2012 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 1
1 Medidas de tendência central Média Moda Mediana Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 2
1.1 Média para dados brutos (não agrupados) x = 1 n n i=1 x i = x 1 +... + x n n 1.2 Média para dados agrupados x = 1 n k i=1 n i X i = n 1X 1 +... + n k X k n em que k é o número de classes e X i é a marca de classe. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 3
1.3 Mediana para dados brutos (não agrupados) M e = x [ n+1 2 ] n ímpar x [ n 2 ] + x [ n 2 +1] 2 n par Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 4
1.4 Mediana para dados agrupados ( n 2 N ) M e 1 em que M e = LI Me + n Me a Me LI Me : Limite inferior da classe mediana. n: Tamanho da amostra. N Me 1: Freqüência absoluta acumulada anterior à classe M e. n Me : Freqüência absoluta da classe M e. a Me : Amplitude da classe M e. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 5
1.5 Moda para dados brutos (não agrupados) O dado que possui maior freqüência. Dados sem moda Dados com uma moda, duas, três ou mais. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 6
1.6 Moda para dados agrupados em que, M o = LI Mo + ( 1 1 + 2 ) a Mo LI Mo : Limite inferior da classe modal. 1 = n (Mo) n (Mo 1). 2 = n (Mo) n (Mo+1). a Mo : Amplitude da classe M o. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 7
Exemplo 1. Dados de produção de resina(kg) de 40 arvores de Pinus elliotti. resina<- c( 0.71, 2.63, 3.63, 1.94, 3.69, 2.77, 1.42, 2.48, 3.77,2.75, 2.04, 2.16, 4.05, 1.80, 2.22, 2.06, 1.20, 1.67, 5.41,1.57, 3.09, 2.16, 3.94, 2.06, 3.55, 3.56, 3.57, 2.39, 2.48,1.53, 2.67, 2.18, 3.93, 3.34, 2.78, 3.26, 3.06, 3.32, 3.37,0.75) Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 8
Código R: freqüências absolutas e relativas > hist(resina,breaks=seq(min(resina)-0.10,max(resina)+0.10,.7), plot=f)$breaks #intervalos [1] 0.61 1.31 2.01 2.71 3.41 4.11 4.81 5.51 > hist(resina,breaks=seq(min(resina)-0.10,max(resina)+0.10,.7), plot=f)$counts #freq. absoluta [1] 3 6 12 9 9 0 1 > hist(resina,breaks=seq(min(resina)-0.10,max(resina)+0.10,.7), plot=f)$counts/length(resina) #freq. relativa [1] 0.075 0.150 0.300 0.225 0.225 0.000 0.025 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 9
Código R: freqüências abs. e relativas acumuladas > cumsum(hist(resina, breaks=seq(min(resina)-0.10,max(resina)+0.10,.7), plot=f)$counts) #freq. absoluta acumulada [1] 3 9 21 30 39 39 40 > cumsum(hist(resina, breaks=seq(min(resina)-0.10,max(resina)+0.10,.7), plot=f)$counts/length(resina)) #freq. relativa acumulada [1] 0.075 0.225 0.525 0.750 0.975 0.975 1.000 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 10
Classes X i n i f i N i F i [0.61; 1.31) 0.96 3 0.075 3 0.075 [1.31; 2.01) 1.66 6 0.150 9 0.225 [2.01; 2.71) 2.36 12 0.350 21 0.525 [2.71; 3.41) 3.06 9 0.225 30 0.750 [3.41; 4.11) 3.76 9 0.225 39 0.975 [4.11; 4.81) 4.46 0 0.000 39 0.975 [4.81; 5.51) 5.16 1 0.025 40 1.000 Tabela 1: Distribuição de freqüências: produção de resina(kg) de 40 arvores de Pinus elliotti. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 11
Código R: histograma e boxplot hist(resina,breaks=seq(min(resina)-0.10,max(resina)+0.10,.7), main="produç~ao de resina(kg) de 40 arvores de Pinus elliotti", xlab="resina(kg)",ylab="freqü^encias absolutas", plot=t) boxplot(resina,horizontal=t,add=t) Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 12
Produção de resina(kg) de 40 arvores de Pinus elliotti Frequências absolutas 0 2 4 6 8 10 12 1 2 3 4 5 Resina(kg) Figura 1: Histograma produção de resina(kg) de 40 arvores de Pinus elliotti Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 13
Medidas de Tendência Central (dados agrupados) Produção de resina(kg) de 40 arvores de Pinus elliotti x = 3 0.96 +... + 1 5.16 40 = 107.7 40 = 2.693 M e = LI Me + ( n 2 N ) M e 1 n Me a Me = 2.01 + 20 9 12 0.70 2.652 M o = LI Mo + ) 12 6 a Mo = 2.01+ 0.70 2.477 1 + 2 12 6 + 12 9 ( 1 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 14
2 Medidas de dispersão Amplitude Variância Desvio padrão Coeficiente de Variação Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 15
2.1 Amplitude Amplitude= máximo - mínimo 2.2 Variância para dados brutos (não agrupados) s 2 = 1 ( n ) (x i x) 2 n 1 i=1 = 1 ( n ) x 2 i n x 2 n 1 i=1 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 16
2.3 Variância para dados agrupados 2.3.1 Variáveis discretas s 2 = 1 ( k ) n i (x i x) 2 n 1 i=1 = 1 ( k ) n i x 2 i n x 2 n 1 i=1 2.3.2 Variáveis continuas s 2 = 1 ( k ) n i (X i x) 2 n 1 i=1 = 1 ( k ) n i Xi 2 n x 2 n 1 i=1 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 17
2.4 Desvio padrão para dados brutos (não agrupados) s 2 = s = 1 ( n ) (x i x) n 1 2 = i=1 1 ( n ) x 2 i n 1 n x2 i=1 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 18
2.5 Desvio padrão para dados agrupados 2.5.1 Variáveis discretas s 2 = s = 1 ( k ) n i (x i x) n 1 2 = i=1 1 ( k ) n i x 2 i n 1 n x2 i=1 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 19
Exemplo 2. Calcular a variância, o desvio padrão para o conjunto de dados amostrais apresentados na tabela abaixo. x i n i 1 2 3 4 5 2 Tabela 2: Distribuição do número de irmãos dos professores do LCE. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 20
Calculando variância e desvio padrão (dados agrupados) x = 1 2 + 3 4 + 5 2 8 = 3 s 2 = (1 3)2 2 + (3 3) 2 4 + (5 3) 2 2 8 1 s = 2.29 1.51 2.29 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 21
2.5.2 Variáveis continuas s 2 = s = 1 ( k ) n i (X i x) n 1 2 i=1 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 22
2.5.3 Coeficiente de variação é uma medida de dispersão relativa elimina o efeito da magnitude dos dados exprime a variabilidade em relação à média CV = s x 100% Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 23
Exemplo 3. Os dados estudados neste exemplo correspondem às idades e alturas da turma de Introdução à Bioestatística Florestal 2012 Variáveis Média Desvio Padrão CV Altura 171.33 11.10 6.4 % Idade 19 1.62 8.5 % Tabela 3: Altura e Idade dos alunos. Conclusão: Os alunos são, mais dispersos quanto a idade do que quanto à altura. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 24
3 Medidas de posição Quartis: divide os dados em 4 conjuntos iguais (Q 1, Q 2, Q 3 ). Q 2 representa a mediana. Decis: divide os dados em 10 conjuntos iguais (D 1,..., D 9 ). D 5 representa a mediana. Percentis: divide os dados em 100 conjuntos iguais (P 1,..., P 99 ). P 50 representa a mediana. Observação 1. Mediana = Q 2 = D 5 = P 50 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 25
3.1 Percentis para dados brutos (não agrupados) x [i+1] f > 0 P j = x [i] + x [i+1] f = 0 2 j = 1,..., 99. Forma de calcular percentil, n p = i + f, i parte inteira e f parte decimal. 3.2 Percentis para dados agrupados P j = LI k + ( n j 100 N ) k 1 n k a k j = 1,..., 99 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 26
Observação 2. A seguir alguns casos particulares de percentis ( n 25 100 P 25 = LI k + N ) k 1 a k = Q 1 P 50 = LI k + P 75 = LI k + n k ( n 50 100 N ) k 1 n k ( n 75 100 N ) k 1 n k a k = Q 2 a k = Q 3 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 27
Exemplo 4. Dados de produção de resina(kg) de 40 arvores de Pinus elliotti. Classes X i n i f i N i F i [0.61; 1.31) 0.96 3 0.075 3 0.075 [1.31; 2.01) 1.66 6 0.150 9 0.225 [2.01; 2.71) 2.36 12 0.350 21 0.525 [2.71; 3.41) 3.06 9 0.225 30 0.750 [3.41; 4.11) 3.76 9 0.225 39 0.975 [4.11; 4.81) 4.46 0 0.000 39 0.975 [4.81; 5.51) 5.16 1 0.025 40 1.000 Tabela 4: Distribuição de freqüências: produção de resina(kg) de 40 arvores de Pinus elliotti. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 28
Calculando percentis (dados agrupados) A seguir calculamos o percentil 25, 50 e 75, respectivamente P 25 = LI k + P 50 = LI k + P 75 = LI k + ( n 25 100 N ) k 1 n k ( n 50 100 N k 1 n k ( n 75 100 N k 1 n k ( ) 40 1/4 9 a k = 2.01 + 0.70 2.068 12 ) ( ) 40 1/2 9 a k = 2.01 + 0.70 2.652 12 ) ( ) 40 3/4 21 a k = 2.71 + 0.70 3.410 9 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 29
Comentários 1. A seguir alguns comentários 25% das arvores tem produção de resina igual ou menor a 2.068 kg. 50% das arvores tem produção de resina igual ou menor a 2.652 kg. 75% das arvores tem produção de resina igual ou menor a 3.410 kg. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 30
3.3 Gráfico de caixas-e-bigodes (boxplot) Determinar valor mínimo dos dados Determinar valor máximo dos dados Determinar Q 1, Q 2 e Q 3. Determinar se há pontos atípicos [Q 1 1.5IQR; Q 3 + 1.5IQR], em que IQR = Q 3 Q 1 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 31
Código R: Quartis (dados brutos) > Quartis<- boxplot(resina, plot=f) > Quartis.novo<- data.frame(quartis$stats) > rownames(quartis.novo)<- c("minimo","quar. 1","Quar. 2", "Quar. 3","Maximo") > Quartis.novo Quartis.stats Minimo 0.71 Quar. 1 2.05 Quar. 2 2.65 Quar. 3 3.46 Maximo 5.41 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 32
1 2 3 4 5 Produção de Resina(Kg) Figura 2: Gráfico Caixas-e-bigodes para dados de resina (Kg) Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 33
Exemplo 5. Estatura de alunos da turma de Bioestatística Florestal 2012 por sexo. idade 18 20 22 24 26 F M sexo Figura 3: Gráfico Caixas-e-bigodes para dados de resina (Kg) Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 34
4 Medidas de simetria Tem por objetivo básico medir o quanto a distribuição de freqüências do conjunto de valores observados se afasta da condição de simetria. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 35
4.1 Distribuição simétrica x = M e = M o. M e Q 1 = Q 3 M e. Figura 4: Distribuição simétrica Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 36
4.2 Distribuição assimétrica negativa ou assimétrica à esquerda x < M e < M o M e Q 1 > Q 3 M e. Figura 5: Distribuição assimétrica à esquerda Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 37
4.3 Distribuição assimétrica positiva ou assimétrica à direita M o < M e < x Q 3 M e > M e Q 1. Figura 6: Distribuição assimétrica à direita Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 38
4.4 Medidas para quantificar a assimetria de uma distribuição 4.4.1 Coeficiente de assimetria de Pearson A p = x M o s 4.4.2 Coeficiente quartilítico de Bowley A b = Q 3 + Q 1 2Me Q 3 Q 1 Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 39
Em ambos casos temos: Se A < 0 a distribuição é assimétrica negativa. Se A = 0 a distribuição é simétrica. Se A > 0 a distribuição é assimétrica positiva. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 40
Exemplo 6. Com base nos dados de produção de resina(kg) de 40 arvores de Pinus elliotti, temos que A b = Q 3 + Q 1 2Me Q 3 Q 1 = 3.46 + 2.05 2 2.65 3.46 2.05 = 0.149 Os dados possuem uma assimetria positiva. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 41
5 Diagrama de setores Para calcular os graus do diagrama de setores x i = 360 n i n = 360 f i Exemplo 7. Seja x i o número de irmãos de 100 pessoas x i n i f i 1 25 0.25 3 50 0.50 5 25 0.25 Tabela 5: Número de irmãos de 100 pessoas. Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 42
Código R: Diagrama de setores #grafico de setores xx<- c(1,2,3) yy<- rep(xx,c(25,50,25)) pie(table(yy),labels=c("um Irm~ao(25%)", "Dois Irm~aos(50%)","Tr^es Irm~aos(25%)")) Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 43
Um Irmão(25%) Dois Irmãos(50%) Três Irmãos(25%) Figura 7: Diagrama de setores Cristian Villegas. Departamento Ciências Exatas, ESALQ-USP 44