MAIS SOBRE MEDIDAS RESUMO Medidas de Tendência Central (1) média (aritmética) * só para variáveis quantitativas exceção: variável qualitativa nominal dicotômica, com categorias codificadas em 0 e 1; neste caso, média = proporção de 1 s * é muito influenciada por valor atípico
a média nem sempre é o valor central a média nem sempre é o valor que mais ocorre Por que a média é uma medida de tendência central?
Pode ser demonstrado que: a) m i=1 (x i média )=0 b) média como ponto de equilíbrio: Exemplo (cont.): 8 equipamentos média
Pode ser demonstrado que: a) m i=1 ( x i média)=0 b) média como ponto de equilíbrio: Exemplo (cont.): 8 equipamentos média
(2) mediana * para variáveis quantitativas e qualitativas ordinais * não é uma medida influenciada por um valor atípico Exemplo (cont.): 8 equipamentos Suponha que houve um erro de digitação: 200 em vez de 2000 dias de vida x= 4400 =550 dias 8 md = 550+550 2 =550 dias *se substituirmos 2000 por 5000, a mediana não iria mudar de valor, a média sim
(3) moda * pode ser obtida para qualquer tipo de variável * é a medida resumo mais simples * uma variável pode ter mais de uma moda: conjunto de dados bimodal duas modas conjunto de dados multimodal mais de duas modas * moda pode não existir: conjunto de dados amodal todas as frequências iguais
Quando os valores observados de X estão concentrados nos dois extremos, o que fazer? variável X não tem tendência central nenhuma das três medidas é adequada!!
descrever X somente por medidas de tendência central pode não ser suficiente! Exemplo Desempenho de três turmas A, B e C: Turma Notas dos alunos Desempenho médio A 4 5 5 6 6 7 7 8 6,0 B 1 2 4 6 6 9 10 10 6,0 C 0 6 7 7 7 7,5 7,5 6,0 em média, as 3 turmas tem mesmo desempenho porém a distribuição das notas de cada turma é bem diferente
Medidas de Dispersão *só para variáveis quantitativas (1) amplitude total *distância entre o máximo e o mínimo Exemplo (cont.): 8 equipamentos Δ = 2000 500 = 1500 dias desvantagem: não considera a variação entre os valores que estão fora dos extremos Como considerar a variação entre todos os valores?
ideia 1 Comparar cada valor x i com a média: x i média desvio de x i em relação a média *mas são m desvios deve ser uma medida única! ideia 2 Somar os desvios e dividir por n: m i=1 ( x i média) m *mas esta soma é algebricamente igual a zero, sempre!
solução: transformar o desvio para a soma não ser negativa aplicar o módulo (desvio absoluto) ou elevar ao quadrado (desvio quadrático) *desta forma a soma dos desvios transformados não será sempre igual zero desvio médio soma dos desvios absolutos e dividido por m variância soma dos desvios quadráticos e dividido por m (2)
Duas fórmulas para variância Exemplo (cont.): 8 equipamentos
i 1 600-175 30625 2 700-75 5625 3 750-25 625 4 2000 1225 1500625 5 550-225 50625 6 500-275 75625 7 550-225 50625 8 550-225 50635 Total 6200 0 1765000 s 2 = n i=1 ( x i x) 2 n 1 x i x i x ( x i x ) 2 = 1765000 7 =252142,857 dias 2
i x i x i 2 1 600 360000 2 700 490000 3 750 562500 4 2000 4000000 5 550 302500 6 500 250000 7 550 302500 8 550 302500 Total 6200 6570000 s 2 = n i=1 x i 2 ( i=1 n 1 n x i)2 n = 6570000 (6200)2 8 7 = 1765000 7 =252142,857 dias 2
desvantagem da variância: unidade de medida ao quadrado solução: calcular a raiz quadrada da variância (3) desvio padrão
Exemplo (continuação) s= s 2 = 252142,857=502,138 dias Este valor é alto ou baixo? Indica alta ou baixa dispersão dos dados? desvantagem do desvio padrão: interpretação pobre se não há um valor de referência solução: comparar desvio padrão com a média
(4) coeficiente de variação razão entre o desvio padrão e a média Exemplo (cont.): 8 equipamentos cv= s x =502,138 775 =0,648=64,8 % *cv é medida adimensional, por isso, é comum ser apresentada na forma de porcentagem *em geral, a dispersão é considerada alta, se cv > 30%
CUIDADO com comparações inadequadas de desvios padrão: entre variáveis com unidades de medida diferentes entre grupos com médias muito distintas
Exemplo X: peso (kg) e Y: comprimento (cm) de cães Em qual característica os cães são mais parecidos? Medida média dp cv peso 12,5 5,5 44,0% comprimento 33,0 4,0 12,1%
Exemplo X: idade (anos) de crianças e adultos Qual grupo é mais homogêneo? Grupo média dp cv criança 5,4 2,0 37,0% adulto 23,0 2,0 8,7%
Separatrizes valores de referência que separam o conjunto de dados ordenados (de uma variável) em subgrupos a mediana é uma separatriz pois divide o conjunto de dados ordenados em 2 partes iguais se não houver empates *para variáveis quantitativas e qualitativas ordinais
(1) quartis são 3 valores (Q 1, Q 2 e Q 3 ) que dividem o conjunto de dados em 4 partes iguais : Q 1 =x ( m 4 ) Q 2 =md Q 3 =x ( 3 m 4 ) Exemplo (cont.) 8 equipamentos Q 1 =x (2) =550 dias Q 2 =md =575 dias Q 1 Q 2 Q 3 Q 3 =x (6) =700 dias
Exemplo: Diâmetro de 9 peças, em mm Dados i 1 2 3 4 5 6 7 8 9 x i 3,0 1,5 2,5 3,5 4,0 2,0 3,5 2,0 1,5 x (i) 1,5 1,5 2,0 2,0 2,5 3,0 3,5 3,5 4,0 Q 1 =x (2,25) =x (2) +0,25[ x (3) x (2) ]=1,625 mm Q 2 =md =x (5) =2,5 mm Q 3 =x (6,75) = x (6) +0,75[ x (7) x (6) ]=3,375 mm Q 1 Q 2 Q 3
Exemplo (cont.): Emissão de Dióxido de Enxofre de 70 dias Conjunto de dados ordenados: 6,2 7,7 8,3 9,0 9,4 9,8 10,5 10,7 11,0 11,2 11,8 12,3 12,8 13,2 13,3 13,5 13,9 14,5 14,7 15,2 15,5 15,8 15,9 16,2 16,7 16,9 17,3 17,5 17,6 17,9 18,0 18,0 18,1 18,5 18,7 19,0 19,1 19,2 19,3 19,4 20,0 20,1 20,1 20,4 20,5 20,9 21,4 21,6 21,9 22,3 22,7 22,7 22,9 23,0 23,5 23,7 23,9 24,1 24,6 24,8 25,7 25,9 26,1 26,4 26,6 26,8 27,5 28,5 28,6 31,8 quartis i posição Q i 1 m/4 = 17,5 x (17) + 0,5(x (17) x (18) ) = 14,2 2 (m + 1)/2 = 35,5 x (35) + 0,5(x (36) x (35) ) = 18,85 3 3m/4 = 52,5 x (52) + 0,5(x (53) x (52) ) = 22,8
(2) decis são 9 valores (D 1, D 2,, D 9 ) que dividem os dados ordenados em 10 partes iguais : D i =x ( i m 10 ) i=1,2,3,,9
Exemplo (cont.): Emissão de Dióxido de Enxofre de 70 dias decis i posição (i m/10) D i 1 7 10,5 2 14 13,2 3 21 15,5 4 28 17,5 5 35 18,7 6 42 20,1 7 49 21,9 8 56 23,7 9 63 26,1
(3) percentis são 99 valores (P 1, P 2,, P 99 ) que dividem os dados ordenados em 100 partes iguais : P i =x ( i m 100 ) i=1,2,3,,99 percentil P i indica que há i % de dados inferiores a P i É evidente que: P 25 = Q 1, P 50 = md, P 75 = Q 3, P 10 = D 1,..., P 90 = D 9