ESTATÍSTICA DESCRITIVA 2
Estatística Descritiva O que fazer com as observações que coletamos? Primeira etapa da análise: Resumo dos dados: organizar, descrever e resumir os dados coletados Estatística descritiva 5
Variável: Qualquer característica associada a uma população. Classificação das variáveis QUALITATIVA NOMINAL ORDINAL origem de um pedido (capital ou interior) porte de uma empresa (pequena, média, grande) QUANTITATIVA CONTÍNUA DISCRETA tempo, distância, salário número de clientes, número de caminhões
Variáveis Quantitativas MEDIDAS DE POSIÇÃO: Mínimo, Máximo, Moda, Média, Média Aparada, Mediana, Percentis MEDIDAS DE DISPERSÃO: Amplitude, Intervalo-Interquartil, Variância, Desvio Padrão, Coeficiente de Variação
Medidas de Posição Mínimo (min): o menor valor observado Máximo (max): o maior valor observado Moda (mo): é o valor (ou atributo) que ocorre com maior frequência,
Medidas de Posição Média x x1 + x 2 + x 3 +... n n i = 1 = = + x n n x i Mediana A mediana é o valor da variável que ocupa a posição central de um conjunto de n dados ordenados,
Medidas de Posição Percentil p O percentil de ordem p 100 (0 < p < 1), em um conjunto de dados de tamanho n, é o valor da variável tal que p 100 das observações do conjunto dos n dados ordenados são inferiores ou iguais a ele. Casos particulares percentil 50 = mediana ou segundo quartil (Md) percentil 25 = primeiro quartil (Q 1 ) percentil 75 = terceiro quartil (Q 3 )
Medidas de Dispersão Finalidade: encontrar um valor que resuma a variabilidade de um conjunto de dados Amplitude (A) A = máx - min Intervalo-Interquartil É a diferença entre o terceiro quartil e o primeiro quartil, ou seja, Q3 - Q1.
Medidas de Dispersão Variância Variância = s 2 = ( x 1 x) 2 +... + ( x n 1 n x) 2 = n i i= 1 n ( x x) 1 2 Desvio padrão Desvio Padrão = s = Variância
Medidas de Dispersão Coeficiente de Variação (CV) - é uma medida de dispersão relativa - elimina o efeito da magnitude dos dados - exprime a variabilidade em relação à média CV = x s 100 %
Medidas de Dispersão Exemplo 1 : Idade e renda de indivíduos Desvio Coef, de Média Padrão Variação Idade 27,47 anos 1,88 anos 6,8% Renda 3763,7 reais 594,7reais 15,8% Conclusão: Os indivíduos são, aproximadamente, duas vezes mais dispersos quanto à renda do que quanto à idade
Medidas de Dispersão Exemplo 2: Número de atrasos de vôos de uma amostra da Cia. A e de uma amostra de Cia. B Média Desvio padrão Coef. de variação Cia. A 50 6 12% Cia. B 160 16 10% Conclusão: Em relação às médias, os atrasos de ambas as companhias apresentam variabilidade quase iguais.
GRÁFICOS Gráfico Boxplot Representa os dados através de um retângulo construído com os quartis e fornece informações sobre os valores extremos.
Boxplot LS = Q3+1,5(Q3-Q1) Máximo Q3 Mediana 50% 75% Q1 Mínimo 25% LI = Q1-1,5(Q3-Q1) Máximo é o maior valor menor que LS; Mínimo é o menor valor maior que LI.
Boxplot Exemplo 3: Dados ordenados (n=36) 18 21 21 23 23 25 27 29 30 31 32 32 32 34 35 36 38 41 42 42 43 44 45 46 46 47 48 50 54 56 57 58 60 61 98 116 Vida útil de máquinas (dias) md = 41,5 Q1 = 30,25 Q3 = 49,5 * * 120 100 80 60 Observações discrepantes 40 LI = Q1-1,5(Q3-Q1) =1,38 20 LS = Q3 + 1,5(Q3 -Q1) =78,38
Os dados também podem ser resumidos construindo-se uma tabela de distribuição de frequências. Distribuição de frequências de uma variável é uma lista dos valores individuais ou de intervalos de valores que a variável pode assumir, com as respectivas frequências de ocorrência.
Distribuição de frequências Exemplo 4: Dados do Tempo de duração de 187 viagens (em horas) Tempo Frequência (n i ) Tempo Frequência (n i ) 0 55 30 2 2 1 35 2 4 1 40 1 5 59 44 1 6 2 50 1 7 3 57 1 8 2 60 1 9 1 70 2 10 28 75 2 13 2 95 1 15 10 660 1 20 6 1245 1 28 1 N = 187
Distribuição de frequências Exemplo 4 (continuação): Com a simples tabulação dos dados detectou-se: em 55 viagens encontra-se registrado o tempo zero, que é um valor claramente impossível; percebe-se a existência de um número excessivo de viagens com tempo de duração múltiplo de 5: 5, 10, 15 horas, etc. Existe uma tendência observada na população em geral em arredondar valores numéricos para múltiplos de 5; dois valores apresentam-se muito superiores aos demais (660 e 1245).
Distribuição de frequências Exemplo 4 (cont.): Retirando os zero s Medidas descritivas para a variável Tempo de duração de viagens Medida Descritiva Amostra Completa Excluindo o valor 1245 Excluindo os valores 1245 e 660 Média 27,5 18,2 13,3 Mediana 7,5 7,0 7,0 Desvio-padrão 121,8 58,8 16,4 Q 1 5,0 5,0 5,0 Q 3 14,5 13,0 13,0 n 132 131 130
Distribuição de frequências Exemplo 4 (cont.): Retirando o zero Variável: distância contínua Distribuição de frequências para a variável Tempo de duração de viagens Classes de distâncias n i fr i 0,0-10,0 10,0-20,0 20,0-30,0 30,0-40,0 40,0-50,0 50,0-60,0 60,0-70,0 70,0-80,0 80,0-90,0 90,0-100,0 Total 69 40 7 4 2 2 1 4 0 1 130 0,531 0,308 0,054 0,031 0,015 0,015 0,008 0,031 0,000 0,008 1,000 Construir intervalos de classe
Gráfico histograma Dados agrupados em intervalos de classes (distribuição de frequências) Bases iguais ou diferentes Construir um retângulo para cada classe, com base igual ao tamanho da classe e área do retângulo igual a frequência relativa da classe (fr). A altura será dada por h = fr/tamanho da base (densidade de frequência).
Histograma Exemplo 5: Vida útil de lâmpadas Classes (meses) n i fr i h i 0-3 140 0,28 0,093 3-12 100 0,20 0,022 12-24 80 0,16 0,013 24-60 180 0,36 0,010 Total 500 1,00 0,10 0,08 0,06 0,04 0,02 h 0 3 12 24 60
Histograma Exemplo 6: Tempo de duração de viagens
Gráfico de Barras Adequado para variáveis qualitativas Sobre um eixo, são representados retângulos, um para cada categoria da variável. A altura do retângulo é proporcional à frequência da categoria.
Gráfico de barras Exemplo 7: Variável Activity : atividade de armazéns (nenhuma 0; leve 1; moderada 2; intensa 3) 60 50 Count of Activity 40 30 20 10 0 0 1 Activity 2 3 Variável qualitativa ordinal
Porcentagem acumulada Exemplo 8: Considere a variável Número de funcionários de empresas pequenas de logística. Um levantamento de 20 empresas forneceu os seguintes dados (já ordenados): 5, 5, 5, 5, 10, 10, 10, 10, 10, 15, 15, 15, 15, 15, 15, 15, 20, 20, 20, 25.
Porcentagem acumulada Exemplo 8 (cont): Dados: 5, 5, 5, 5, 10, 10, 10, 10, 10, 15, 15, 15, 15, 15, 15, 15, 20, 20, 20, 25 Distribuição de frequências do no. de funcion. No.de filhos n i f i f i (%) N i F i F i (%) 5 4 0,20 20 4 0,20 20 10 5 0,25 25 9 0,45 45 15 7 0,35 35.16 0,80 80 20 3 0,15 15 19 0,95 95 25 1 0,05 5 20 1,00 100 Total n=20 1,00 100,0 Considerando os distintos valores da variável ordenados, temos N i : frequencia absoluta acumulada no valor x i da variável; F i : frequencia relativa acumulada no valor x i ; F i (%) : frequencia relativa acumulada no valor x i, em %
Porcentagem acumulada Exemplo 8 (cont.): Interpretação Distribuição de frequências do número de funcionários no.de func. n i f i f i (%) N i F i F i (%) 5 4 0,20 20 4 0,20 20 10 5 0,25 25 9 0,45 45 15 7 0,35 35 16 0,80 80 20 3 0,15 15 19 0,95 95 25 1 0,05 5 20 1,00 100 Total n=20 1,00 100,0 25 % das empresas tem 10 funcion.; (5 empresas das 20) 45 % tem até 10 funcion.; (que são 9 das 20 empresas) 7 empresas tem 15 funcion; 19 empresas tem até 20 funcion. (ou 95% dos empresas tem 20 funcion. ou menos); etc...
Forma da Distribuição