Estatística
Estatísticas descritivas: usadas para mostrar/descrever algumas informações da amostra, ou seja, servem para fazer um resumo ou descrição dos dados. Não consideram a origem dos dados. Exemplos: média, variância, dp, mín, máx etc
Definition (Média) Dado um conjunto de dados x 1,..., x n, a média (ou valor médio) dos dados é dado por: x = x 1 +... + x n n = 1 n n x i i=1 Fact A média dos dados fornece uma medida do centro dos dados, um valor típico ou representativo da amostra
Definition (Variância e Desvio-Padrão) A variância dos dados é definida como: s 2 = 1 n n 1 (x i x) 2 i=1 onde x é a média definida acima. E o desvio-padrão (dp) é definido como: s = s 2 Fact A variância e dp mostram quão variável são os valores da amostra
Remark O uso no denominador de n 1, e não n, servirá para que s 2 atenda a a determinadas propriedades estatísticas. Mas, um dos motivos é de caráter matemático: perda de grau de liberdade. Cálculo do numerador da variância: os n desvios (x i x).
No entanto, vale a seguinte propriedade algébrica: n (x i x) = i=1 = n x n i=1 = n x n x = 0, x n i=1 x i n i=1 x ( x = n i=1 x i n n x = n i=1 x i ) os desvios devem somar zero: uma restrição natural.
Conhecendo os n 1 primeiros desvios conseguimos obter o n ésimo : (x 1 x) +... + (x n x) = 0 (x n x) = (x 1 x)... (x n 1 x), n 1 desvios são livres para variar e, o n ésimo não tem tal liberdade.
Remark A variância pode ser mensurada de forma alternativa: n (x i x) 2 = i=1 = = = n i=1 n i=1 ( x 2 i 2x i x + x 2) x 2 i 2 x n i=1 x i + n i=1 x 2 n xi 2 2 xn x + n x 2 n = xi 2 n x 2 i=1 i=1 ( n i=1 x i n xi 2 n i=1 n ) 2 = n xi 2 ( n i=1 x i ) 2 i=1 n
Remark Logo, a variância pode ser mensurada como: ( n ) s 2 = 1 xi 2 n x 2 = n i=1 xi 2 n 1 i=1 n 1 n n 1 x 2 ou ( n ) s 2 = 1 xi 2 ( n i=1 x i ) 2 n 1 i=1 n
Example Suponha que tenhamos coletado alguns dados de 100 pessoas com mais de 25 anos e que já tenham terminado o período de escolarização. E foi perguntado quantos anos de estudo elas tinham, de 0 a até 15 ou mais anos de estudo. E constatou-se que: 15 pessoas têm 0 anos de estudo, 3 tem 1 ano, 5 tem 2 anos, 7 tem 3 anos, 15 tem 4 anos, 8 tem 5 anos, 3 tem 6 anos, 3 tem 7 anos, 10 tem 8 anos, 2 tem 9 anos, 2 tem 10 anos, 20 tem 11 anos, nenhuma tem entre 12 e 14 anos e 7 tem 15 ou mais anos. Um artifício simples para resumir os dados é montar uma tabela de frequência:
Example Sejam as informações sobre os salários 36 indivíduos (em múltiplos do salário mínimo - SM): 4 6.86 8.74 10.53 13.23 16.22 4.56 7.39 8.95 10.76 13.60 16.61 5.25 7.59 9.13 11.06 13.85 17.26 5.73 7.44 9.35 11.59 14.69 18.75 6.26 8.12 9.77 12.00 14.71 19.40 6.66 8.46 9.80 12.79 15.99 23.30
Example Classes de salários Freqüência absoluta n i Freqüência relativa f i =n i /n [4 8) 10 0.2778 [8 12) 12 0.3333 [12 16) 8 0.2222 [16, 20) 5 0.1389 [20, 24) 1 0.0278 Total (n) 36 1
Example x = 11.12 s = s 2 = 21.05 = 4.59 x fornece um valor representativo bem justo da região central dos dados (21 valores estão abaixo da média e 15 estão acima). Verificamos que estes dados são relativamente dispersos: 24 das 36 observações (2/3) se encontram no intervalo [( x σ), ( x + σ)] = [6.53, 15.71].
Example Sejam os seguintes dados de renda bruta (salários, juros, dividendos etc) de 42 casais que vivem na mesma cidade (em milhares de dólares): 1.2 29.3 11.6 14.5 26.8 28.1 17.0 8.2 39.4 151.2 8.2 17.8 23.2 20.6 157.4 10.1 25.8 26.8 36.0 20.1 10.3 92.3 8.0 17.8 74.7 8.8 16.2 7.7 19.4 19.3 125.2 10.7 100.2 47.6 21.2 37.2 19.6 26.0 37.7 29.0 150.1 13.4
Example Intervalo Freq.Abs. Freq.Rel. Freq. Rel. (em $) (n i ) (f i ) (f i 100%) [0; 10000) 6 0.1429 14.29 [10000; 20000) 13 0.3095 30.95 [20000; 30000) 11 0.2619 26.19 [30000; 50000) 5 0.1190 11.90 [50000; 160000) 7 0.1667 16.67 Total 42 1 100
Example A altura das barras deve ser ajustada se a área é para ser proporcional à amplitude do intervalo. Larson (1982) propõe um ajuste simples: as duas últimas classes são as que tem tamanho desigual e por isso as frequências relativas devem ser multiplicadas por (10, 000/20, 000) e (10, 000/110, 000), respectivamente. figure6.1.3 page335
Example Outra forma, adotada por Bussab e Morettin (2010): normalizar as freqüências (absolutas e relativas) em termos da amplitude do intervalo, obtendo assim, a densidade das freqüências de cada classe. A densidade indicará a concentração por unidade da variável. Intervalo Freq. Freq.Relativa Amp. Densidade (em $1k) Abs.(n i ) f i.100% i n i / i f i.100%/ i [0; 10) 6 14.29 10000 0.0006 0.00143 [10; 20) 13 30.95 10000 0.0013 0.00309 [20; 30) 11 26.19 10000 0.0011 0.00262 [30; 50) 5 11.90 20000 0.00025 0.00059 [50; 160) 7 16.67 110000 0.00006 0.00015 Total 42 100
Example Podemos analisar o histograma. O conjunto de dados é fortemente assimétrico à direita. x = 37.28 não é um bom valor representativo, pois 32 valores estão abaixo da média e apenas 10 valores acima. Ela é influenciada fortemente por valores extremamente altos o que faz com que seu valor não seja bem centrado nos dados.
Example s = 41.35. dados são pouco dispersos: 36 das 42 observações (85%) se encontram no intervalo [( x σ), ( x + σ)] = [6.53, 15.71]. Poucas observações são valores muito acima da média (maior do que 90), o que fazem com que o dp seja alto. Assim, da mesma forma, valores muito altos tende a aumentar muito o desvio-padrão
Definition (Estatísticas de ordem) Estatísticas de ordem são definidas como: x (j) = j ésima observação maior, j = 1,..., n. Remark Assim, temos necessariamente que: x (1) x (2)... x (n) Remark As estatísticas x (1) e x (n) são o mínimo e máximo do conjunto de dados.
Definition (Mediana) Outra medida de posição central dos dados é a mediana que é definida como: { x (n+1)/2, se n for ímpar m = ) (x (n/2) + x (n+2)/2 /2, se n for par Definition (Moda) É a observação mais frequente em um conjunto de dados.
Remark Ao contrário da média, a mediana e a moda não são influenciadas pela presença de outliers. Remark A moda pode não existir (amodal) ou pode não ser única (bimodal ou multimodal). Remark Muitas vezes, não existe moda para uma variável contínua, como nos Exemplos 6 e 9. Nestes casos, a moda é definida através da classe (intervalo) modal, ou seja, a classe que apresenta a maior freqüência. E o valor da moda é o ponto médio da classe (intervalo). O valor da moda pode ser sensível à escolha do tamanho do intervalo.
Remark Em geral, para distribuições simétricas, temos que: x = m e no caso de ser unimodal, ainda é válido: x = m = mod a Também, em geral, para distribuições assimétricas à direita (ou positiva) vale: mod a < m < x
Remark Uma definição mais geral para assimetria é dada por visualização gráfica: (i) Assimetria à direita: a cauda direita da distribuição (histograma) é mais comprida e a massa da distribuição está concentrada à esquerda. (ii) Assimetria à esquerda: definição análoga, basta trocar direita por esquerda e vice-versa. Uma definição mais formal utiliza uma medida numérica que é utilizada é o coeficiente de assimetria definido como: γ = 1 n n i=1 (x i x) 3 s 3. Assim, se γ > 0, a distribuição é assimétrica à direita e se γ < 0 é assimétrica à esquerda.
Definition (Amplitude Interquartil) A amplitude interquartil é definida como: q = x.75 x.25 onde x.25 é o 1 o quartil (ou seja, quando 25% dos dados estão abaixo deste valor) e x.75 é o 3 o quartil (ou seja, quando 75% dos dados estão acima deste valor). Remark A amplitude interquartil é definida para ser o comprimento de um intervalo que inclua aproximadamente 50% dos dados.
Remark x.25 será o maior número nos dados tal que o número de valores menores ou iguais a ele não seja maior do que n/4. Da mesma forma, x.75 é o menor valor nos dados tal que o número de valores maiores ou iaguais a ele não seja maior do que n/4. Remark Quanto mais disperso são os dados, maior será o valor de q.
Vimos também que o desvio-padrão é suscetível a magnitude e unidade de medida dos dados. Uma medida adimensional, que capta a variabilidade dos dados é o coeficiente de variação: Definition (Coeficiente de Variação) CV = s/ x, para x = 0.
Remark O CV é uma medida de dispersão do conjunto de dados em relação à média. Quanto menor o CV, mais homogêneos são os dados. O CV é geralmente expresso em percentual. Alguns livros adotam cortes entre 0.2 a 0.25 (20 a 25%) para definir se os dados são homogêneos. Mas isso depende muito das características dos dados. No Exemplo 6 do salário: CV = 4.59 11.12 = 0.41 Por isso, o CV, muitas vezes, é mais utilizado para comparar a variabilidade de dois ou mais conjunto de dados.
Example Para obter as medidas alternativas devemos primeiramente ranquear os dados: 1.2 7.7 8.0 8.2 8.2 8.8 10.1 10.3 10.7 11.6 13.4 14.5 16.2 17.0 17.8 17.8 19.3 19.4 19.6 20.1 20.6 21.2 23.2 25.8 26.0 26.8 26.8 28.1 29.0 29.3 36.0 37.2 37.7 39.4 47.6 74.7 92.3 100.2 125.2 150.1 151.2 157.4
Example min = x (1) = 1.2 max = x (42) = 157.4 ) m = (x (21) + x (22) /2 = (20.6 + 21.2) /2 = 20.9 A moda para os dados acima não existe. Se considerarmos a tabela de freqüência, veremos que o segundo intervalo [10000, 20000) é o de menor amplitude e que têm maior freqüência absoluta. Assim, considerando a divisão por intervalos, a moda será 15000, ou seja, 15 em milhares.
Example Segundo a regra que vimos, esta distribuição seria assimétrica à direita, pois x > m > Moda. Calculando o coeficiente de assimetria: γ = 1 n n i=1 (x i x) 3 s 3 = 129816.37 = 1.836 > 0, (41.35)
Example Para obter a amplitude interquartil, devemos encontar primeiramente o 1 o e 3 o quartis. Primeiramente, dividimos o tamanho amostral por quatro: n/4 = 42/2 = 10.5. Assim: A amplitude será: x.25 = x (10) = 11.6 x.75 = x (33) = 37.7 q = x (33) x (10) = 37.7 11.6 = 26.1
Example Por fim, calculando o CV, obtemos: CV = s µ = 41.35 37.28 = 1.11 ou seja, os dados são muito heterogêneos devido a presença de outliers.