Estatística Computacional Profª Karine Sato da Silva karine.sato.silva@gmail.com
Introdução Quando analisamos uma variável qualitativa, basicamente, construímos sua distribuição de frequências. Ao explorarmos variáveis quantitativas temos condições de empregar algumas medidas descritivas, que sintetizam as características da distribuição.
Características de uma distribuição Posição central Informa onde se localiza o centro da distribuição Dispersão Se refere à variabilidade dos dados Assimetria Representa a concentração dos valores em um dos extremos da distribuição Curtose É o grau de achatamento da distribuição
Exemplo 1 O rendimento de um processo químico é influenciado pelo tempo e pela temperatura de reação. Um experimento é realizado para diferentes níveis do tempo de reação (20, 25 e 30 minutos) e da temperatura de reação (60, 70 e 80 C). Como os ensaios são também afetados por fatores não controláveis, as observações agregam um erro experimental. Devido à presença do erro experimental, foram realizados seis ensaios em cada combinação de níveis do tempo e da temperatura. Os resultados do experimento (rendimentos em %) são apresentados a seguir:
Temperatura ( C) Tempo (minutos) 20 25 30 60 29,7 28,7 30,2 31,3 31,2 31,7 31,0 30,6 32,8 31,9 31,2 31,2 32,9 32,7 34,8 34,9 33,8 34,9 70 36,6 35,7 35,3 35,1 30,2 37,2 35,7 40,4 41,7 36,9 34,5 40,0 34,8 36,8 37,4 38,9 38,7 42,5 80 40,2 33,6 33,4 35,2 38,1 33,0 37,0 34,4 29,8 33,9 43,2 35,5 36,0 31,3 36,6 32,5 39,2 35,9
Olhando os dados brutos, é difícil avaliar qual é a influência do tempo e da temperatura de reação sobre o rendimento. Medida descritiva: média Temperatura ( C) Tempo (minutos) 20 25 30 60 30,5 31,4 34,0 70 35,0 38,2 38,2 80 35,6 35,6 35,3
Rendimento (%) 45 40 35 30 60 C 70 C 80 C 25 20 25 30 Tempo (minutos)
Pela tabela e pelo gráfico é possível observar que, se usarmos a temperatura no nível intermediário (70 C) e o tempo de reação na faixa de 25 a 30 minutos, então obteremos, em média, melhor rendimento.
Medidas clássicas Média O conceito de média aritmética é bastante familiar. Seja (X1, X2,..., Xn) uma amostra n observações de certa variável aleatória X. A média aritmética dessas observações é definida por:
Exemplo 2 Considere as notas finais, relativas aos alunos de três turmas, representadas na tabela a seguir. Turma Notas dos alunos Média da turma A 4 5 5 6 6 7 7 8 6,0 B 1 2 3 6 6 9 10 10 6,0 C 0 6 7 7 7 7,5 7,5 6,0
Diagrama de pontos O diagrama de pontos do Exemplo 2 é apresentado na imagem abaixo:
Observações Os três conjuntos de valores, apesar de estarem distribuídos sob diferentes formas, apontam para uma mesma média aritmética. A média resume o conjunto de dados, tem termos de posição central, mas não fornece qualquer informação sobre outros aspectos da distribuição. Por exemplo, uma comparação das notas da turma A em relação a turma B, ou ainda o caso da turma C (ponto discrepante).
Medidas de dispersão Para melhorar o resumo dos dados, podemos apresentar, ao lado da média aritmética, uma medida dedispersão desses dados. Uma forma simples de medir a dispersão é através da amplitude, isto é, a diferença dentre o maior e o menor valor. Matematicamente:
Qual o problema de usar apenas a amplitude como medida de dispersão?
Amplitude Como é calculada utilizando apenas os dois valores extremos, esta medida pode levar a conclusões errôneas quando existir valores discrepantes. As medidas mais apropriadas são a variância e o desvio padrão. São medidas complementares à informação contida na média aritmética. Avaliam a dispersão do conjunto de valores em análise.
Variância e Desvio Padrão Para calcularmos a variância e o desvio padrão deve-se considerar os desvios de cada valor em relação a média. Descrição Notação Média da turma Valores (notas dos alunos) 4 5 5 6 6 7 7 8 Média 6,0 Desvios em relação a média -2-1 -1 0 0 1 1 2 Desvios quadráticos 4 1 1 0 1 1 4
Desvios Trabalha-se com os desvios quadráticos para evitar o problema dos desvios negativos. Variância: média aritmética dos desvios quadráticos. Exemplo 2 Turma A
Como a variância de um conjunto de dados é calculada em função dos desvios quadráticos, sua unidade de medida equivale à unidade de medida dos dados ao quadrado. Nesse contexto, é mais comum trabalhar com a raiz quadrada positiva da variância. Essa medida é conhecida como desvio padrão, o qual é expresso na mesma unidade de medida dos dados em análise.
Desvio Padrão O desvio padrão de um conjunto de valores pode ser calculado por: No Exemplo 2 Turma A, s = 1,31 Ao comparar os desvios padrões de vários conjuntos de dados, pode-se avaliar quais se distribuem de forma mais (ou menos) dispersa. Sempre é não negativo. Quanto maior o desvio padrão, mais disperso é o conjunto de dados.
Exemplo 2 anterior Turma Notas dos alunos Média da turma A 4 5 5 6 6 7 7 8 6,0 B 1 2 3 6 6 9 10 10 6,0 C 0 6 7 7 7 7,5 7,5 6,0 Turma Número de alunos Média Desvio Padrão A 8 6,0 1,31 B 8 6,0 3,51 C 7 6,0 2,69
Coeficiente de Variação Embora o desvio padrão seja a medida de dispersão mais usada, ela mede a dispersão em termos absolutos. O coeficiente de variação mede a variação em termos relativos. Conjunto Conjunto de valores Média Desvio Padrão Coeficiente de Variação 1 1 2 3 2 1 0,5 2 101 102 103 102 1 0,01 3 100 200 300 200 100 0,5
Os conjuntos (1) e (2) têm o mesmo desvio padrão, pois os intervalos entre os valores são iguais. Por outro lado, os intervalos entre os valores do conjunto (3) é 100 vezes maior que os dos outros. Portanto, o desvio padrão é 100 vezes maior. Já os níveis de variabilidade nos conjuntos (1) e (3) são proporcionalmente iguais; logo, eles têm o mesmo coeficiente de variação Ao dividirmos o desvio padrão pela média, a unidade de medida é cancelada. Coeficiente de variação é adimensional (não tem unidade de medida). Útil para comparar a variabilidade de observações com diferentes unidades de medidas.
Medidas baseadas na ordenação dos dados A média e o desvio padrão são as medidas mais usadas para avaliar a posição central e a dispersão de um conjunto de valores. Contudo, essas medidas são fortemente influenciadas por valores discrepantes. Por exemplo, as notas da Turma C (Exemplo 2). O valor discrepante zero puxa a média para baixo Algumas medidas são menos afetadas por valores discrepantes.
Mediana Avalia o centro de um conjunto de valores, sob o critério de ser o valor que divide a distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores de outro lado. Por exemplo, o conjunto de valores {2, 3, 4, 5, 8} tem como mediana o valor 4, pois a quantidade de valores menores a 4 é igual a 2, e há a mesma quantidade de valores maiores do que 4.
De forma mais precisa, podemos definir a mediana como o valor que ocupa a posição (n+1)/2, considerando os dados ordenados crescente ou decrescentemente. Exemplos: Conjunto de notas da Turma C: {0; 6; 7; 7; 7; 7,5; 7,5} Posição (n+1)/2 = 4 md = 7 {5, 3, 2, 8, 4} {2, 3, 4, 5, 8} Posição (n+1)/2 = 3 md = 4 {3, 5, 6, 7, 10, 11} Posição (n+1)/2 = 3,5 md =(6+7)/2 = 6,5
Comparação entre média e mediana
Continuação... Em distribuição simétrica, a média e a mediana são iguais. Em distribuições assimétricas, a média tende a deslocar-se para o lado da cauda mais longa.
Em geral, dado um conjunto de valores, a média é a medida de posição central mais adequada, quando se supõe que esses valores têm uma distribuição razoavelmente simétrica, enquanto a mediana surge como uma alternativa para representar a posição central emdistribuições muito assimétricas.
Na maioria dos casos práticos, o pesquisador tem interesse em conhecer outros aspectos relativos ao conjunto de valores, além de um valor central. Algumas informações relevantes podem ser obtidas através do conjunto de medidas: mediana, extremos e quartis, como veremos a seguir.
Extremos Chamamos de extremo inferior ao menor valor do conjunto de valores, isto é, mínimo (x1, x2,..., xn) e de extremo superior ao maior valor, isto é, máximo (x1, x2,..., xn). Por exemplo, dado o conjunto de valores {5, 3, 6, 11, 7}, temos mín. = 3 e máx. = 11.
Quartis Chamamos de primeiro quartil ou quartil inferior (qi) o valor que delimita os 25% menos valores; de terceiro quartil ou quartil superior (qs) o valor que separa os 25% maiores valores. O segundo quartil, ou quartil do meio, é a própria mediana, que separa os 50% menores dos 50% maiores valores. Dividem a distribuição em quatro partes iguais.
Quartis = 4 partes iguais
Quartis (continuação...) Com o dados ordenados crescentemente, temos: Posição de qi Posição de md Posição de qs
Exemplo 3 Observações: 15,18, 5, 7, 9, 11, 3, 5, 6, 8, 12. Ordenando: 3, 5, 5, 6, 7, 8, 9, 11, 12, 15, 18 n= 11 Posição de qi (n+1)/4 = 3 > qi = 5 Posição de md (n+1)/2 = 6 > md = 8 Posição de qs 3(n+1)/4 = 9 > qs = 12
Quando os resultados das operações (do slide anterior) são fracionários, fazemos uma interpolação linear com os valores de posições vizinhas ao resultado da fração. Ou seja, faz a média entre os dois valores que estão nas posições imediatamente anterior e imediatamente superior à posição calculada.
Com a mediana, quartis e extremos, podemos ter informações sobre a posição central, dispersão e assimetria da distribuição de frequências, como na figura abaixo.
Em distribuições simétricas, a distância entre o quartil inferior e a mediana é igual à distância entre a mediana e o quartil superior, enquanto nas distribuições assimétricas essas distâncias são diferentes.
Outra medida: Moda A medida denominada moda é o valor mais frequente do conjunto de dados. Observações: O fato de a média apresentar um valor maior que a mediana e a moda sugere uma distribuição assimétrica, com cauda mais longa para o lado direito.