Aula 03 Medidas Descritivas de Variáveis Quantitativas Parte 1 Medidas de Tendência Central Stela Adami Vayego - DEST/UFPR 1
Medidas de Tendência Central dos Dados Para uma variável quantitativa, uma medida de centralidade ou de posição é um valor típico ou representativo de um conjunto de dados, em torno do qual se situam os valores daquela variável. Stela Adami Vayego - DEST/UFPR 2
Média Separatrizes Moda Mediana Decil Quartil Percentil Stela Adami Vayego - DEST/UFPR 3
Média Aritmética Sejam x 1, x 2,..., x n os n valores observados da variável X. A média aritmética dos dados é definida por: X x1 + x2 +... + n n i = 1 = = x n n x i Stela Adami Vayego - DEST/UFPR 4
Exemplo: Dados de monóxido de carbono (CO), ppm, em 10 dias consecutivos na cidade de São Paulo em janeiro de 1991. 6,3 6,1 7,3 6,6 6,4 5,1 6,1 5,7 6,7 5,8 O valor médio de monóxido de carbono é 6,2 ppm x = 6,3 6,1 7,3 6,6 6,4 5,1 6,1 5,7 6,7 5,8 10 = 62,1 10 Stela Adami Vayego - DEST/UFPR 5
Propriedades da Média Aritmética É influenciada por valores extremos! Mais informativa no caso de distribuições aproximadamente simétricas. A soma de todos os desvios em relação à média é zero: n i= 1 ( x i x) = 0 A média corresponde ao ponto que minimiza a soma de quadrados dos desvios: n 2 ( x i x) i= 1 Stela Adami Vayego - DEST/UFPR 6
Stela Adami Vayego - DEST/UFPR 7 Sejam x (1), x (2),..., x (n) os mesmos valores que compõem a amostra dispostos em ordem crescente. A mediana dos dados é: se n ímpar, valor da observação de posição central, ou seja Md = se n par, média dos valores de posição central, ou seja + 2 1 n x + + 2 1 2 2 n n x x { Mediana: Valor que determina a posição central de uma distribuição de dados, tendo 50% deles a sua direita e 50% a sua esquerda.
Exemplo: Dados de monóxido de carbono (CO), ppm, em 10 dias consecutivos na cidade de São Paulo em janeiro de 1991. 5,1 5,7 5,8 6,1 6,1 6,3 6,4 6,6 6,7 7,3 x (1) x (2) x (3) x (4) x (5) x (6) x (7) x (8) x (9) x (10) O valor mediano de monóxido de carbono é 6,2 ppm x n 2 x n 2 1 2 = x 5 x 6 2 = 6,1 6,3 2 = 6,2 ppm Stela Adami Vayego - DEST/UFPR 8
Propriedades da Mediana Não é influenciada por valores extremos, podendo ser utilizada em distribuições assimétricas. Não admite tratamento algébrico, isto é, o conhecimento das medianas de diversos conjuntos de dados não permite calcular a mediana da reunião dos mesmos. Stela Adami Vayego - DEST/UFPR 9
Moda Valor da amostra que ocorre com maior freqüência. Em uma distribuição de dados, a moda pode não existir e, quando existe, pode não ser única. Logo, temos as seguintes classificações: Amodal não existe valor dominante Unimodal existe somente uma moda dominante Bimodal existem dois valores dominantes Multimodal existem mais de dois valores dominantes Não é influenciada por valores extremos. Não admite tratamento algébrico. Stela Adami Vayego - DEST/UFPR 10
Exemplo: Dados de monóxido de carbono (CO), ppm, em 10 dias consecutivos na cidade de São Paulo em janeiro de 1991. 6,3 6,1 7,3 6,6 6,4 5,1 6,1 5,7 6,7 5,8 O valor modal de monóxido de carbono é 6,1 ppm Stela Adami Vayego - DEST/UFPR 11
Quartis, Decis e Percentis O percentil de ordem k (onde k é qualquer valor entre 0 e 100), denotado por P k, é o valor tal que k% dos valores do conjunto de dados são menores ou iguais a ele. Assim, o percentil de ordem 10, o P 10, é o valor da variável tal que 10% dos valores são menores ou iguais a ele. Stela Adami Vayego - DEST/UFPR 12
Quartis, Decis e Percentis De modo geral, para se obter o percentil de ordem k, denotado por P k, após ordenar os dados, calcula-se o valor k. L= 100 n Se L for inteiro, o valor do P k é a média entre o L-ésimo e o (L+1)-ésimo valores a contar do menor. Se L não for inteiro, arredonde L para o maior inteiro mais próximo, e o valor de P k será o L-ésimo valor a contar do menor. Stela Adami Vayego - DEST/UFPR 13
Exemplo: Considere as notas finais dos 40 candidatos ao curso de Direito no Vestibular de certa faculdade, já colocadas em ordem crescente: 40 41 42 42 44 47 48 48 49 49 51 52 53 58 59 62 63 64 65 66 67 68 69 70 75 76 83 83 85 86 86 87 87 88 92 93 94 95 97 98 Primeiro Quartil: 25% de 40 = 10. Então o Q1 = média(10 o e 11 o valores)=(49+51)/2 = 50. Terceiro Quartil: 75% de 40 = 30. Então o Q3 = média(30 o e 31 o valores)=(86+86)/2 = 86. Stela Adami Vayego - DEST/UFPR 14
Medidas que Descrevem o Formato Descreve como os dados estão distribuídos Medidas de assimetria Medidas de curtose Stela Adami Vayego - DEST/UFPR 15
Assimetria Assimetria significa desvio ou afastamento da simetria. É o grau de deformação de uma curva de freqüências. % 42 36 30 37,5% 24 18 12 25% 25% 6 6,25% 6,25% 0 40 70 100 130 160 Valores da variável em estudo Stela Adami Vayego - DEST/UFPR 16
Quanto ao grau de deformação ou assimetria, pode-se ter três tipos de curvas de freqüências: Curva Simétrica Curva Assimétrica Positiva (ou deformada à direita) Curva Assimétrica Negativa (ou deformada à esquerda) Assimétrica à Esquerda Média Mediana Moda Simétrica Média= Mediana= Moda Assimétrica à Direita Moda MedianaMédia Média X Md Mo X =Md =Mo Mo Md X Stela Adami Vayego - DEST/UFPR 17
Índice de Assimetria Momento Central de terceira ordem m 3 = 1 n x i x 3 Se m 3 0, a distribuição é assimétrica positiva (à direita). Se m 3 0, a distribuição é assimétrica negativa (à esquerda). Se m 3 =0, a distribuição é simétrica. Stela Adami Vayego - DEST/UFPR 18
Curtose A curtose indica até que ponto a curva de freqüência de uma distribuição se apresenta mais afilada ou mais achatada do que uma curva normal
Índices de Curtose Coeficiente Percentílico de Curtose K = Q 2(P 3 90 Q P 1 10 ) Se k = 0,263 Curva Mesocúrtica Se K > 0,263 Curva Platicúrtica Se K < 0,263 Curva Leptocúrtica
Resumo de 5-Números O resumo de 5-números associa os limites inferior e superior do conjunto de dados aos quartis, fornecendo uma idéia bastante razoável da dispersão, da tendência central e da forma da distribuição, isto é, do grau de deformação. O resumo de 5-números pode ser encontrado na seguinte forma: l Título Q 1 Med Q 3 L Stela Adami Vayego - DEST/UFPR 21
Boxplot É uma representação gráfica dos dados através de seu resumo de 5- números. O Boxplot fornece informações importantes sobre o comportamento dos dados, como a simetria e variabilidade, e auxilia na detecção de outliers. Para sua construção é necessário ter: O primeiro quartil (Q 1 ) A mediana (Med) O terceiro quartil (Q 3 ) O desvio interquartílico (DQ = Q 3 Q 1 ) Stela Adami Vayego - DEST/UFPR 22
Stela Adami Vayego - DEST/UFPR 23
Detecção de outliers: pontos externos (outliers): são os pontos que estão a mais de 1,5 DQ do quartil correspondente até 3,0 DQ pontos soltos (extremos): são pontos que estão a mais de 3,0 DQ Stela Adami Vayego - DEST/UFPR 24
Exemplo: Os dados a seguir fornecem a duração média do ciclo menstrual, em fase de pré-ovulação, de 21 mulheres sadias, as quais estavam usando métodos naturais de planejamento familiar. 22,9 26,3 26,6 26,8 26,9 26,9 27,5 27,6 27,6 28,0 28,4 28,4 28,5 28,8 28,8 29,4 29,9 30,0 30,3 31,2 31,8 Stela Adami Vayego - DEST/UFPR 25
Realizando os cálculos iniciais temos: Q 1 = 26,9 Med = 28,4 Q 3 = 29,4 DQ = 29,4 26,9 = 2,5 (Desvio interquartílico) 1,5. DQ = 3,75 3,0. DQ = 7,5 n = 21 Med Quartis Limites Duração Média do Ciclo Menstrual 28,4 26,9 29,4 22,9 31,8 Limites para outliers Q 1-1,5. DQ = 23,15 Q 1-3,0. DQ = 19,4 Q 3 + 1,5. DQ = 33,15 Q 3 + 3,0. DQ = 36,9 Stela Adami Vayego - DEST/UFPR 26
CICLO 22 24 26 28 30 32 34 Non-Outlier Max = 31 Non-Outlier Min = 26 75% = 29,4 25% = 26,9 Median = 28,4 Outliers Stela Adami Vayego - DEST/UFPR 27