Descrevendo Distribuições com Números TADI 1
Quanto ganha quem tem curso superior? Entrevistamos 15 pessoas que responderam (em milhares de R$/mês): 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6 Salário de Indivíduos com Curso Superior 8 Freqüência 6 4 2 0 2 4 6 8 10 12 Mais Salário Como resumir esta informação? 2
Média Para achar a média aritmética, ou simplesmente média, você deve somar cada um dos valores e dividir pelo número de observações. A média é comumente denotada por uma barra sobre a variável, assim para nosso exemplo: x = 11 + 2,5 + 5 + 5 + 5,5 + 3 + 3,5 + 3 + 15 0,4 + 3,2 + 5 + 3 + 3,2 + 7 = 66,7 15 = 4,45 A forma geral para a média é: x = ou x 1 + x 2 + + n x n x = n i = 1 n x i 3
O que a média representa? Representa quanto cada um receberia se o total de salários fosse dividido identicamente. Ela é também o ponto onde você conseguiria equilibrar o histograma, ou seja, o seu centro de massa. 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 1 2 3 4 5 6 7 8 9 10 11 12 Mais Freqüência outlier Salários E se removermos o outlier da amostra? O que acontece com a média? 4
Eliminando o outlier Calculando a média novamente: x = 2,5 + 5 + 5 + 5,5 + 3 + 3,5 + 3 + 14 0,4 + 3,2 + 5 + 3 + 3,2 + 7 = 55,7 14 = 3,98 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 1 2 3 4 5 6 7 8 9 10 11 12 Mais Freqüência Salários E se entrevistássemos um felizardo que ganhe R$200 mil/mês? O que ocorre com a média? 5
Efeito do outlier Calculando a média novamente: x = 200 + 2,5 + 5 + 5 + 5,5 + 3 + 3,5 + 15 3 + 0,4 + 3,2 + 5 + 3 + 3,2 + 7 = 17 8 6 4 2 0 2 16 30 44 58 72 86 100 114 128 142 156 170 184 198 Freqüência Salários CUIDADO: A média é uma medida sensível a valores grandes. 6
Mediana Para achar a mediana ordenamos os dados e encontramos o valor que divide as observações ao meio: Dados fora de ordem: 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6 Dados ordenados: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 A mediana M será: M=3,5 E se eliminarmos o outlier? 7
Eliminando o outlier Dados ordenados sem o outlier: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 A mediana M será: M=(3,2+3,5)/2 = 3,35 A mediana é bem menos sensível a valores grandes do que a média. Mas, e se agora introduzirmos nosso felizardo assalariado que recebe R$200 mil/mês? 8
Efeito do outlier Dados ordenados sem o outlier: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 200 A mediana M será: M=3,5 Um único valor muito grande não altera a mediana. A mediana é dita uma medida de posição resistente. Por outro lado, dependendo da informação que se busca, esta característica pode não ser desejável. A alteração de 11 para 200 em um dos salários não alterou em nada a mediana. 9
Moda Qual seria o salário (ou salários) mais freqüentes? Para achar a moda montamos uma tabela de freqüências e procuramos pelo salário ou faixa com maior freqüência: É mais fácil começar com dados ordenados: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 Montamos a tabela de freqüências: x n [0,1) 1 [1,2) 0 [2,3 ) 1 [3,4) 6 [4,5) 0 [5,6 ) 4 [6,7) 1 [7,8) 1 [8,9) 0 [9,10) 0 [10,11) 1 A moda está no intervalo [3,4), escolhemos o meio do intervalo como indicador: MODA=3,5. 10
Pense a respeito 1 1. Como deve ser a distribuição para que a média e a mediana sejam idênticas? Desenhe o histograma. 2. Como deve ser o histograma para que a mediana seja igual a moda mas a média seja maior que a mediana? 3. Como deve ser o histograma para que a moda seja maior que a mediana e a mediana seja maior que a média? 11
Pense a respeito 2 Você está procurando emprego para o próximo ano. As empresas A e B são totalmente equivalentes a menos de suas políticas de remuneração. As características de remuneração de cada uma das empresas são resumidas na tabela a seguir: Empresa Média Mediana Moda A 2500 1700 1500 B 2000 1900 1900 Qual das duas empresas você escolheria? Justifique 12
Pense a respeito 3 Quais medidas de posição são mais adequadas nos seguintes casos? Justifique. Estão disponíveis dados mensais sobre a incidência de envenenamento por picada de cobra. Deseja-se planejar a compra mensal de antídoto. O número diário de usuários, entre 17 e 19 horas, de determinada linha de ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a frota em circulação. Um fabricante de baterias deseja divulgar a durabilidade do seu produto e coleta a informação sobre a duração de 100 de suas baterias. 13
Exercício 1 Vinte e cinco residência de um bairro foram sorteadas e visitadas por um entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados foram os seguintes: 2,2,2,3,1,2,1,1,1,1,0,1,2,2,2,2,3,1,1,3,1,2,1,0,2 Organize os dados em uma tabela de freqüência e determine as diversas medidas de posição. 14
Exercício 2 Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em kg) foram os seguintes: 1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5; 2,2 a. Utilizando os dados brutos acima, determine média, moda e mediana. b. Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5. c. Calcule a partir da tabela de freqüência e com o ponto médio representando cada faixa, a média, a moda e a mediana. Comente as diferenças em relação ao item a. d. Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente (a) ou (c)? 15
Quartis Quartis - outra forma de caracterizar quantitativamente a distribuição de uma variável. Consiste em encontrar os valores abaixos dos quais está 25% dos dados (Primeiro Quartil), 50% dos dados (Mediana) e 75% dos dados (Terceiro Quartil). Por exemplo, retornando aos dados salariais temos: Dados fora de ordem: 200 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6 Dados ordenados: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200 25% dos dados está abaixo de 3, assim, o Primeiro Quartil é Q1=3; 50% dos dados está abaixo de 4,25, assim, o Segundo Quartil, que também é a Mediana é Q2=M=4,25; 75% dos dados está abaixo de 5,75, assim, o Teceiro Quartil é Q3=5,75 16
Cálculo da Mediana, Quartis, Percentis Para o cálculo da mediana ( j = 2), do quartil Q i ( j = 4 P ( j = 100 ), calcula-se i k = i n j ) ou do percentil Se k não é inteiro, arredonda-se para cima e o valor procurado é dado por x k + xk + 1 x k. Se k é inteiro, valor procurado é dado por 2 17
Sumário de 5 números Podemos descrever uma distribuição de forma resumida fornecendo 5 números apenas: mínimo, Q1, M, Q3, máximo. No exemplo: Dados ordenados: 0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 200 MIN = 0,4 Q1 = 3,0 M = 4,25 Q3 = 5,75 MAX = 200 18
Dados sobre rendimentos anuais da Aula 5: Histograma Freqüência 500 400 300 200 100 0 0 15000 30000 45000 60000 75000 90000 105000 120000 135000 Bloco MIN=-19.998 Q1=14.000 Média= 34.295,20 Q2=27.479,50 Q3=47.962,50 MAX=319.350 19
Quantis: Generalizando a idéia de Quartis Ao invés de fixarmos os percentuais de interesse em 25%, 50% e 75% dos dados podemos trabalhar com um percentual qualquer, ou quantil. Observando novamente os dados brutos de peso colhidos em classe podemos montar uma tabela de freqüências: Bloco Freqüência % cumulativo 0 116 2,98% 5000 184 7,72% 10000 352 16,77% 15000 401 27,08% 20000 396 37,27% 25000 353 46,35% 30000 296 53,96% 35000 249 60,37% 40000 247 66,72% 45000 215 72,25% 50000 187 77,06% 55000 168 81,38% 60000 130 84,72% 65000 111 87,58% 70000 70 89,38% 75000 57 90,84% 80000 59 92,36% 85000 39 93,36% 90000 37 94,32% 95000 30 95,09% 100000 25 95,73% 20
Exercício 3 a. Ordene os dados e calcule o sumário de 5 números para a variável Pontos no problema dos dois jogadores de basqyete. Há variação perceptível entre os dois? b. Faça um gráfico para cada jogador com os quantis em intervalos de 20%. Represente as duas distribuições no mesmo gráfico. O que se pode dizer a respeito da diferença entre os dois? 21
Boxplot (ou Gráfico de Caixa) O Box plot é um gráfico que apresenta a informação contida nos quartis e nos pontos extremos dos dados, permitindo, caso se tenha mais de um caso (por exemplo, dados associados a diferentes valores de uma variável qualitativa), fazer a comparação entre os casos de forma visualmente fácil. 22
Vejamos Boxplot dos Salários 12 10 8 Salários 6 4 2 0 23
Interpretando A caixa mostra o intervalo que contém os 50% centrais dos dados (entre Q1 e Q3), com a mediana marcada como uma linha central. As linhas acima e abaixo da caixa são chamadas de bigodes e tem a função de mostrar até onde se observaram dados (exceto pelos outliers, marcados por asteriscos). 24
Construindo um Box plot Primeiro, calcule os quartis, de forma a desenhar a caixa. Obtenha a distãncia entre o primeiro e o terceiro quartil (amplitude interquartil): Q3-Q1 Os bigodes tem como tamanho máximo 1,5 vezes a amplitude interquartil, mas vão apenas até o último dado dentro desta distância. Dados que estiverem além são marcados por asteriscos (outliers). 25
No computador Infelizmente, as planilhas (Excel ou OpenOffice) não possuem o boxplot como gráfico. O OpenOffice tem um gráfico que se parece, mas não é um boxplot! Os boxplots apresentados aqui foram feitos usando o Minitab. No entanto, há formas de se usar o Excel para fazer um boxplot, se você já tiver calculado os quartis (infelizmente, ele errará quanto aos outliers): http://www.mis.coventry.ac.uk/~nhunt/boxplot.htm http://www.olemiss.edu/courses/psy501/lectures/lecture1/html_files/assgnmt1_howto.htm 26
Comparando O box-plot é bastante útil para comparar relações entre dados qualitativos e quantitativos. Pont os 90 80 70 60 50 40 30 20 10 0 Jogadores A e B A B 27
Medidas de Dispersão Queremos agora medir o quanto os dados estão espalhados (dispersos). Note que é possível que conjuntos de dados com a mesma média estejam muito concentrados (quase todos próximos a média), muito espalhados (quase todos distantes) ou algo intermediário. Portanto é interessante medir esta dispersão. 28
Amplitudes A medida mais simples que podemos ter da dispersão é a amplitude, definida como o valor máximo observado menos o valor mínimo. Portanto, todos os dados encontram-se dentro desta distância. Como uma medida central, temos a amplitude interquartil Q3-Q1. Só metade dos dados (a metade central) se encontra dentro desta distância. 29
Desvio Médio Outra medida de dispersão é o desvio médio, dm. Para calculá-lo, obtenha a distância de cada dado xi à média, x i. x Para os salários, teremos a lista 4,05 1,95 1,45 1,45 1,45 1,25 1,25 0,95 0,55 0,55 0,55 1,05 1,55 2,95 6,55 Tomando a média destes números teremos que o desvio médio é dm=1,84, ou seja, os salários estão, em média, a uma distância de R$1.840,00 do salário médio. 30
Exemplos Tomemos os dois conjuntos de dados abaixo: 4, 4, 6, 6 3, 5, 5, 7 Qual dos dois você diria que está mais disperso? 31
Tomemos os dois conjuntos de dados abaixo: 4, 4, 6, 6 3, 5, 5, 7 Qual dos dois você diria que está mais disperso? Na verdade, o desvio médio é igual para os dois conjuntos (igual a 1). Dados mais distantes, no entanto, parecem ter um efeito maior na dispersão. Se mudarmos a medida, tomando o quadrado dos dados, teríamos este efeito. 32
Variância Obtendo o quadrado de cada uma das distâncias, temos: 16,4 3,8 2,1 2,1 2,1 1,56 1,56 0,9 0,3 0,3 0,3 1,1 2,4 8,7 42,9 Se calcularmos a média destes valores, teremos a variância σ 2 = 5,77. No entanto, como estes salários são apenas uma amostra de todos os salários, costuma-se calcular a variância da amostra. 33
Variância de Amostra Para amostras, ao calcular a média, ao invés de se dividir pelo total de elementos n (no caso, 15 salários), divide-se por n-1 (ou seja, 14). Teríamos então: s 2 = 6, 18 34
Assim, temos População (conjunto completo que se está interessado): σ 2 = i ( x µ ) i N 2 Amostra (parte do conjunto completo que se está interessado): s 2 = i ( x x ) i n 1 2 35
Desvio Padrão Note, no entanto, que interpretar a variância não é simples. No caso dos salários, estes estavam em reais, mais as distâncias foram elevadas ao quadrado e a variância é dada em reais ao quadrado (o que quer que isto signifique). Para resolver este problema, extraímos a raiz quadrada, obtendo o desvio padrão. 36
Desvio Padrão dos Salários Temos então que o desvio dos salários será de 2,49, ou seja, cerca de R$2.500,00. Isto quer dizer que os salários estão a uma distância típica de R$2.486,00 do salário médio, R$ 4.447,00. Note que está não é uma distância média, é uma distância típica. 37
Exemplo i. Jogador A Jogador B 15 50 45 12 32 46 16 10 30 20 90 0 26 52 52 44 34 10 40 45 38