Estatística 1 2016.2
Sumário Capítulo 1 Conceitos Básicos... 3 MEDIDAS DE POSIÇÃO... 3 MEDIDAS DE DISPERSÃO... 5 EXERCÍCIOS CAPÍTULO 1... 8 Capítulo 2 Outliers e Padronização... 12 VALOR PADRONIZADO (Z)... 12 BOXPLOT... 13 EXERCÍCIOS CAPÍTULO 2... 16 Capítulo 3 Associação entre variáveis... 20 EXERCÍCIOS CAPÍTULO 3... 26 Capítulo 4 Distribuição de Probabilidade... 31 DISTRIBUIÇÃO DE PROBABILIDADE DE UMA VARIÁVEL DISCRETA... 31 DISTRIBUIÇÃO BINOMIAL... 32 DISTRIBUIÇÃO NORMAL... 33 EXERCÍCIOS CAPÍTULO 4... 42 Capítulo 5 Intervalo de Confiança... 47 MÉDIA DA POPULAÇÃO DE DESVIO PADRÃO CONHECIDO... 47 MÉDIA DA POPULAÇÃO DE DESVIO PADRÃO DESCONHECIDO... 48 PROPORÇÃO DA POPULAÇÃO... 51 RESPOSTAS... 62 EXERCÍCIOS CAPÍTULO 1... 62 EXERCÍCIOS CAPÍTULO 2... 63 EXERCÍCIOS CAPÍTULO 3... 64 EXERCÍCIOS CAPÍTULO 4... 66 EXERCÍCIOS CAPÍTULO 5... 67
Capítulo 1 Conceitos Básicos MEDIDAS DE POSIÇÃO As principais medidas de posição são: média aritmética simples, média ponderada, moda, mediana, quartis e percentis, conforme apresentadas a seguir. A média aritmética simples é a base soma de todos valores amostrais, dividindo esse resultado pela quantidade total de amostras. Conforme o exemplo a seguir, é possível entender esse conceito. Se as pessoas A, B e C ganham, respectivamente, R$1.000,00, R$2.000,00 e R$3.000,00, a média dessa amostra será R$2.000,00, uma vez que todos os valores somados resultam em R$6.000,00 e essa soma é dividida por 3 (quantidade da amostra), resultando em R$ 2.000,00. Usualmente, a média de uma amostra (uma porção de uma população) é representada por! x barra e a média da população pela letra grega µ. FÓRMULA:! = % $&' # $ ( A média ponderada, por sua vez, também será obtida por uma soma de valores dividida pelo tamanho amostral. O que difere da média aritmética é que cada elemento da amostra terá um PESO (número de repetições desse elemento) e multiplicaremos cada elemento pelo número do seu peso, somaremos todas multiplicações e dividiremos pela soma de todos os pesos. Por exemplo, se quisermos saber qual a média de salário numa firma em que existem 2 gerentes ganhando R$10.000,00 e 10 engenheiros ganhando R$5.000,00, é necessário multiplicar os fatores correspondentes e depois somar o resultado da seguinte maneira: ) +,.,,,.+, /,.,,, = ().+,) 2$ 5.833,33. FÓRMULA: 9: = ; ' < '.; = < =. ; % < % ; '.; =..; % = A @=1? @ 9 @ A @=1? @ A moda é o valor que aparece com maior frequência em um conjunto de dados, ou seja, o valor que mais se repete. Por exemplo, no caso das notas dos alunos de uma sala com 10 alunos forem 4; 5; 5; 5; 7; 7; 7,5; 8; 9 e 10, a moda é a nota que aparece com maior frequência, no caso, 5. Existem amostras bimodais (no caso de haver dois valores que aparecem com maior frequência) e amodais (no caso de todos os valores aparecerem com a mesma frequência). FGV ESTATÍSTICA 1 2016.2 3
A mediana é uma medida que não se baseia no valor, mas sim na posição que cada elemento da amostra ocupa quando os dados estão ordenados em ordem crescente. Classificamos como mediana o elemento que ocupa a posição central da amostra ordenada, ou seja, o valor que deixa os 50% menores da amostra antes dele e os 50% maiores depois dele. Então, caso existam 9 valores numa amostra, deve-se ordenar a amostra em ordem crescente e então, a mediana será o quinto valor (ficam 4 antes e 4 depois do quinto elemento). Logo, caso tivermos uma amostra com os seguintes valores: 1, 2, 3, 4, 6, 7, 8, 9, 1000, a mediana será o quinto valor apresentado, 6. Algo que devemos ter em mente quando calcularmos média e mediana é que a MÉDIA é afetada por valores extremos e que fogem do padrão da amostra, enquanto que o valor da mediana é menos sensível para este evento, uma vez que o que importa para a mediana é apenas o termo central. No caso ilustrado acima, a mediana é 6, porém, a média é aproximadamente 115,55. No caso de uma quantidade de números pares, a mediana será a média entre os dois números medianos, logo, com os valores: 1, 2, 3 e 4, a mediana será 2,5, uma vez que é a média entre 2 e 3. Por fim, outras medidas de posição importantes são os percentis e quartis. Organizando-se os dados em ordem crescente, o p-ésimo percentil divide os dados em duas partes, sendo p% menores do que o p-ésimo percentil. Assim, por exemplo, 20% dos valores da base de dados são inferiores ao 20 o percentil, 50% dos valores são inferiores ao 50 o percentil e assim por diante. Os 25 o, 50 o e 75 o percentis, recebem o nome de 1 o, 2 o e 3 o quartis, respectivamente. Desta forma, 75% dos valores da base de dados são inferiores ao 3 o quartil (ou 75 o percentil). Para calcular os percentis, deve-se calcular o índice i (@ = C +,, A) que indica a posição o p- ésimo percentil em uma amostra de n observações. Se i não for inteiro, deve-se arredondar para cima (assim, o p-ésimo percentil é o valor que ocupa a posição i+1). Se i for um valor inteiro, o p-ésimo percentil será a média dos valores que ocupam a posição i e i+1. O exemplo abaixo ilustra o cálculo das medidas de posição apresentadas. EXEMPLO 1: Dados os seguintes valores de uma amostra, determine: Amostra: 3, 5, 6, 6, 6, 7, 8, 10, 15, 21, 25, 29 a-) Média b-) Mediana c-) Moda d-) 20 o percentil FGV ESTATÍSTICA 1 2016.2 4
e-) 3 o quartil Solução do Exemplo 1: a-) Média:! = # $ = +D+ = EE, FG ( +) b-) Mediana: Número par de observações. Assim a Mediana é a média dos dois valores intermediários (6ª e 7ª observações): Med = H.I ) = F, G c-) Moda: Valor que aparece com maior frequência é o 6. d-) 20º percentil: @ = C A = ), 12 = 2,4 ª MNOPQRSçãM +,, +,, Assim, o 20º percentil ocorre no 3º termo, ou seja, 6, indicando que aproximadamente 20% dos dados são menores do que 6. e-) 3º quartil (75º percentil): @ = C A = H/ 12 = 9ª observação +,, +,, Como i é inteiro o 3º quartil é a média entre a 9ª e a 10ª observação à +/.)+ = EW ) MEDIDAS DE DISPERSÃO Muitas pessoas acreditam que a média é o fator mais importante na estatística. Porém, caso os valores não apresentassem desvios, não seria necessário calcular a média, certo? Então medir a VARIABILIDADE dos dados é extremamente importante. A forma mais utilizada de se calcular essa variabilidade, ou dispersão dos dados, é por meio do desvio padrão ou da variância. O desvio padrão é a raiz quadrada da variância. O desvio padrão de uma população é comumente representado pela letra grega σ e a de uma amostra pela letra s. Desta forma, a variância da população é σ 2 e da amostra s 2. FÓRMULA PARA AMOSTRA: O ) = (# $X#) = e s = O ) (X+ FGV ESTATÍSTICA 1 2016.2 5
FÓRMULA PARA POPULAÇÃO: Z ) = (# $X[) = e Z = Z ) \ Embora muitas pessoas sintam um estranhamento ao verem essas fórmulas pela primeira vez, seu entendimento é simples. Como ela quer calcular a variabilidade de todos os dados presentes na amostra, é necessário ter um ponto de referência para calcular essa variabilidade, portanto, a base escolhida é a média, apresentado como ]. Logo, o que é calculado é a distância de todos os dados até a média, ou, de maneira mais formal, é a "média do quadrado dos desvios de todos os pontos até a média. Interpretação: Quanto maior for o desvio-padrão, mais dispersos serão os dados em torno da média. GRÁFICOS DE DISPERSÃO UNIDIMENSIONAL (HISTOGRAMA) O histograma é uma maneira bastante comum de apresentar dados quantitativos. Nele, os dados são sintetizados em uma distribuição de frequência, que pode ser tanto absoluta como relativa. No eixo x do histograma deve-se colocar a variável de interesse. No eixo y fica a distribuição de frequência (absoluta ou relativa) contida em cada classe (intervalo). Um dos cuidados que se deve ter no histograma é o tamanho das classes, que devem constituir intervalos semelhantes para facilitar a comparação. O exemplo a seguir ilustra como é feito um histograma. EXEMPLO 2: Os dados abaixo são as notas de alguns alunos, selecionados aleatoriamente, em uma prova de estatística. Com base nos dados elabore o histograma tanto de frequência relativa quanto de frequência absoluta. Aluno Nota Aluno Nota Aluno Nota 1 0 8 4,9 15 6,9 2 2,5 9 5,2 16 7,2 3 3,1 10 5,4 17 7,3 4 3,4 11 5,5 18 7,4 5 3,7 12 5,8 19 9,4 6 3,9 13 5,9 20 10 7 4,5 14 6,2 FGV ESTATÍSTICA 1 2016.2 6
Solução do Exemplo 2: Para fazer os histogramas é necessário separar os dados em classes ou intervalos. Como o enunciado não diz nada sobre as classes, vamos utilizar dez classes. A primeira contempla alunos que tiraram nota de zero até 0,99. A segunda alunos que tiraram nota de 1 até 1,99, e assim por diante. Assim temos a seguinte tabela: Classe Frequência Absoluta Frequência Relativa 0 0,99 1 5% 1 1,99 0 0% 2 2,99 1 5% 3 3,99 4 20% 4 4,99 2 10% 5 5,99 5 25% 6 6,99 2 10% 7 7,99 3 15% 8 8,99 0 0% 9 10 2 10% Total 20 100% Com base na tabela foi possível construir os histogramas, tanto da frequência relativa quanto da frequência absoluta, conforme os gráficos abaixo: Freq. Abs Freq. Relat 5 4 3 2 1 25% 20% 15% 10% 5% 1 2 3 4 5 6 7 8 9 10 Nota 1 2 3 4 5 6 7 8 9 10 Nota Observação: Existe também o histograma de densidades, no qual de cada retângulo do gráfico são iguais às frequências relativas de cada classe. Nesse caso, a soma de todas as áreas será 1 (ou 100%). FGV ESTATÍSTICA 1 2016.2 7
EXERCÍCIOS CAPÍTULO 1 1-) A distribuição de salários de uma empresa é fornecida pela tabela a seguir: Calcule a média salarial dessa empresa. 2-) A tabela abaixo apresenta a distribuição de frequência dos salários de um grupo de 50 empregados de uma empresa, em certo mês. O salário médio desses empregados, nesse mês, foi de: a) R$ 2 637,00 b) R$ 2 520,00 c) R$ 2 500,00 d) R$ 2 420,00 e) R$ 2 400,00 FGV ESTATÍSTICA 1 2016.2 8
3-) Em certa eleição municipal foram obtidos os seguintes resultados: O número de votos obtido pelo candidato vencedor foi: a) 178 b) 182 c) 184 d) 188 e) 191 4-) A tabela abaixo mostra o resultado de uma pesquisa com 70 pessoas que possuem automóvel. A variável estudada é X= número de vezes que trocou de carro nos últimos 5 anos. Número de vezes que trocou de carro Frequência absoluta 0 10 1 15 2 20 3 15 4 10 Qual é o valor do desvio-padrão de X? a. 1,3 b. 1,6 c. 2,5 d. 4,2 e. 10,5 FGV ESTATÍSTICA 1 2016.2 9
5-) Você é o responsável pela produção de dois antigripais. As únicas informações disponíveis para planejar a produção são a média e o desvio-padrão histórico das vendas do mês de julho para cada medicamento. Os resultados são mostrados a seguir: Antigripal1 Antigripal 2 Média 105.000 44.000 Desvio-padrão 10.000 8.000 Você quer comparar a variabilidade dos dois antigripais para avaliar para qual dos dois antigripais há menor incerteza nas vendas. Qual das seguintes conclusões é correta neste caso? a. O desvio-padrão das vendas do antigripal 1 é maior que o desvio-padrão das vendas do antigripal 2. Portanto, as vendas do antigripal 1 são mais difíceis de prever, pois há mais incerteza. b. Não há como comparar a variabilidade das vendas dos dois antigripais porque as médias são diferentes. c. A média das vendas do antigripal 1 corresponde a 1050% do seu desvio-padrão. A média das vendas do antigripal 2 corresponde a 550% do seu desvio-padrão. Portanto, as vendas do antigripal 1 são mais difíceis de prever, pois há mais incerteza. d. Ambos desvios-padrão são menores que suas respectivas médias. Portanto, os dois possuem pequena incerteza e são fáceis de prever. e. Como os dois medicamentos têm médias diferentes, os valores dos desvios-padrão não devem ser comparados diretamente. O desvio-padrão do antigripal 1 é 9,5% da venda média, enquanto que o do antigripal 2 é 18% da venda média. Portanto, o desvio-padrão das vendas do antigripal 2, percentualmente em relação à média, é maior. Desta forma, considera-se que a incerteza das vendas do antigripal 2 é maior. FGV ESTATÍSTICA 1 2016.2 10
6-) Em uma empresa, o número de dias para responder uma solicitação de um cliente (variável X ) segue a distribuição de frequências abaixo: x p(x) 1 0,1 2 0,2 3 0,4 4 0,2 5 0,1 Qual é o desvio-padrão da variável x? a. 0,490 b. 1,095 c. 1,200 d. 1,414 e. 1,582 7-) Considere o banco de dados com uma amostra de n igual a 5 clientes de uma loja de departamento: Nota para o Cliente atendimento 1 6 2 4 3 7 4 7 5 6 Se X é a nota para o atendimento, quanto vale: _ ^`+!^ a. 6 b. 7 c. 10 d. 17 e. 30 FGV ESTATÍSTICA 1 2016.2 11
... Para obter a apostila completa, passe em um de nossos pontos de venda. FGV 2016.2 XX