Estatística Descritiva Sumário 1. INTRODUÇÃO À ESTATÍSTICA 2 1.1. INTRODUÇÃO 2 1.2. TIPOS DE VARIÁVEIS 2 1.2.1. POPULAÇÃO 2 1.2.2. AMOSTRA 3 1.2.3. AS VARIÁVEIS PODE SER DE DOIS TIPOS: 4 1.3. TABELAS DE FREQUÊNCIA 5 1.4. EXERCÍCIOS 7 2. CARACTERÍSTICAS NUMÉRICAS DE UMA DISTRIBUIÇÃO DE DADOS 11 2.1. INTRODUÇÃO 11 2.2. MEDIDAS DE POSIÇÃO 11 2.2.1. MÉDIA ARITMÉTICA 11 2.2.2. EXEMPLOS DE MÉDIA ARITMÉTICA 14 2.2.3. MEDIANA 15 2.2.4. EXEMPLOS DE MEDIANA 23 2.2.5. MODA 24 2.2.6. EXEMPLOS DE MODA 26 2.2.7. RELAÇÃO ENTRE MÉDIA E MEDIANA 26 2.2.8. EXERCÍCIOS 29 2.3. MEDIDAS DE DISPERSÃO 32 2.3.1. MÉDIA ARITMÉTICA ERROR! BOOKMARK NOT DEFINED. 1
1. Introdução à Estatística 1.1. Introdução A estatística é a ciência que se preocupa em: a) Organizar dados b) Descrever dados c) Analisar dados d) Interpretar dados Estatística Descritiva Estatística Inferencial A Estatística inferencial pode ser dividida em: Amostra Estatística Descritiva Cálculo de Probabilidade Estatística Inferencial 1.2. Tipos de variáveis 1.2.1. População É o conjunto de todos os elementos com pelo menos uma característica em comum. Esta característica comum deve delimitar claramente quais os elementos que pertencem à população e quais os elementos que não pertencem. É necessário que 100% de todos os elementos a serem avaliados estejam no grupo. Um grupo de elementos pode pertencer ou não a uma determinada população, dependendo da característica avaliada ou 2
característica de interesse (que está sendo estudada) da variável. Por exemplo, se forem avaliadas todas os brasileiros que contraíram dengue, 100% da população brasileira será estudada, pois a característica é ser brasileiro. Caso deseja-se analisar todos os brasileiros do sexo masculino, que contrariam dengue, serão extraídos da população todas as brasileiras do sexo feminino. A variável é o gênero, porém além das variáveis de interesse, temse também os elementos, que são todos os homens brasileiros que serão analisados. População azul Conjunto de variáveis População vermelha População verde 1.2.2. Amostra É um subconjunto de uma população, onde todos os seus elementos, deste subconjunto, serão examinados para estudos estatístico. A amostra necessita ser relevante, ou seja, mesmo sendo um pedaço da população, seus resultados necessitam aproximar-se estatisticamente do resultado de uma população. Usase uma amostra, quando uma população for muito grande, tornando-se complexa de ser estudada. População azul Conjunto de variáveis amostra População vermelha População verde 3
Lembrando que variável é a mesma coisa de característica. A característica da população é a variável que será analisada. Qualquer tipo de dado, precisa-se de pelo menos uma variável ou característica para ser analisada, senão não é possível a extração das informações que está sendo pesquisada. 1.2.3. As variáveis pode ser de dois tipos: Existem dois tipos de variáveis dois tipos de variáveis, sendo elas Qualitativas e Quantitativas. a) Qualitativa: as variáveis quantitativas são definidas por categorias, ou seja, representam uma classificação dos indivíduos. Como o próprio nome já diz, ela se refere a qualidade das variáveis que serão coletadas. Elas não são representadas por números, mas sim por atributos da variável. Por exemplo, uma menina pode ser alta ou baixa. A entidade menina poderá se mensurada pelos atributos alta e baixa. As variáveis qualitativas não são mensuradas, pois são atributos, portanto, possuem tratamento diferenciado. Ex.: bonito e feito, bom e ruim, cor dos olhos, sexo, etc. Existem dois tipos de variáveis qualitativas, sendo elas: i) Nominal como o próprio nome já diz, nominal refere-se a nome, ou seja, um rótulo. Ex.: cor dos olhos (castanho, azul, preto, etc). ii) Ordinal além e ser um nome, pode ser colocada em ordem (classe social, onde as pessoas são ordenadas dentro das classes A, B, C e D, por exemplo). b) Quantitativa: quando os valores indicam a quantidade: i) Variáveis Discretas: quando os valores formam um conjunto enumerável, finito ou infinito, assumindo valores inteiros. Geralmente são o resultado de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fumados por dia. ii) Variáveis Contínuas: quando assumem um valor dentro de um certo intervalo de variação. Exemplo: peso, altura, pressão, volume, etc as informações dos exemplos anteriores são numéricas, porém não enumerável. A variável aleatória contínua poderá assumir infinitos valores dentro de um intervalo, podendo inclusive ter casas decimais. Por exemplo, se duas cidades estão separadas por 100 km, e procura-se contar os tempos de viagens dos 4
carros, serão obtidos centenas de possíveis valores, porém dentro de um tempo mínimo e um máximo possível. Qualitativas Quantitativas Nominal Ordinal Discreta Contínua População: Pessoas Variável: cor dos olhos População: peças produzidas Variável: qualidade (perfeita ou defeituosa) População: Clientes Variável: gênero População: Pessoas Variável: grau de instrução (1, 2 ou 3 grau) População: peças produzidas Variável: Grande, médio ou pequeno População: Clientes Variável: qualidade de atendimento População: Pessoas Variável: número de filhos (1, 2, 3, etc.) População: peças produzidas Variável: número de defeitos População: Clientes Variável: número de clientes que compraram (1, 2, etc.) População: Pessoas Variável: peso (40 kg, 42,5 kg, etc.) População: peças produzidas Variável: Tamanho (10 cm, 12,7 cm, 12,76 cm) População: Cliente Variável: kg de verduras compradas (10,5 kg, 8 kg, etc.) 1.3. Tabelas de Frequência Considere um conjunto de n observações de uma variável X em estudo. Obtém-se as seguintes definições: a) A Frequência Absoluta f i de um valor x i da variável X é o número de vezes que o valor é observado. b) A Frequência Relativa ou Proporção p i de um valor x i da variável X é o quociente entre sua frequência absoluta e o número total de observações n. p,! =!! Frequência relativa! f! = n Soma das Frequências absolutas, p! = 1 Soma das Frequências relativas Exemplo: x i (n de defeito por peças) f i Frequência Absoluta (n de peças) 5
0 6 1 4 2 5 3 1 total 16 p,! = f! n = 5 16 = 0,3125 f! = f! + f! + f! + f! = 6 + 4 + 5 + 1 = 16 p!, = 1 x i (n de defeito por peças) f i (n de peças) p i (n de defeito por peças) 0 6 6/16 = 0,375 = 37,5% 1 4 4/16 = 0,25 = 25% 2 5 5/16 = 0,3125 = 31,25% 3 1 1/16 = 0,0625 = 6,25% total 16 1 = 100% No caso de variáveis discretas com grande número de observações ou no caso de variáveis contínuas, a distribuição de frequência costuma ser apresentadas com os dados divididos em classes de frequência, ou seja, os valores são divididos em K classes (ou subintervalos), cada um com uma amplitude h ou i (geralmente é conveniente que todas as classes tenha a mesma amplitude, mas isso não é obrigatório). A quantidade de classes poderá ser determinada por: k = n onde n é o número de observações. Exemplo: Seja X = idade, em anos, de um grupo com 30 anos ou mais e seja estes os valores observados: 35 42 33 59 63 31 55 42 77 74 54 66 44 41 33 39 48 50 41 31 65 70 36 40 40 52 62 58 39 37 58 62 6
Nota-se que neste grupo foram realizados 32 observações, variando de 31 a 77 anos. A amplitude da amostra será: 77 31 = 46 anos O número de classes será: k = 32 6 classes Como a amplitude é de 46 anos e o número de classes 6, obtém-se o intervalo das classes da seguinte forma: 46 6 8 anos A tabela de frequência ficaria: Idade (em anos) f i 30 38 7 38 46 9 46 54 3 54 62 5 62 70 5 70 78 3 Total 32 Observe que os valores 30 38 irão incluir valores maior ou igual a 30 (inclusive) até valores menores do que 38 (exclusive). Os valores das idades são Variáveis Contínuas e a contagem dos intervalos são Variáveis Discretas. 1.4. Exercícios 1. Em certa época, os salários mensais dos funcionários de uma rede hoteleira variavam de 1500 a 3250 u.m. Quais seriam os limites de classe se quiséssemos agrupá-los em 6 classes? 2. Os pontos médios de uma distribuição de leituras de temperatura são 16, 25, 34, 43, 52, 61. Determinar os limites de classe e o intervalo de classe. 3. Os seguintes dados referem-se ao número de acidentes diários num grande estacionamento, durante o período de 50 dias: 6 9 2 7 0 8 2 5 4 2 5 4 4 4 4 2 5 6 3 7 3 8 8 4 4 4 7 7 6 5 4 7 5 3 3 1 3 8 0 6 5 1 2 3 3 0 5 6 6 3 Construa a distribuição de frequência simples absoluta e relativa utilizando: 7
a) Dados não agrupados em classes; b) Dados agrupados em classes de amplitude 2. 4. Considere a seguinte distribuição de frequência correspondente aos diferentes preços de um determinado produto em 20 lojas pesquisadas. Preços ($) Número de lojas 50 2 51 5 52 6 53 6 54 1 Total 20 a) Quantas lojas apresentaram um preço de $52,00? b) Construa uma tabela de frequências simples relativas. c) Construa uma distribuição de frequência acumulada relativa d) Quantas lojas apresentaram um preço de até $51,00 (inclusive)? e) Qual a porcentagem de lojas com preço maior que $52,00? f) Qual a porcentagem de lojas com preço maior do que $51,00 e menor do que $54,00? 5. Com referência a tabela 1 abaixo: a) Quais os limites (inferior e superior) da primeira classe? b) A amplitude dos intervalos de classe é a mesma para todas as classes? c) Qual é o ponto médio da terceira classe? d) Suponha um aluguel mensal de $239,50. Identificar os limites superior e inferior da classe na qual esta observação seria registrada. e) Construir a distribuição de frequência simples relativa. f) Construir a distribuição de frequência acumulada relativa. Tabela 1. Distribuição de frequência de Diárias para 200 apartamentos Diárias ($) Número de apartamentos 150 --- 180 3 180 --- 210 8 210 --- 240 10 240 --- 270 13 8
270 --- 300 33 300 --- 330 40 330 --- 360 35 360 --- 390 30 390 --- 420 16 420 --- 450 12 Total 200 6. Na tabela abaixo são apresentados os preços médios da gasolina comum para áreas selecionadas dos Estados Unidos, março de 1975, em centavos de dólar. Área Preço por galão Área Preço por galão Atlanta Baltimore Boston Buffalo Chicago Cincinnati Cleveland Dallas Detroit Houston Kansas City 53.4 55.1 53.9 53.4 54.8 53.3 53.9 49.1 53.7 47.9 49.6 Los Angeles Milwaukee Minneapolis New York Philadelphia Pittsburgh St. Louis San Diego San Francisco Seattle Washington 53.5 50.1 50.3 55.2 52.9 53.4 52.3 55.3 56.8 52.7 55.2 Vamos supor que quiséssemos organizar aqueles preços em uma distribuição de frequências com cerca de 5 classes. Determinar a amplitude conveniente de cada intervalo, de tal forma que todos os intervalos de classe tenham iguais amplitudes, e construir a tabela de frequências fixando o limite inferior da primeira classe em 47.0. 7. A tabela seguinte representa as alturas (em cm) de 40 alunos de uma classe. 162 163 148 166 169 154 170 166 164 165 159 175 155 163 171 172 170 157 176 157 157 165 158 158 160 158 163 165 164 178 150 168 166 169 152 170 172 165 162 164 a) Calcular a amplitude total. b) Admitindo-se 6 classes, qual a amplitude do intervalo de classe? c) Construir uma tabela de frequências simples absoluta e relativa das alturas dos alunos admitindo que o limite inferior da 1 a classe seja 147 cm. d) Determinar os pontos médios das classes. 9
8. Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinados municípios do Estado: 144 152 159 160 160 151 157 146 154 145 141 150 142 146 142 141 141 150 143 158 Construir a tabela de frequências simples e acumuladas ( abaixo de e acima de ) tanto absolutas quanto relativas. 10
2. Características Numéricas de uma Distribuição de Dados 2.1. Introdução Para que se possa analisar determinadas populações ou amostras, será necessário buscar algumas características das distribuições de dados ou das frequências dados, compreendo suas quantidades. Estas quantidades são denominadas de MEDIDAS, que podem ser divididas em: 1. MEDIDAS DE POSIÇÃO 2. MEDIDAS DE DISPERSÃO Tais medidas servem para: a) MEDIDAS DE POSIÇÃO: que tem por finalidade localizar uma distribuição, utilizando a MÉDIA, MEDIANA e MODA b) MEDIDAS DE DISPERSÃO: que tem por finalidade caracterizar a variabilidade de uma população ou amostra, utilizando o DESVIO PADRÃO 2.2. Medidas de Posição As medidas de posição procuram indicar o centro da distribuição de dados ou de uma tabela de frequência, podendo ser utilizadas a média, mediada, e a região de maior concentração de frequência, denominada de moda. 2.2.1. Média Aritmética Para um conjunto de variáveis: (a) AMOSTRA Conjunto de dados: x =!!!! n x! Tabela de frequência: x =!!!! x! f! n! = x!!!! p!, 11
(b) POPULAÇÃO Conjunto de dados: μ =!!!! N x! Tabela de frequência:! μ =!!! x!!! N! = x!!!! p!, Exemplo de média para tabela de frequência: x i f i x i f i p i x i p i 42 3 126 0,06 2,52 47 8 376 0,16 7,52 52 16 832 0,32 16,64 57 12 684 0,24 13,68 62 7 434 0,14 8,68 67 3 201 0,06 4,02 72 1 72 0,02 1,44 n 50 2725 média 54,5 média 54,5 μ =!!!! x! n! μ =! x!!!! p!, Exemplo de média para conjunto de dados solucione utilizando a fórmula: 35 35 59 59 46 40 46 62 44 37 48 33 31 31 36 31 52 39 39 33 42 41 48 36 42 40 41 52 41 58 x =!!!! n x! =!"!!! x! 30 = 12
Solucione o exercício anterior montando tabela de frequência (não é preciso fazer classes use os dados brutos): i x i f i x i f i p i x i p i 1 31 3 2 33 2 3 35 2 4 36 2 5 37 1 6 39 2 7 40 2 8 41 3 9 42 2 10 44 1 11 46 2 12 48 2 13 52 2 14 58 1 15 59 2 16 62 1 total 30 Σ x i f i = 1 Σ x i p i = x =!"!!! x! f! 30 =!" x = x!!!! p!, = 13
Propriedade da Média: a. Multiplicando todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada por essa constante; b. Somando-se ou subtraindo-se uma constante a todos os valores da variável, a média do conjunto fica acrescida ou subtraída dessa constante. 2.2.2. Exemplos de Média Aritmética 1. Calcule a média aritmética simples em cada um dos seguintes casos: a) 15 ; 48 ; 36 b) 80 ; 71 ; 95 ; 100 c) 59 ; 84 ; 37 ; 62 ; 10 d) 1 ; 2 ; 3 ; 4 ; 5 ; 6 ; 7 ; 8 ; 9 e) 18 ; 25 ; 32 f) 91 ; 37 ; 84 ; 62 ; 50 2. João deseja calcular a média das notas que tirou em cada uma das quatro matérias a seguir. Calcule a média ponderada de suas notas, sendo que as duas primeiras provas, de cada disciplina valem 2 pontos e as outras duas valem 3 pontos: Inglês 1ª prova 6,5 2ª prova 7,8 3ª prova 8,0 4ª prova 7,1 Português 1ª prova 7,5 2ª prova 6,9 3ª prova 7,0 4ª prova 8,2 3. Determine a média de crianças por domicílio: Crianças f i 0 2 1 6 2 10 14
3 8 4 2 5 2 Total 30 4. Determine a média de idade de hipertensos de uma empresa: Idade (em anos) f i 20 30 2 30 40 11 40 50 10 50 60 9 60 70 8 Total 32 2.2.3. Mediana A mediana é uma quantidade que, assim como a média, caracteriza o centro de uma distribuição pertencente a um conjunto de dados. A diferença entre a média e mediana, é que a mediana descartas os pontos extremos, buscando analisar os dados centrais. (a) AMOSTRA: md (b) POPULAÇÃO: md PASSOS PARA MEDIANA PARA CONJUNTO DE DADOS DADOS NÃO AGRUPADOS: 1 Passo: Ordenar de forma crescente os n valores da variável em questão; 2 Passo: (i) Sendo n ímpar, a mediana será igual ao valor de ordem: i = n + 1 2 15
Exemplo: i x i 1 67 2 47 3 72 4 62 5 57 6 42 7 52 i x i 1 42 2 47 3 52 4 57 5 62 6 67 7 72 n=7 posição: i = n+1 2 = 7+1 2 = 4 i = n! = 57 (ii) Sendo n par, a mediana será o valor médio entre os valores de ordem: i! = n 2 e i! = n 2 + 1 Exemplo: md = n!! + n!! 2 i x i 1 67 2 47 3 72 4 62 5 57 6 42 7 69 8 52 i x i 1 42 2 47 3 52 4 57 5 62 6 67 7 69 8 72 n=8 posições: i 1 =!! =!! = 4 e i 2 =!! + 1 =!! + 1 = 5 16
md = n!!n! 2 = 57 + 62 2 = 119 2 = 59,5 Se for analisado as variações das amostras, houve um aumento no último elemento da série, de 52, 75 e 400. A média variou de 58,5 para 102. No entanto, não variação na mediana, pois a mesma descartas os elementos nas extremidades. Portanto, a mediana buscará os elementos centrais descartando os elementos dos extremos. A média já considera todos os valores, o que pode gerar mais distorção do que a Madiana. MEDIANA PARA DADOS AGRUPADOS Mediana para tabela de frequência sem intervalos de classe: Dada a seguinte tabela de frequência, onde a soma da frequência é ímpar: x i f i F i 42 3 3 47 8 11 52 16 27 57 50 77 62 7 84 67 4 88 72 1 89 f i 89 F! = f i + 1 2 Sendo F! a frequência acumulada. F! = 89 + 1 2 = 90 2 = 45 A mediana será o 45 termo, portanto a resposta será F 45 md = 57 17
x i f i F i intervalo 42 3 3 1 - - 3 47 8 11 4 - - 11 52 16 27 12 - - 27 57 50 77 27 - - 77 62 7 84 78 - - 84 67 4 88 85 - - 88 72 1 89 89 - - 89 f i 89 O valor de F! é o local onde se encontra o ponto central da amostra, lembrando que a frequência é o acumulo de elementos iguais. Suponha a seguinte tabela de dados não agrupados: i x i 1 5 2 5 3 6 4 8 5 9 6 9 7 9 8 9 9 10 10 10 11 10 12 11 13 11 14 11 15 12 16 13 17 14 18 14 19 15 20 15 21 15 n=21 Se a mediana, desta amostra, for calculada como dados não agrupados, será utilizada a seguinte fórmula: i =!!!! 18
A posição da mediana será: i =!"!!! =!!! = 11 A mediana será do 11 elemento será o x 11, ou seja, a mediana será md = x 11 = 10 Os dados da tabela anterior serão agrupados, formando uma tabela de frequência. O mesmo passará de dados não agrupados para dados agrupados. A tabela passará a ficar com o seguinte formato: i x i f i 1 5 2 2 6 1 3 8 1 4 9 4 5 10 3 6 11 3 7 12 1 8 13 1 9 14 2 10 15 3 n=21 O i representa o número de elementos existente na tabela de dados agrupados, ou seja, existem 10 grupos de números que se repetem. O n será a soma da frequência dos dados agrupados. Note que o n dos dados agrupados, é o mesmo valor do i dos dados não agrupados. A mediana irá determinar em que posição estará no centro da amostra, ou seja, onde o valor do elemento está no ponto central da amostra. Não será analisado o i e sim o F!. Acha-se o ponto central, com a mesma fórmula de dados não agrupados, trocando apenas o i pelo F!, portanto: F! = 21 + 1 2 = 22 2 = 11 Para achar a mediana será necessário fazer a frequência acumulada, então: i x i f i F i 1 5 2 2 2 6 1 3 3 8 1 4 4 9 4 8 5 10 3 11 19
6 11 4 14 7 12 1 15 8 13 1 16 9 14 2 18 10 15 3 21 n=21 i x i f i F i intervalo 1 5 2 2 1 - - 2 2 6 1 3 3 - - 3 3 8 1 4 4 - - 4 4 9 4 8 5 - - 8 5 10 3 11 9 - - 11 6 11 4 14 12 - - 14 7 12 1 15 15 - - 15 8 13 1 16 16 - - 16 9 14 2 18 17 - - 18 10 15 3 21 19 - - 21 n=21 Como elemento que contém a mediana é o 11 dos dados acumulados, então o mesmo poderá ser encontrado quando o i=6, e o F! = 14. Note que quando o i = 10, significa que acumularam 10 elementos. Lembrando que o elemento que se encontra a mediana será determinado pelos dados acumulados F!. Dada a seguinte tabela de frequência, onde a soma da frequência é par: x i f i F i 42 3 3 47 8 11 52 16 27 57 50 77 62 7 84 67 3 87 72 1 88 f i 88 Sendo o número da frequência par: 20
F! = f i 2 + (f i 2 + 1) 2 F! = 88 2 + 88 2 + 1 44 + 44 + 1 = = 44,5 2 2 A mediana será o 44,5 termo, portanto a resposta será F 44,5 md = 57 x i f i F i intervalo 42 3 3 1 - - 3 47 8 11 4 - - 11 52 16 27 12 - - 27 57 50 77 28 - - 77 62 7 84 77 - - 83 67 3 87 84 - - 87 72 1 88 88 - - 88 f i 88 Mediana para tabela de frequência com intervalo de classe: Para a mediana com intervalo de classe, é necessário utilizar a seguinte fórmula para o cálculo: md = l! + n 2 F!"# f! h Sendo: l! limite inferior da classe da mediana n número de elementos F!"# frequência acumulada da classe anterior f! frequência da classe mediana h amplitude da classe anterior 21
Para determinar a classe onde a mediana se encontra, será necessário a utilização da seguinte fórmula: F! = f! 2 Sendo o i o índice da frequência acumulada. Exemplo para obter a mediana da tabela de frequência: Classes Frequência 39,5 44,5 3 3 44,5 49,5 8 11 49,5 54,5 16 27 54,5 59,5 12 39 59,5 64,5 7 46 64,5 69,5 3 49 69,5 74,5 1 50 50 f i F i Determinando a classe mediana: i = f! 2 = 50 2 = 25 A classe que conterá a mediana será o 25 termos, ou seja, será o F 25. Este termo se encontra na classe 49,5 54,5 Classes Frequência l! = 49,5 n = 50 F!"# = 11 39,5 44,5 3 3 44,5 49,5 8 11 49,5 54,5 16 27 54,5 59,5 12 39 59,5 64,5 7 46 64,5 69,5 3 49 69,5 74,5 1 50 50 f i F i 22
f! = 16 h = 54,5 49,5 = 5 md = l! + n 2 F!"# f! h = 49,5 + 50 2 11 16 5 = 53,875 2.2.4. Exemplos de Mediana 1. Considere a amostra de 6 clientes que compram musica on-line. Foi perguntado sobre o quantas músicas compra por mês : 5 8 10 7 10 14 Calcule a média e mediana e analise. 2. O processo de empacotamento de uma companhia de cereais foi ajustado de modo que uma média de 13,0 kg de cereais é colocada por saco. É claro que nem todos os sacos têm precisamente 13,0 kg, devido às variações comuns existentes na máquina que faz o empacotamento. Para estimar a média e a variabilidade desse processo de empacotamento, uma amostra aleatória de 17 pacotes foi selecionada e analisada o peso de cada pacote (em kg). 13,0 13,6 12,8 12,8 12,4 13,9 13,0 13,1 13,4 12,8 12,5 12,6 13,6 13,7 13,4 11,8 13,0 Com base nesta amostra, calcule a média e a mediana. Interprete os resultados. 3. Encontre a mediana: i Salário Mensal f i F i 1 450 550 8 2 550 650 10 3 650 750 11 4 750 850 16 5 850 950 13 6 950 1050 5 7 1050 1150 1 Total 64 4. Uma empresa quer conhecer o perfil de seus funcionários que são fumantes. Quer saber qual é a mediana da idade dos fumantes: 23
x i f i 25 8 30 10 35 16 40 29 45 12 50 18 55 27 120 5. A idade média dos candidatos a um determinado curso de especialização sempre foi baixa, na ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiuse fazer uma campanha de divulgação. Para verificar se a campanha foi ou não eficiente, fez-se um levantamento da idade dos candidatos, gerando duas tabelas, uma antes e outra depois da campanha. Antes da campanha Idade (em anos) f i 18 22 30 22 26 10 26 30 8 30 34 2 34 38 3 Total 53 Depois da campanha Idade (em anos) f i 18 22 36 22 26 11 26 30 9 30 34 5 34 38 6 Total 67 Baseando-se nestes resultados, você diria que a campanha produziu algum efeito, isto é, aumentou a idade média? Por quê? 2.2.5. Moda 24
Denomina-se moda o valor que ocorre com maior frequência em uma série de valores. MODA PARA DADOS NÃO AGRUPADOS: Basta procurar o valor que mais se repete. Ex: 3,4,5,6,6,6,6,7,7,8,9 A série tem moda igual a 6 (valor modal M o = 6) Pode acontecer também uma série sem valor modal. Ex:1,2,3,4,5,6,7,8,9 Série amodal Pode acontecer também uma série com mais de uma moda. Ex: 1,2,2,2,3,4,5,6,6,6,7,8,9 Série tem duas modas (M o = 2 e M o = 6) - série bimodal MODA PARA DADOS AGRUPADOS: Moda para tabela de frequência sem intervalos de classe: Basta identificar o valor da variável que possui maior frequência. Ex: Seja a seguinte distribuição abaixo, o valor modal M o = 3 n o de filhos (x i ) que se f i deseja ter 0 2 1 6 2 10 3 12 4 4 Total 34 Moda para tabela de frequência com intervalos de classe: A classe com maior frequência é denominada classe modal, o cálculo da moda bruta é semelhante ao do ponto médio do intervalo de classe. Dado a tabela de frequência: 25
Idade (em anos) f i 18 22 30 22 26 10 26 30 8 30 34 2 34 38 3 Total 53 Para se obter a moda, calcula-se a média da classe com maior frequência. O intervalo com maior frequência é o de 18 22, com f 1 = 30. M! = l! + l! 2 = 18 + 22 2 = 40 2 = 20 Sendo: l! limite inferior l! limite superior 2.2.6. Exemplos de Moda 1. Determine a Moda da tabela abaixo: i Salário Mensal f i F i 1 450 550 8 2 550 650 10 3 650 750 11 4 750 850 16 5 850 950 13 6 950 1050 5 7 1050 1150 1 Total 64 2.2.7. Relação entre Média e Mediana É importante, para compreender a relação da média e a da mediana, comparar os valores entre a média e a mediana. 26
Média Aritmética i xi 1 67 2 47 3 72 4 62 5 57 6 42 7 69 8 52 média 58,5 i xi 1 67 2 47 3 72 4 62 5 57 6 42 7 69 8 75 média 61,375 i xi 1 67 2 47 3 72 4 62 5 57 6 42 7 69 8 400 média 102 Mediana i xi 1 42 2 47 3 52 4 57 5 62 6 67 7 69 8 72 mediana 59,5 i xi 1 42 2 47 3 52 4 57 5 62 6 67 7 69 8 75 mediana 59,5 i xi 1 42 2 47 3 52 4 57 5 62 6 67 7 69 8 400 mediana 59,5 27
Média Aritmética X Mediana para dados Agrupados Classes Frequência Média f i X i f i * X i 39,5 44,5 3 42 126 44,5 49,5 8 47 376 49,5 54,5 16 52 832 54,5 59,5 12 57 684 59,5 64,5 7 62 434 64,5 69,5 3 67 201 69,5 74,5 1 72 72 50 2725 Média 54,5 Classes Frequência f i 39,5 44,5 3 3 44,5 49,5 8 11 49,5 54,5 16 27 54,5 59,5 12 39 59,5 64,5 7 46 64,5 69,5 3 49 69,5 74,5 1 50 50 mediana 53,875 Classes Frequência Média f i X i f i * X i 39,5 44,5 3 42 126 44,5 49,5 8 47 376 49,5 54,5 16 52 832 54,5 59,5 50 57 2850 59,5 64,5 7 62 434 64,5 69,5 3 67 201 69,5 74,5 1 72 72 88 4891 Média 55,57954545 Classes Frequência 39,5 44,5 3 3 44,5 49,5 8 11 49,5 54,5 16 27 54,5 59,5 50 77 59,5 64,5 7 84 64,5 69,5 3 87 69,5 74,5 1 88 88 mediana 56,2 f i F i F i 28
Em Estatística, a dispersão que também pode ser chamada de variabilidade, mostra, em uma amostra, se seus elementos são muito ou pouco distantes um dos outros. A dispersão pode ser medida pela variância, desvio padrão e pela amplitude interquartil. Porém pode-se fazer uma avaliação inicial, quando compara-se a Média, Mediana e a Moda de uma determinada amostra. Por exemplo, dada três distribuições não agrupadas, a seguir: Amostra 1 Amostra 2 Amostra 3 i x i x i x 1 7 1 2 1 2 2 9 2 4 2 2 3 10 3 6 3 2 4 15 4 8 4 2 5 16 5 10 5 2 6 21 6 12 6 2 7 23 7 14 7 2 determine a Média, Mediana e a Moda: Média Mediana Moda Amostra 1 14,42 15 amodal Amostra 2 8 8 amodal Amostra 3 2 2 2 Qual das amostras possui a maior dispersão? A amostra 1 possui, a princípio maior dispersão, pois os valores da média e mediana são diferentes. Quanto mais próximas são as medidas de posições, maior a tendência das mesmas terem baixa ou nenhuma dispersão. 2.2.8. Exercícios 1. As idades dos 11 alunos de uma turma de matemática são respectivamente iguais a:11;11;11;12;12;13;13;13;13;15;16. Determine a Média, Mediana e Moda e interprete o resultado. 2. Numa empresa, vinte operários têm salário de 4.000,00 mensais; dez operários têm salário de 3 000,00 mensais e trinta têm salário de 2.000,00 mensais. Qual é o salário médio desses operários? 29
3. A média das idades dos cinco jogadores de um time de basquete é 23,20 anos. Se o pivô dessa equipe, que possui 27 anos, for substituído por um jogador de 20 anos e os demais jogadores forem mantidos, então qual será a média de idade dessa equipe? 4. Considere um grupo formado por cinco amigos com idade de 13, 13, 14, 14 e 15 anos. O que acontece com a média de idade desse grupo, se um sexto amigo com 16 anos juntar-se ao grupo? 5. A altura média, em metros dos cinco ocupantes de um carro era Y. Quando dois deles, cujas alturas somavam 3,45 m, saíram do carro, a altura média dos que permaneceram passou a ser 1,8 m. Qual a altura média quando todos os ocupantes estavam no carro? 6. A média aritmética entre 50 números é igual a 38. Dois números são retirados: o número 55 e o 21. Calcule a média aritmética dos números que restaram. 7. Num concurso de vestibular para dois cursos A e B, compareceram 500 candidatos para o curso A e 100 candidatos para o curso B. Na prova de matemática, a média aritmética geral, considerando os dois cursos, foi 4,0. Mas, considerando apenas os candidatos do curso A, a média cai para 3,8. Qual a média dos candidatos do curso b? 8. A sequência abaixo, mostra a idade de 8 alunos da sexta série de um colégio no Rio de Janeiro. 11-12-11-13-12-12-11-10. Qual será a mediana das idades? 9. O salário-hora de cinco funcionários de uma companhia são, 77,00; 90,00; 83,00; 142,00; 88,00. Determine: I a média dos salários-hora II o salário-hora mediano 10. Determinar a media, mediana, moda dos seguintes conjuntos de valores: a) 2,3 2,1 1,5 1,9 3,0 1,7 1,2 2,1 2,5 1,3 2,0 2,7 0,8 2,3 2,1 1,7 b) 37 38 33 42 35 44 36 28 37 35 33 40 36 35 37 30
11. Determinar a media, mediana, moda das distribuições a seguir: Diárias ($) Número de apartamentos 150 --- 180 3 180 --- 210 8 210 --- 240 10 240 --- 270 13 270 --- 300 33 300 --- 330 40 330 --- 360 35 360 --- 390 30 390 --- 420 16 420 --- 450 12 Total 200 12. Determinar a media, mediana, moda das distribuições a seguir: Preços ($) Número de lojas 50 2 51 5 52 6 53 6 54 1 Total 20 13. Determinar a media, mediana, moda das distribuições a seguir: Idade (em anos) f i 30 38 7 38 46 9 46 54 3 54 62 5 62 70 5 70 78 3 Total 32 http://calculemais.com.br/exercicios-de-matematica/medidas-de-tendenciacentral-exercicio-1.html 31
2.3. Medidas de Dispersão 2.3.1. Introdução Muitas vezes, a média não é suficiente para avaliar um conjunto de dados, pois podem haver dados específicos que geram distorção da grande maioria de valores da amostra. Por exemplo, a média dos salários de uma empresa, podem ser distorcidos, caso hajam valores muito altos ou muito baixos, diferindo do padrão salarial pago. Analise o quadro de frequência abaixo e avalie se há uma distorção na média: i Salários)anual),)x Frequencia),)f(x) x).)f(x) 1 R$((((((((((( 7.800,00 45 R$((((( 351.000,00 2 R$((((((((( 18.200,00 108 R$( 1.965.600,00 3 R$((((((((( 27.300,00 32 R$((((( 873.600,00 4 R$((((((( 650.000,00 10 R$( 6.500.000,00 Total)de)salários 195 R$) 9.690.200,00 Média)anual R$))))))) 49.693,33 Média)mensal)incluindo)13 R$))))))))) 3.822,56 i Salários)anual),)x Frequencia),)f(x) x).)f(x) 1 R$((((((((( 7.800,00 45 R$((((( 351.000,00 2 R$(((((( 18.200,00 108 R$( 1.965.600,00 3 R$(((((( 27.300,00 32 R$((((( 873.600,00 4 R$(((( 650.000,00 0 R$(((((((((((((((((( 0 Total)de)salários 185 R$) 3.190.200,00 Média)anual R$))))))) 17.244,32 Média)mensal)incluindo)13 R$))))))))) 1.326,49 Quadro 1: Foram considerados para determinar a média, os salários de 10 diretores. A média mensal incluindo o 13 ficou em R$ 3.822,56 Quadro 2: Foram excluídos os salários dos 10 diretores da média total. A média mensal, incluindo o 13 passou para R$1.326,49 Compare os dois quadros acima. Qual dos dois salários médios representam melhor a realidade salarial da empresa? Veja que no primeiro quadro foi inserido o salário dos diretores, que representam 5,4% do total de funcionários da empresa. Se um candidato quisesse analisar se a empresa tem salários favoráveis, certamente ao avaliar o quadro 1, ele iria ter uma percepção que a média salarial seria 288% acima do que de fato é. Portanto a média gera uma noção errada do conjunto de dados que que foram apresentados. Como solucionar este problema? Como compreender o que de fato corresponde a média? Para compreender a média é necessário entender quão dispersa é a amostra. Porém como se faz isto? Utilizando as medidas de dispersão. 32
É importante, então, conhecer outra medida, que é a diferença (dispersão) existente entre a média e os valores do conjunto. As medidas de dispersão, serão calculadas através da Variância e do Desvio Padrão. A Variância e do Desvio Padrão são medidas de dispersão que indicam a regularidade de um conjunto de dados em função da média aritmética. As medidas de dispersão tem por objetivo descrever os dados buscando informar o grau de dispersão ou afastamento dos valores observados em torno da média. A medida de dispersão informa se um conjunto de dados é homogêneo (pouca variabilidade) ou heterogêneo (muita variabilidade). Para melhor entendimento, suponha o seguinte exemplo: uma universidade quer selecionar um aluno para o doutorado, e no do processo seletivo sobraram dois candidatos para uma única vaga. Foram avaliadas as notas, onde os gráficos resultantes ficaram como mostrados a seguir: 12" Aluno A 12" Aluno B 10" 10" 8" 8" 6" 6" 4" 4" 2" 2" 0" 0" 2" 4" 6" 8" 10" 12" 0" 0" 2" 4" 6" 8" 10" 12" Se os professores da universidade preferem alunos regulares, quais dos dois seria o ideal para ser aprovados? Certamente o aluno B seria o escolhido, que apesar de não ter nenhum 10, é o que se comportou mais homogeneamente. O que pretende com as medidas de dispersão é compreender como os dados são distribuídos, ou seja, o quanto os mesmos são homogêneos ou próximos à média. 2.3.2. Variância A variância de uma variável aleatória que representa uma medida da sua dispersão estatística, indicando o quão longe em geral os seus valores se encontram do Valor Esperado. O Valor Esperado, também chamado esperança matemática, de uma variável aleatória representa o valor médio "esperado" de uma experiência se ela for repetida muitas vezes. Se todos os eventos tiverem igual probabilidade, o valor esperado é a média 33
aritmética. Quando o valor esperado E(x) é igual a média µ tem-se E(x) = µ. Em estatística, o conceito de variância também pode ser usado para descrever um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância da população. Se o conjunto das observações é uma amostra estatística, chamamos-lhe de variância amostral (ou variância da amostra). A variância da População y i onde i = 1, 2,..., N é dada por: σ! = 1 N (x! μ)! Onde: σ! Variância N população x! variável μ média da população A variância da Amostra y i onde i = 1, 2,..., N é dada por: Onde: S! = 1 n 1 (x! x)! S! Variância n amostra x! variável x média da amostra Exemplo: Considere o seguinte quadro de resultados de um teste de 3 alunos: Alunos Nota 1 Nota 2 Nota 3 Nota 4 Nota 5 José 63 60 59 55 62 João 58 60 61 58 62 Pedro 60 64 58 62 55 34
Considerando que neste quadro foram apresentadas amostras. José: João Pedro x = 59,8 x = 58,2 x = 59,6 Variância José: i x i x x i - x (x i - x ) 2 1 63 59,8 3,2 10,24 2 60 59,8 0,2 0,04 3 59 59,8-0,8 0,64 4 55 59,8-4,8 23,04 5 62 59,8 2,2 4,84 Σ 38,8 S 2 9,7 Variância João: i x i x x i - x (x i - x ) 2 1 58 59,8-1,8 3,24 2 60 59,8 0,2 0,04 3 61 59,8 1,2 1,44 4 58 59,8-1,8 3,24 5 62 59,8 2,2 4,84 Σ 12,8 S 2 3,2 Variância Pedro: i x i x x i - x (x i - x ) 2 1 60 59,8 0,2 0,04 2 64 59,8 4,2 17,64 3 58 59,8-1,8 3,24 4 62 59,8 2,2 4,84 5 55 59,8-4,8 23,04 35
Σ 48,8 S 2 12,2 Comparação entre os três alunos: José João Pedro Média 59,8 59,8 59,8 Variância 9,7 3,2 12,2 Mesmo que todas as médias sejam iguais, as notas entre os alunos foram diferentes. A amostra com maior dispersão é a do Pedro, ou seja, esta é a distribuição com maior variação das suas notas. João quem possui as notas mais próximas às médias, portanto é que teve maior regularidade. Note que quanto menor a variância, mais próximos os valores estão da média. Da mesma forma, quanto maior ela é, mais os valores estão distantes da média. 2.3.3. Desvio Padrão Em Estatística, o Desvio Padrão é a medida mais comum da dispersão estatística (representado pelo símbolo sigma, σ). Ele mostra o quanto de variação ou "dispersão" existe em relação à média (ou valor esperado). Um baixo desvio padrão indica que os dados tendem a estar próximos da média; um desvio padrão alto indica que os dados estão espalhados por uma gama de valores. A Desvio Padrão da População y i onde i = 1, 2,..., N é dada por: σ = 1 N (x! μ)! Onde: σ Variância N população x! variável μ média da população 36
por: O Desvio Padrão da Amostra y i onde i = 1, 2,..., N é dada S = 1 n 1 (x! x)! Onde: S Variância n amostra x! variável x média da amostra Exemplo: Considere o seguinte quadro de resultados de um teste de 3 alunos: Alunos Nota 1 Nota 2 Nota 3 Nota 4 Nota 5 José 63 60 59 55 62 João 58 60 61 58 62 Pedro 60 64 58 62 55 Considerando que neste quadro foram apresentadas amostras. José: João Pedro x = 59,8 x = 58,2 x = 59,6 Variância José: i x i x x i - x (x i - x ) 2 1 63 59,8 3,2 10,24 2 60 59,8 0,2 0,04 3 59 59,8-0,8 0,64 4 55 59,8-4,8 23,04 5 62 59,8 2,2 4,84 37
Σ 38,8 S 3,11 Variância João: i x i x x i - x (x i - x ) 2 1 58 59,8-1,8 3,24 2 60 59,8 0,2 0,04 3 61 59,8 1,2 1,44 4 58 59,8-1,8 3,24 5 62 59,8 2,2 4,84 Σ 12,8 S 1,79 Variância Pedro: i x i x x i - x (x i - x ) 2 1 60 59,8 0,2 0,04 2 64 59,8 4,2 17,64 3 58 59,8-1,8 3,24 4 62 59,8 2,2 4,84 5 55 59,8-4,8 23,04 Σ 48,8 S 12,2 Comparação entre os três alunos: José João Pedro Média 59,8 59,8 59,8 Variância 3,11 1,79 3,49 2.3.1. Exercícios 1. Determinar a Variância e o Desvio Padrão dos seguintes conjuntos de valores: a) 2,3 2,1 1,5 1,9 38
3,0 1,7 1,2 2,1 2,5 1,3 2,0 2,7 0,8 2,3 2,1 1,7 b) 37 38 33 42 35 44 36 28 37 35 33 40 36 35 37 2. Os tijolos produzidos por uma empresa devem suportar uma força mínima de compressão média de 10 kg/cm2 e que o desvio padrão não deve ser superior a 5% da média. Num ensaio realizado em um lote de tijolos, foram registrados os seguintes dados de uma amostra de 6 tijolos, para sua resistência à compressão em kg/cm2: 12; 11; 10; 9; 8,5 e 11,5. O lote de tijolos ser aprovado ou reprovado? 3. Num determinado processo de fabricação foram feitas 50 observações de uma característica de qualidade, resultando nas seguintes medidas de espessura em milímetros. A especificação para este processo é de 90 ± 20mm. 95 87 110 113 85 78 92 101 115 78 81 81 61 109 103 73 74 122 60 102 101 66 109 77 93 91 84 114 87 107 93 74 112 100 80 102 95 115 81 94 99 124 93 60 93 93 108 90 94 66 Pede-se: a) As frequências absolutas: simples e acumulada b) As frequências relativas: simples e acumulada c) O histograma para o processo d) Qual a porcentagem de produtos defeituosos gerados por esse processo? e) A média e o desvio padrão do processo 4. Os dados a seguir correspondem ao diâmetro, em mm, de 30 esferas de rolamento produzidas por uma máquina. 137 154 159 155 154 158 140 149 157 139 167 159 158 145 157 160 129 162 151 159 159 152 169 155 155 143 150 134 151 139 Pede-se: a) As frequências absolutas: simples e acumulada b) As frequências relativas: simples e acumulada c) O histograma para o processo 39
d) Qual a porcentagem de produtos defeituosos gerados por esse processo? e) A média e o desvio padrão do processo 40