Probabilidade e Estatística Prof. Dr.Narciso Gonçalves da Silva http://paginapessoal.utfpr.edu.br/ngsilva Estatística Descritiva
Distribuição de frequência Para obter informações de interesse sobre a característica em estudo, deve-se agrupar os dados obtidos em uma distribuição de frequência, onde os valores observados não mais aparecerão individualmente.
Rol Crescente Distribuição de frequência Os dados abaio representam as idades (em anos) dos alunos de Estatística de um determinado curso da UTFPR de Curitiba do ano de 200. 20 2 2 2 22 22 22 22 23 23 23 23 23 23 23 24 24 24 24 24 24 24 24 24 25 25 25 25 25 25 26 26 26 26 28
Distribuição de frequência Idade ( i ) Número de alunos (f i ) 20 2 3 22 4 23 7 24 9 25 6 26 4 27 0 28 Total 35 f ac 4 8 5 24 30 34 34 35 f r /35 3/35 4/35 7/35 9/35 6/35 4/35 0/35 /35
freqüência Histograma HISTOGRAMA 0 8 6 4 2 0 20 2 22 23 24 25 26 27 28 idades
Distribuição de frequência em classes Considere o eemplo: As alturas (em metros) de 30 alunos de uma sala de aula são os seguintes:,50,53,68,5,63,65,54,55,65,56,57,50,60,48,6,52,63,47,52,50,52,46,45,66,65,59,5,58,62,60 Chama-se classe o intervalo considerado para as alturas.
Distribuição de frequência em classes Para se construir uma distribuição de freqüência utilizando classes, deve-se determinar: a) Número de classes (k): Utiliza-se a Fórmula de Sturges: k = + 3,32.log n onde: n = é o número de dados e k deve ser um número inteiro positivo b) Amplitude total dos dados (A): A = X ma X min, onde X ma é o valor máimo da amostra e X min é o valor mínimo da amostra
Distribuição de frequência em classes c) Intervalo de classe (h): h = A/k h deve ser um valor de modo que as classes acomodem todos os dados da amostra d) Limite inferior (L i ) e Limite superior (L s ) da classe: L i é o menor valor dos dados da amostra L s = L i + h
Distribuição de frequência em classes Alturas (m) f i f ac i,45,49 4 4,47,49,53 8 2,5,53,57 4 6,55,57,6 5 2,59,6,65 4 25,63,65,69 5 30,67 Total 30
Conceitos Medidas de Tendência Central Medidas de tendência central são medidas estatísticas, cujos valores estão próimos do centro de um conjunto de dados dispostos ordenadamente em rol crescente ou decrescente. As mais conhecidas são: Média aritmética Média geométrica Média harmônica Mediana Moda
Medidas de Tendência Central Média Aritmética a) Dados brutos A média aritmética de um conjunto de n valores, 2, 3,..., n é definida por: 2 3... n n i n n i Eemplo: As idades (em anos) de 5 jogadores de futebol são: 8, 6, 5, 7, 7 A média aritmética das idades destes jogadores é: 8 6 5 7 7 5 2 3 4 5 n 6,6 anos
Medidas de Tendência Central Média Aritmética b) Dados agrupados Se, 2, 3,..., k ocorrem com as freqüências f, f 2, f 3,...,f k,respectivamente, a média aritmética é dada por:. f. f n. f.... f 2 2 3 3 k k i k. f Caso os dados sejam distribuídos em classes, os valores, 2, 3,..., k correspondem aos pontos médios das k classes, ou seja: i L i 2 L s n i i
Medidas de Tendência Central Média Aritmética (Eemplo) Idade ( i ) Número de alunos (f i ) i.f i 20 20 2 3 63 22 4 88 23 7 6 24 9 26 25 6 50 26 4 04 27 0 0 28 28 Total 35 830 830 = = 35 ~ 23,7 23,74... anos
Medidas de Tendência Central Média Aritmética (Eemplo) Alturas (m) f i i i.f i,45,49 4,47 5,88,49,53 8,5 2,08,53,57 4,55 6,20,57,6 5,59 7,95,6,65 4,63 6,52,65,69 5,67 8,35 Total 30 46,98 46,98 = =,5666... ~, 57metros 30
Medidas de Tendência Central Média Geométrica a) Dados brutos A média geométrica de um conjunto de n valores, 2, 3,..., n é definida por: n.... 2 3 n M g = = 0 n i log Eemplo: A média geométrica das idades dos 5 jogadores de futebol do eemplo citado anteriormente é: n i M g = 5 8.6.5.7.7 6,6 anos
Medidas de Tendência Central Média Geométrica b) Dados agrupados Se, 2, 3,..., k ocorrem com as freqüências f, f 2, f 3,...,f k,respectivamente, a média geométrica é dada por: M g = n f f 2 f3. 2. 3.. k f k = 0 k i f i. log n i
Medidas de Tendência Central Média Geométrica (Eemplo) Idade ( i ) Número de alunos (f i ) 20 2 3 22 4 23 7 24 9 25 6 26 4 27 0 28 Total 35 f i.log i,30 3,97 5,37 9,53 2,42 8,39 5,66 0,45 48,09 M g = 48,09 0 35 M g = 23,66 anos
Medidas de Tendência Central Média Geométrica (Eemplo) Alturas (m) f i i f i.log i,45,49 4,47 0,67,49,53 8,5,43,53,57 4,55 0,76,57,6 5,59,0,6,65 4,63 0,85,65,69 5,67, Total 30 5,83 k i= f.log i 5,83 M g = 0 n = 0 30 =, 56 i metros
Medidas de Tendência Central Média Harmônica a) Dados brutos A média harmônica de um conjunto de n valores, 2, 3,..., n é definida por: M h = + 2 n + 3 +... + n Eemplo: A média harmônica das idades dos 5 jogadores de futebol do eemplo anterior é: 5 M h = 8 + 6 + + 5 7 + 7 = 6,54 anos
Medidas de Tendência Central Média Harmônica b) Dados agrupados Se, 2, 3,..., k ocorrem com as freqüências f, f 2, f 3,...,f k,respectivamente, a média aritmética é dada por: M h = f f + 2 2 k i i= f + f 3 3 f +... + k n Caso os dados sejam distribuídos em classes, os valores, 2, 3,..., k correspondem aos pontos médios das k classes.
Medidas de Tendência Central Média Harmônica (Eemplo) M h Alturas (m) f i i f i / i,45,49 4,47 2,72,49,53 8,5 5,30,53,57 4,55 2,58,57,6 5,59 3,4,6,65 4,63 2,45,65,69 5,67 2,99 = f Total 30 9,8 f + 2 2 k i= f + f 3 i 3 f +... + k n = 30 9,8 =,56 m
Medidas de Tendência Central Mediana a) Dados brutos A mediana M e de um conjunto de n valores ordenado, 2, 3,..., n é representada pelo valor central do conjunto para n ímpar e pela média aritmética dos dois valores centrais para n par. Eemplos: a) 3, 3, 4, 5, 7, 8, 9, 0, 2 Como n = 9, então, M e = 7 b) 3, 3, 4, 5, 7, 7, 9, 0 5 7 Como n = 8, então, M e = 6 2
Medidas de Tendência Central Mediana a) Dados agrupados em intervalos de classes Utiliza-se a epressão: ' P f ac M L e i. h f M e Onde: n P é a posição da classe mediana 2 é o limite inferior da classe mediana L i f ' ac f M e é a frequência acumulada da classe anterior à classe mediana é frequência da classe mediana h é intervalo da classe mediana
Medidas de Tendência Central Mediana Eemplo : Determine a mediana da distribuição abaio. Idade ( i ) Número de alunos (f i ) f ac 20 2 3 4 22 4 8 23 7 5 24 9 24 25 6 30 26 4 34 27 0 34 28 35 Total 35 Posição da mediana: P = 35 2 = a 7,5 M e = 24 anos altura Como n é ímpar, a mediana é a 8ª idade
Medidas de Tendência Central Mediana Eemplo 2: Determine a mediana da distribuição abaio. Alturas (m) f i f ac,45,49 4 4,49,53 8 2,53,57 4 6,57,6 5 2,6,65 4 25,65,69 5 30 Total 30 Posição da mediana: P = 30 2 = a 5 altura Cálculo da mediana: P - f ac Me = Li + ( ). h f M e =,53+ ' M e 5-2 ( 4 M e =,56 metros ).0,04
Medidas de Tendência Central Moda a) Dados brutos A moda M o de um conjunto de n valores, 2, 3,..., n é o número desse conjunto que possuir a maior repetição. Se o conjunto não tiver valores repetidos não eistirá moda (amodal) e se dois valores estiverem igualmente repetidos, tem-se então duas modas e o conjunto será dito bimodal. A moda é o valor ao qual está associado a freqüência mais alta.
Medidas de Tendência Central Moda a) Dados agrupados em intervalos de classes Fórmula de Czuber: Onde: L i 2 h M o Li. h 2 é o limite inferior da classe modal. Chama-se classe modal à classe de maior freqüência absoluta é a diferença entre a freqüência da classe modal e a freqüência da classe imediatamente anterior é a diferença entre a freqüência da classe modal e a freqüência da classe imediatamente posterior é o intervalo da classe modal.
Medidas de Tendência Central Moda Eemplo : Determine a moda da distribuição abaio. Idade ( i ) Número de alunos (f i ) 20 2 3 22 4 23 7 24 9 25 6 26 4 27 0 28 Total 35 Moda é a idade que mais se repete, ou seja, a que tem maior frequência. Logo, M o = 24 anos.
Medidas de Tendência Central Moda Eemplo 2: Determine a moda da distribuição abaio. k Alturas (m) f i f ac,45,49 4 4 2,49,53 8 2 3,53,57 4 6 4,57,6 5 2 5,6,65 4 25 6,65,69 5 30 Total 30 Classe modal: 2ª Cálculo da moda: Δ Mo = Li + ( ). h Δ + Δ M o 4 =,49 + ( ).0,04 4 + 4 M o =,5 metros 2
Conceitos Medidas de Dispersão As medidas de tendência central, por si só, não são suficientes para caracterizar duas distribuições estatísticas. Eemplo: Dois candidatos à emprego fizeram 5 provas e vamos comparar seus rendimentos com base na media aritmética. Candidato A: 70, 7, 69, 70, 70 Média = 70 Candidato B: 40, 80, 98, 62, 70 Média = 70 Com base somente na média aritmética diríamos que os dois candidatos apresentaram o mesmo rendimento. Porém, como podemos observar o candidato A apresentou notas mais uniformes.
Conceitos Medidas de Dispersão Para avaliar quantitativamente o grau de variabilidade ou dispersão dos valores de um conjunto de números em torno do valor médio, utiliza-se ferramentas estatísticas denominadas medidas de dispersão. As principais medidas são: Amplitude total Desvio médio Variância Desvio-padrão Coeficiente de variação
Medidas de Dispersão Amplitude Total Amplitude total é a diferença entre o maior e o menor valor dos dados. Eemplo: A tabela abaio apresenta o rendimento diário (em %) de três empregados: Empregado Dia Amplitude Média 2 3 4 5 total A 82 70 65 60 73 70 82 60 = 22 B 60 78 68 62 82 70 82 60 = 22 C 53 72 75 75 75 70 75 53 = 22 Muitas vezes a amplitude total não é a medida de dispersão mais adequada para avaliar a dispersão, como mostrou o eemplo anterior.
Medidas de Dispersão Desvio Médio (d) O desvio médio de um conjunto de n valores, 2, 3,..., n é dada pela epressão: d = n i= i n - Para dados agrupados: d = k i= f i n i - Esta medida de dispersão considera todos os valores do conjunto de dados.
Medidas de Dispersão Variância Amostral (s 2 ) A variância de um conjunto de n valores, 2, 3,..., n é a média aritmética dos quadrados do desvio médio de cada valor se estes dados são de uma população. Se os dados são de uma amostra, a variância é dada pela epressão: s 2 = n i= ( i n - - ) Para dados agrupados: s 2 = 2 k i= ( i - ) n - 2. f i
Medidas de Dispersão Desvio-padrão (s) Desvio-padrão é a raiz quadrada da variância, ou seja: s = n i= ( i n - - ) 2 para dados brutos s = k i= ( i - ) n - 2. f i para dados agrupados
Medidas de Dispersão Desvio-padrão (s) 7 6 5 4 3 2 0 s = 0 2 3 4 5 6 7 s = 0,8 2 3 4 5 6 7 s =,0 2 3 4 5 6 7 s = 3 2 3 4 5 6 7 O desvio-padrão cresce quando a dispersão dos dados aumenta
Medidas de Dispersão Coeficiente de Variação (CV) Coeficiente de variação é a razão entre o desvio-padrão e a média aritmética, em porcentagem, ou seja: cv = s.00
Medidas de Dispersão Eemplo Idade ( i ) Número de alunos (f i ) 20 3,76 2 3 22,03 22 4,70 23 7 3,53 24 9 0,76 25 6 9,98 26 4 20,98 27 0 0 2 i - ) f i (. 28 8,40 Total 35 0,4 s = s = k i= ( i - ) n - 0,4 35 - s =,72 anos cv = cv = s.00 2. f,72.00= 7,25% 23,7 i
Medidas de Dispersão Eemplo 2 Alturas (m) f i i 2 i - ) f i (.,45,49 4,47 0,0324,49,53 8,5 0,0200,53,57 4,55 0,0004,57,6 5,59 0,0045,6,65 4,63 0,096,65,69 5,67 0,0605 Total 30 0,374 s = cv = k i= ( i - ) n - 2. f i = 0,374 29 = 0,07 s 0,07. 00 =.00 = 4,46%,57 metros
Conceitos Medidas de Posição ou Separatrizes São medidas que dividem um conjunto de valores em um certo número de partes iguais. A mediana, por eemplo, divide um conjunto de dados em duas partes iguais. As outras principais medidas de posição são: Quartis Decis Centis ou Percentis
Medidas de Posição Quartis O quartil divide um conjunto de valores ordenado em quatro partes iguais. O primeiro quartil (Q ) é o valor que antecede 25% da freqüência abaio dele e sucede 75%, segundo quartil (Q 2 ) é igual ao valor da mediana e terceiro quartil (Q 3 ) é o valor que antecede 75% da freqüência abaio dele e sucede 25%. A epressão para cálculo do quartil i é a mesma da mediana: Pi - f ac Qi = Li + ( ). h f Q I ' com i =, 2, 3 Onde a posição do quartil i é dada por: P i = i.n 4
Medidas de Posição Quartis Eemplo: Determine o 3º quartil das idades dos 35 alunos: Idade ( i ) Número de alunos (f i ) f ac 20 2 3 4 22 4 8 23 7 5 24 9 24 25 6 30 26 4 34 27 0 34 28 35 Total 35 Posição do Q 3 : i.n P i = 4 P 3.35 4 3 = = 26,25 Entre a 26ª e a 27ª idade Logo, Q 3 = 25 anos
Medidas de Posição Decis O decil divide um conjunto de valores ordenados em dez partes iguais e são representados por D, D 2,..., D 9. O 5º decil é a mediana. A epressão para calcular o decil i é: Pi - f ac Di = Li + ( ). h f D I ' com i =, 2,..., 9 Onde a posição do decil i é dada por: P i = i.n 0
Medidas de Posição Centis ou Percentis O centil divide um conjunto de valores ordenados em 00 partes iguais e são representados por C, C 2,...,C 99. O 50º centil é a mediana e o 25º e 75º centis correspondem ao º e ao 3º quartis, respectivamente. A epressão para calcular o centil i é: Pi - f ac Ci = Li + ( ). h f C I ' com i =, 2, 3,..., 99 Onde a posição do centil i é dada por: P i = i.n 00
Medidas de Posição Eemplo No eemplo das alturas dos 30 alunos determine o 3º quartil, 6º decil e 20º centil. Posição do 3º quartil: Alturas (m) f i f ac,45,49 4 4,49,53 8 2,53,57 4 6,57,6 5 2,6,65 4 25,65,69 5 30 Total 30 3.30 a P3 = = 22, 5 4 Cálculo do 3º quartil: ' Pi - f ac Qi = Li + ( ). h f Q3 =,6+ Q I 22,5-2 ( 4 Q 3 =,63 metros ).0,04 Interpretação: 75% dos alunos têm altura menor ou igual a,63 m e 25% das alturas são superiores a,63 m
Medidas de Posição Eemplo Alturas (m) f i f ac,45,49 4 4,49,53 8 2,53,57 4 6,57,6 5 2,6,65 4 25,65,69 5 30 Total 30 Posição do 6º decil: 6.30 P6 = = 8 0 Cálculo do 6º decil: Pi - f ac Di = Li + ( ). h f D6 =,57 + a D I 8-6 ( 5 D 6 =,59 metros ' altura ).0,04
Medidas de Posição Eemplo Alturas (m) f i f ac,45,49 4 4,49,53 8 2,53,57 4 6,57,6 5 2,6,65 4 25,65,69 5 30 Total 30 Posição do 20º centil: 20.30 a P20 = = 6 altura 00 Cálculo do 20º centil: Pi - f ac Ci = Li + ( ). h f C20 =,49 + C I ' 6-4 ( 8 C 20 =,50 metros ).0,04
Conceitos Medidas de Assimetria As medidas de assimetria procuram caracterizar o quanto o histograma de uma distribuição de freqüência se afasta da condição de simetria em relação à uma medida de tendência central. 0 8 6 4 2 0 2 3 4 5 6 7 8 9 0 8 6 4 2 0 2 3 4 5 6 7 8 9 Distribuição assimétrica positiva Distribuição assimétrica negativa
Medidas de Assimetria Coeficiente de Assimetria de Pearson (A) O grau de assimetria de uma distribuição de frequência pode ser avaliada utilizando o coeficiente de Pearson: A = -M s o A < 0,5 : distribuição praticamente simétrica 0,5 < A < : distribuição assimétrica moderada A > : distribuição fortemente assimétrica
Conceitos Medidas de Curtose As medidas de curtose caracterizam uma distribuição simétrica ou aproimadamente simétrica quanto ao seu achatamento, tomando como referência uma distribuição normal, que será objeto de estudo mais adiante. 6 5 4 3 2 0 2 3 4 5 6 7 8 9 8 6 4 2 0 8 6 4 2 0 2 3 4 5 6 7 8 9 8 6 4 2 0 8 6 4 2 0 2 3 4 5 6 7 8 9 Mesocúrtica (normal) Platicúrtica Leptocúrtica
Medidas de Curtose Coeficiente Percentílico de Curtose (C) O grau de achatamento com relação a distribuição normal de uma distribuição de frequência pode ser avaliado através do coeficiente percentílico: C75 - C25 C = 2( C - C ) 90 0 Onde C 0, C 25, C 75 e C 90 são os 0º, 25º, 75º e 90º centis (ou percentis) Se C = 0,263: distribuição é mesocúrtica (normal) Se C < 0,263: distribuição leptocúrtica (alongada) Se C > 0,263: distribuição platicúrtica (achatada)
Medidas de Assimetria e Curtose Eemplo Classifique a distribuição abaio quanto a assimetria e curtose Alturas (m) f i f ac,45,49 4 4,49,53 8 2,53,57 4 6,57,6 5 2,6,65 4 25,65,69 5 30 Total 30 A = A = -M s o,57 -,5 0,07 A = 0,86 Distribuição com assimetria moderada
Medidas de Assimetria e Curtose Eemplo Alturas (m) f i f ac,45,49 4 4,49,53 8 2,53,57 4 6,57,6 5 2,6,65 4 25,65,69 5 30 Total 30 3-0 C0 =,45+ ( ).0,04 =,48 4 7,5-4 C25 =,49 + ( ).0,04 =,5 8 22,5-2 C75 =,6+ ( ).0,04 =,63 4 27-25 C90 =,65+ ( ).0,04 =,67 5 C =,63-,5 2.(,67 -,48) = 0,36 > 0,263 Logo, a distribuição é platicúrtica