Distribuição Gaussiana Modelo Probabilístico para Variáveis Contínuas
Distribuição de Frequências do Peso, em gramas, de 10000 recém-nascidos Frequencia 0 500 1000 1500 2000 2500 3000 3500 1000 2000 3000 4000 5000 Peso ao nascer densidade = frequência relativa tamanho da classe
Densidade 0e+00 2e-04 4e-04 6e-04 8e-04 Histograma de Densidade àrea da barra =densidade x largura da barra àrea da barra =probabilidade de X estar entre os limites da barra 1000 2000 3000 4000 5000 Peso ao nascer P[2500 < X < 3500] = soma das àreas das barras entre 2500 e 3500 g.
Densidade 0e+00 2e-04 4e-04 6e-04 8e-04 1000 2000 3000 4000 5000 Peso ao nascer Histograma de Densidade àrea da barra =probabilidade de X estar entre os limites da barra P[X < 2125] = soma das àreas das barras entre 1000 e 2125
Muitas vezes, as barras do histograma podem ser aproximadas por uma curva mais suave mais classes
Essa curva suave é chamada função de densidade de X, ou f(x) f(x)
Como calcular probabilidades usando f(x)? P[a < X < b ] P[a < X < b ] é a área abaixo da curva f(x) entre a e b a b
Propriedades de f(x) 1) f(x) 0 2) A área abaixo de toda a curva f(x) é igual a 1. Como X é uma variável aleatória contínua, então P[X=a] = 0 P[X < b] = P[X b]
O Modelo Probabilístico Gaussiano (ou Normal) Algumas variáveis contínuas exibem um comportamento muito particular quando visualizamos a distribuição de frequências de seus valores. Frequência Valores Concentração de valores em torno de um valor central; Simetria em torno do valor central; Frequência pequena de valores muito extremos.
O Modelo Probabilístico Gaussiano O matemático alemão Karl Gauss popularizou um modelo proposto para a distribuição de probabilidades de variáveis do tipo descrito anteriormente. A curva descrita por este modelo é conhecida como Curva de Gauss (ou também como Curva Normal)
O Modelo Probabilístico Gaussiano 1 x 1 ( ) e 2 =, < x < 2 f x πσ µ σ 2 A função de densidade de X só depende de dois valores: a média µ e o desvio-padrão σ π e e são constantes conhecidas (π 3,14159 e e 2.71828 )
O Modelo Probabilístico Gaussiano A média µ de uma variável aleatória X que siga o modelo Gaussiano pode assumir qualquer valor na reta real < µ < O desvio-padrão σ de qualquer variável aleatória X só pode assumir valores maiores do que zero σ > 0 µ e σ são os parâmetros do Modelo Gaussiano Dizemos que X ~ Normal (µ,σ)
O Modelo Probabilístico Gaussiano A curva gaussiana (ou curva Normal) é definida pela média µ e pelo desvio-padrão σ.
O parâmetro µ informa onde está centrada a curva gaussiana
A forma do sino (mais achatado ou mais alongado ) é dada pelo valor do desvio-padrão σ
Para cada combinação deµe σ, existe uma curva gaussiana diferente
A curva gaussiana tem a forma de um sino e é simétrica em torno da média µ; 3000 - a a a 3000 + a P(X < 3000-a ) = P(X > 3000+a ) Simetria
Propriedades da Distribuição Normal Área fixa entre intervalos simétricos
Cálculo de Probabilidade na Curva Normal Considere uma variável aleatória X com distribuição Normal (µ,σ). Ou seja, X ~ Normal(µ,σ) Probabilidade de X estar entre x 1 e x 2 : P( x 1 < X < x 2 ) P( x 1 < X < x 2 ) Área sob a curva Normal entre x 1 e x 2.
Cálculo de Probabilidade na Curva Normal curvas Normais diferentes áreas diferentes P( x 1 < X < x 2 )
Exemplo: Suponha que X é o peso de bebês ao nascer e que, em certa população, X tem distribuição de probabilidade que pode ser aproximada pela Normal com µ = 3000g e σ = 1000g.
Qual é a porcentagem de bebês que nascem com peso abaixo de 1500g?
A Distribuição Normal Padrão As probabilidades na curva Normal são calculadas com o auxílio de uma tabela. Como existem infinitas combinações dos valores para µ e σ, seria inviável tabelar as probabilidades de todas as distribuições Normais possíveis. Sendo assim, uma única variável Normal possui suas probabilidades tabeladas: a variável Z com média igual a 0 e desvio-padrão igual a 1. Z ~ Normal (µ=0 ; σ=1)
A variável aleatória Normal com médiaµ=0 e desvio-padrão σ=1 é chamada de Variável Normal Padrão
a variável aleatória Z Z ~ N(0,1) tem distribuição de probabilidade Normal com média=0 e d.p.=1 P( Z < z )
-0.83 A Tabela Normal Padrão (Tabela Z) Parte Negativa Linha: Parte inteira e primeira casa decimal de z -2.9 0.0019 0.0018 0.0017 0.0017 Coluna: Segunda casa decimal de z -0.8 0.2119 0.2090 0.2061 0.2033 P( Z < -0.83 )
A Tabela Normal Padrão (Tabela Z) Parte Positiva Linha: Parte inteira e primeira casa decimal de z Coluna: Segunda casa decimal de z P( Z < 1.5 )
Exemplo: Seja Z uma v.a. normal padronizada. Calcule: P( Z < -1.97) =? P( Z > 1.84) =? P( Z < -1.97 ) = 0.0244, obtida direto da tabela. P( Z >1.84) = P( Z < -1.84) = 0.0329, obtida direto da tabela e por simetria.
P( -1.97 < Z < 0.86 ) = P( Z < 0.86 ) - P( Z < -1.97 ) = 0.8051-0.0244 = 0.7807 = -
Cálculo de percentis na curva Normal Percentil de ordem 2.5 Que valor de Z na tabela Normal Padrão deixa uma área de 0.0250 abaixo dele? Ou seja, quem é a tal que P[Z < a ]=0.0250? a é o percentil 2.5 da curva Normal Padrão 0.0250 a=-1.96
Cálculo de percentis na curva Normal Percentil de ordem 97.5 Que valor de Z na tabela Normal Padrão deixa uma área de 0.9750 abaixo dele? Ou seja, quem é b tal que P[Z < b ]=0.9750? b é o percentil 97.5 da curva Normal Padrão b é o simétrico de a em relação à média da curva Normal 0.9750 0.0250 b=1.96
Cálculo de percentis na curva Normal Percentil de ordem 95 P[Z < b ]=0.9500 b é o percentil 95 da curva Normal Padrão b=1.645 Na tabela Z: z = 1.65 área abaixo = 0.9505 z = 1.64 área abaixo = 0.9495 Escolher o valor mais próximo da probabilidade desejada.
Cálculo de percentis na curva Normal Percentil de ordem 1 P[Z < b ]=0.0100 b é o percentil 1 da curva Normal Padrão P[-b < Z < b ]=0.9800 P[Z< -b ] =0.0100 0.9800 0.0100 0.0100 -b =? -b=2.33 b=2.33 Na tabela Z: z = -2.33 área abaixo = 0.0099 z = -2.32 área abaixo = 0.0102 Usar o valor de z que forneça a área mais próxima do desejada (-2.33)
Como usar a tabela Normal Padrão para calcular probabilidades em uma curva Normal qualquer? Distribuição de Z ~ Normal (µ=0 ; σ=1) Distribuição de X ~ Normal (µ=10 ; σ=2)
Padronização de uma variável aleatória Normal Podemos transformar uma variável aleatória X ~ Normal ( µ, σ ) em uma variável aleatória Z ~ Normal ( 0, 1) usando a expressão: Z = X σ µ
X ~ Normal(µ,σ) Z ~ Normal(0,1) z 1 = x 1 µ σ z 2 = x 2 µ σ
Calculando probabilidades de X utilizando a tabela Z X µ 9 µ P[ X < 9] = P < = σ σ = P[ Z < 0.5] = 0.3085 P X 10 9 10 < 2 2 X 10 13 10 P[ X > 13] = P[ > ] = P[ Z > 1.5] 2 2 = P[ Z < 1.5] = 0.0668
Exemplo 1: Se X tem distribuição Normal com µ = 40 e σ = 6, encontre o valor de x tal que P[X < x] =0.45. Se P[X < x] =0.45. então P( Z < (x-40)/6 ) = 0.45. Mas P( Z < -0.13 ) = 0.45 (da tabela); Logo (x-40)/6 = -0.13 x = 40 + (-0.13)6 = 40-0.78 = 39.22. Ou seja, 39.22 é o percentil 45 da distribuição de X.
Exemplo 2: Se X tem distribuição Normal com µ = 40 e σ = 6, encontre o valor de x tal que P[X > x] =0.14. Se P[X < x] = 0.86 então P( Z < (x-40)/6 ) = 0.86. Mas P( Z > 1.08) = P( Z < -1.08) = 0.14 (da tabela); Logo (x-40)/6 = 1.08 x = 40 + (1.08)6 = 46.48 Ou seja, 46.48 é o percentil 86 da distribuição de X.
Cálculo do Percentil de ordem 100α da distribuição Normal P = + z 100 α (1 α ) µ σ ondeα é a ordem do percentil (0 < α < 1) e z (1-α) é o valor na tabela Z que deixa uma área de (1-α) acima dele. α 1-α z (1-α)
Cálculo do Percentil de ordem 100α da distribuição Normal Conferindo os dois exemplos anteriores, onde µ = 40 e σ = 6 : α = 0.45 P = 40 + z 6 45 (1 0.4500) = 40 + z 6 (0.5500) = 40 0.13 6 α = 0.86 P = 40 + z 6 86 (1 0.8600) = 40 + z 6 (0.1400) = 40 + 1.08 6
Exemplo Inicial: Suponha que X é o peso de bebês ao nascer e que, em certa população, X tem distribuição que pode ser aproximada pela Normal com µ = 3000g e σ = 1000g.
Qual é a porcentagem de bebês que nascem com peso abaixo de 1500g? X 3000 1500 3000 P[ X < 1500] = P < 1000 1000 [ ] = P Z < 1.5 = 0.0068 0.68% dos bebês têm peso inferior a 1500g.
Qual é a porcentagem de bebês que nascem com peso acima de 4000g? 4000 3000 P[ X > 4000] = P Z > 1000 [ ] P[ Z ] = P Z > 1.0 = < 1.0 = 0.1587
Qual é a porcentagem de bebês que nascem com peso entre 2500 e 3500g? 38.30% dos bebês P[2500 < X < 3500] = P[ X < 3500] P[ X < 2500] 3500 3000 2500 3000 = P Z < P Z < 1000 1000 = P Z < 0.5 P Z < 0.5 [ ] [ ] = 0.6915 0.3085 = 0.3830
Qual valor de peso dos bebês separa os 10% mais leves? 0.10 1720 gramas P 10 3000 α = 0.10 P = 3000 + z 1000 10 (1 0.1000) = 3000 + z 1000 (0.9000) = 3000 + ( 1.28) 1000 = 3000 1280 = 1720
Qual valor de peso dos bebês separa os 10% mais pesados? 0.10 4280 gramas 3000 P 90 α = 0.90 P = 3000 + z 1000 10 (1 0.9000) = 3000 + z 1000 (0.1000) = 3000 + 1.28 1000 = 3000 + 1280 = 4280
Aplicações do Modelo Gaussiano: Cálculo de Faixas de Referência Faixas de Referência são formadas por dois percentis Exemplo: uma faixa de referência de 90% é formada pelos percentis 5 e 95 90% 5% 5% P 5 P 95
Cálculo de Faixas de Referência utilizando o modelo Gaussiano Seja X a variável aleatória que representa a característica para a qual queremos construir uma faixa de referência. Exemplo: X é o peso de recém-nascidos Se X ~ Normal (µ,σ), então uma faixa de referência de (1-α)100% é formada pelos percentis P (α/2)100 e P (1-α/2)100 Exemplo: uma faixa de referência de 90% (α=0.10) é formada pelos percentis P 5 e P 95
Cálculo de Faixas de Referência utilizando o modelo Gaussiano No exemplo do peso dos recém-nascidos (X), se pudermos supor que X ~ Normal (µ=3000 ; σ=1000), uma faixa de referência de 80% seria dada pelos percentis P 10 = 1720 e P 90 = 4280 (já calculados anteriormente) Faixa de Referência de 80% para o peso de recém-nascidos 1720 gramas a 4280 gramas
Cálculo de Faixas de Referência utilizando o modelo Gaussiano Relembrando o cálculo de percentis com o modelo gaussiano e a definição de faixa de referência, uma faixa de referência de (1-α)100% é dada pela expressão [ µ + z σ ; µ + z σ ] (1 α / 2) ( α / 2) z = z (1 α / 2) ( α / 2) (por simetria) [ µ z σ ; µ + z σ ] ( α / 2) ( α / 2)
Para aprender (I) Para o exemplo do peso dos recém-nascidos, calcule as seguintes faixas de referência: 90% 95% Antes de calcular essas faixas, responda: qual delas você espera que seja a mais larga? Justifique.
Para aprender (II) Exercícios da Seção 7 (Modelo Probabilístico Gaussiano)