Capítulo 3 Introdução à Probabilidade E à Inferência Estatística
definições e propriedades: Propriedade 5: A probabilidade condicional reflete como a probabilidade de um evento pode mudar se soubermos que algum outro evento tenha ocorrido. Exemplo: A probabilidade de que um dia nublado resulte em chuva é diferente se você vive no Nordeste ou se você vive no Sul do Brasil.
definições e propriedades: Se A e B são independentes: Desta forma, se A e B são independentes:
definições e propriedades: Uso de Internet 0.47 Qual a probabilidade de encontrarmos um indivíduo que utiliza o bate-papo na internet? P(Utilizar e ter idade A1) + P(Utilizar e ter idade A2) + P(Utilizar e ter idade A3) = = P(C A1) + P(C A2) + P(C A3) = P(A1) P(C/A1) + P(A2) P(C/A2) + P(A3) P(C/A3) = = 0.29 * 0.47 + 0.47 * 0.21 + 0.24 * 0.07 = 0.136 + 0.099 + 0.017 = 0.252
MODELOS DE PROBABILIDADE: Queremos descrever o comportamento aleatório de uma característica (variável). Vamos nos concentrar no estudo de variáveis quantitativas. Em um modelo de probabilidade, é preciso determinar: Os valores que a variável de interesse pode assumir. As probabilidades associadas a cada um desses valores.
MODELOS DE PROBABILIDADE: Dizemos então que variáveis que apresentam um mesmo padrão de comportamento seguem um mesmo modelo (ou distribuição) de probabilidade. Um modelo de probabilidade pode então ser definido como uma descrição matemática de um fenômeno aleatório (ou variável aleatória, de maneira mais formal).
MODELOS DE PROBABILIDADE: MODELOS DISCRETOS DOIS TIPOS DE MODELOS: MODELOS CONTÍNUOS
MODELOS DE PROBABILIDADE: MODELOS DISCRETOS: Os modelos discretos são adequados a variáveis que podem assumir um número finito ou enumerável de valores. MODELOS CONTÍNUOS: São aqueles relacionados às variáveis que podem assumir qualquer valor em um intervalo de números reais.
MODELOS DE PROBABILIDADE: Um histograma é a forma mais usual de se representar frequências/probabilidades associadas a determinados valores. Dados contínuos frequências associadas a intervalos. Quanto menores os intervalos, mais próximo o histograma fica de uma curva idealizada. Essa curva é um modelo matématico para a distribuição.
MODELOS DE PROBABILIDADE:
MODELOS DE PROBABILIDADE: A figura apresenta o histograma do peso, em kg, de 1500 pessoas adultas selecionadas ao acaso em uma população. O peso apresenta uma distribuição muito regular. O histograma é simétrico e decresce suavemente a partir de um pico central único na direção de ambas as caudas. A curva suave traçada através do topo das barras do histograma é uma boa descrição do padrão geral dos dados.
MODELOS DE PROBABILIDADE: A análise do histograma indica que: 1. a distribuição dos valores é aproximadamente simétrica em torno de 70kg; 2. a maioria dos valores (88%) encontra-se no intervalo (55; 85); 3. existe uma pequena proporção de valores abaixo de 48kg (1,2%) e acima de 92kg (1%).
MODELOS DE PROBABILIDADE: Essa curva é chamada de Função Densidade de Probabilidade. Nenhum conjunto de dados reais é descrito exatamente por uma dessas curvas. Trata-se de uma boa aproximação de fácil utilização e com precisão suficiente para ser considerada na prática.
MODELOS DE PROBABILIDADE: Sabemos que características (variáveis) em estudo para determinados problemas apresentam um mesmo padrão de comportamento. Portanto, estas variáveis podem ser aproximadas por uma mesma curva (ou pelo mesmo formato de histograma).
MODELOS DE PROBABILIDADE: Tipos de Modelo Modelo Característica Discretos Binomial Variável em estudo somente pode assumir dois possíveis valores em cada uma das n repetições do experimento e a probabilidade de ocorrência de cada um é constante. Poisson A variável observada identifica o resultado de uma contagem no experimento (número de insetos em uma determinada área, por exemplo). Geométrico Número de experimentos necessários até a ocorrência de um dado resultado de interesse. Binomial Negativa Número de experimentos necessários até a ocorrência de certo número de vezes do resultado de interesse. Hipergeométrico Variável em estudo somente pode assumir dois possíveis valores em cada uma das n repetições do experimento e a probabilidade de ocorrência de cada um não é constante (usualmente experimentos sem reposição).
MODELOS DE PROBABILIDADE: Tipos de Modelo Modelo Característica Contínuos Uniforme A variável pode assumir, com igual probabilidade, qualquer valor em um intervalo, região,... Exponencial Normal A variável observa o tempo necessário até a ocorrência de um determinado resultado de interesse. Variáveis com distribuições simétricas em relação a um ponto central.
MODELOS DE PROBABILIDADE: Observações: 1. Para determinadas situações, modelos discretos podem ser aproximados (representados) por um modelo contínuo. Por exemplo, num caso binomial em que o número de repetições do experimento é grande, pode-se analisar a variável em estudo pelo modelo normal. 2. Os modelos aqui apresentados referem-se à distribuição de uma única variável. Podemos em alguns casos ter interesse no comportamento conjunto de duas ou mais variáveis. Nesses casos, temos os chamados modelos multidimensionais ou multivariados, que não serão objetos de estudo nesse curso.
MODELO (DISTRIBUIÇÃO) NORMAL Muitos fenômenos que ocorrem na natureza, na indústria e nas pesquisas podem ser representadas por MODELO (OU DISTRIBUIÇÃO) NORMAL. Medições físicas em áreas como experimentos meteorológicos, estudos sobre chuvas, medições de peças manufaturadas são explicadas de forma adequada pela distribuição normal, e erros em medições científicas são bem aproximados pela distribuição normal.
MODELO (DISTRIBUIÇÃO) NORMAL CARACTERÍSTICA DO MODELO NORMAL: Os modelo padrão é resultado de uma curva aproximada do histograma dos dados, tem um único pico e apresenta uma forma de sino (simetria em torno do ponto de pico).
MODELO (DISTRIBUIÇÃO) NORMAL 1 x µ 2 1 ( ) σ f x = e, < x < + 2πσ 2 Para dados X que podem ser representados pelo modelo acima, dizemos que: X ~ N (µ ; σ).
MODELO (DISTRIBUIÇÃO) NORMAL 1 x µ 2 1 ( ) σ f x = e, < x < + 2πσ 2 As distribuições Normais (ou Gaussianas, como também são conhecidas) são famílias de distribuições simétricas, com a mesma forma geral. A curva de densidade é bem caracterizada por sua média µ ( mi ) e seu desvio-padrão σ ( sigma ).
MODELO (DISTRIBUIÇÃO) NORMAL 1 x µ 2 σ 1 f ( x) = e, < x < + 2πσ 2
MODELO (DISTRIBUIÇÃO) NORMAL Algumas Diferentes Situações: Mesma média e diferentes variâncias (2, 4 e 6, respectivamente)!
MODELO (DISTRIBUIÇÃO) NORMAL PROPRIEDADES: X ~ N (µ ; σ) 1. E(X) = µ (média ou valor esperado); 2. Var(X) = σ 2 (e, portanto, DP(X) = σ ); 3. x = µ é ponto de máximo de f (x); 4. µ - σ e µ + σ são pontos de inflexão de f (x); 5. A curva Normal é simétrica em torno da média µ; 6. A distribuição Normal depende dos parâmetros µ e σ.
MODELO (DISTRIBUIÇÃO) NORMAL IMPORTANTE: Embora haja muitas curvas Normais, todas têm propriedades em comum. Em particular, todas as distribuições normais obedecem à seguinte regra: Na distribuição normal com média µ e desvio-padrão σ : 68% das observações estão no intervalo ( µ - σ ; µ + σ ) 95,4% das observações estão no intervalo ( µ - 2σ ; µ + 2σ ) 99,7% das observações estão no intervalo ( µ - 3σ ; µ + 3σ )
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL? PROBLEMA: Um bom indicador do nível de intoxicação por benzeno é a quantidade de fenol encontrada na urina. A quantidade de fenol na urina de moradores de certa região segue, aproximadamente, uma distribuição normal de média 6 mg/l e desvio padrão 2 mg/l. Considere a seguinte definição em termos da variável quantidade de fenol na urina: Uma pessoa é considerada atípica se a quantidade de fenol em sua urina for superior a 9 mg/l ou inferior a 3 mg/l.
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL? QUESTÃO: Qual é a probabilidade de ser encontrado um indivíduo atípico? Seja X: quantidade de fenol encontrada na urina. Indivíduo Atípico Indivíduo com X < 3 ou X > 9 Probabilidade desejada: P [ X < 3 OU X > 9] = P[ X < 3 X > 9 ] = P[X < 3 ] + P[X > 9]
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL? Como calcular esta probabilidade, considerando que a variável de interesse pode ser representada pela distribuição normal? O cálculo de uma probabilidade na distribuição normal é dado pela área sob a curva normal na região de interesse, isto é, a área sob a curva de densidade fornece a proporção de observações que estão numa região de valores de interesse.
( ) ( )
( ) ( )
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL? IMPORTANTE: Probabilidades não se alteram!
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL? Características da Normal Padrão: Quando x está 1 desvio-padrão maior do O escore padronizado z que a média, então z = 1. resultante diz de quantos µ + σ µ σ para x = µ + σ, z = = = 1 desvios-padrão cada valor σ σ x está afastado da média da Quando x está 2 desvios-padrão acima distribuição, µ. da média, então z = 2. µ + 2σ µ 2σ para x = µ + 2 σ, z = = = σ σ Quando x é maior do que a média, z é positivo. Quando x é menor do que a média, z é negativo. 2
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL? De que forma a transformação da variável X em Z, normal padrão, facilita o cálculo de probabilidades? A solução desta integral é mais simples que no caso anterior, e seus valores estão tabelados.
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL?
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL? Como utilizar esta tabela? SIGNIFICADO DOS VALORES TABELADOS
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL? Uma segunda situação: P [0 < Z < 1.71 ] =? P(0 < Z < 1.71) = P(Z < 1.71) P(Z < 0) = 0.9564 0.5 = 0.4564
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL? Retornando ao Problema Inicial: X: a quantidade de fenol encontrada na urina. X ~ N (6 ; 2) P [ X < 3 OU X > 9] = P[X < 3 ] + P[X > 9]
COMO CALCULAR PROBABILIDADES NO MODELO NORMAL? X ~ N (6 ; 2) P [ X < 3 OU X > 9] = P[X < 3 ] + P[X > 9] Portanto, a probabilidade de ser encontrada uma pessoa considerada atípica é de 13.36%
O National Collegiate Athletic Association (NCAA) exige que atletas da 1a divisão tenham pontuação de no mínimo 820 no SAT (Scholastic Aptitude Test ou Scholastic Assessment Test) combinado de matemática e verbal para competir no seu primeiro ano colegial. A pontuação SAT de 2003 foi aproximadamente normal com média 1026 e desvio-padrão 209. Que proporção de todos os estudantes seriam qualificados (SAT 820)? x = 820µ = 1026 σ = 209 ( x µ ) z = σ (820 1026) z = 209 206 z = 0.99 209 Tabela: a área sob a N(0,1) à esquerda de z = -0.99 é 0.1611 ou aprox. 16%. Área direita 820 = Área Total Área a esquerda de 820 = 1 0.1611 84% Nota: Os dados reais podem conter estudantes que pontuaram exatamente 820 no SAT. No entanto, a proporção das pontuações exatamente igual a 820 é 0 para uma distribuição normal. É uma consequência da idealizada suavização das curvas de densidade.
Exercício: A vida de um semicondutor a laser, a uma potência constante, segue um modelo normal com média de 7000 horas e desvio-padrão de 600 horas. a) Qual a probabilidade do laser falhar antes de completar 5000 horas? b) Qual deve ser o tempo de vida em horas de tal forma que 95% dos lasers excedem a esse tempo? c) Se três lasers forem usados em certo produto e se eles falharem independentemente, qual a probabilidade de todos os três estarem ainda operando após 7000 horas?