5- Variáveis aleatórias contínuas
Para variáveis aleatórias contínuas, associamos probabilidades a intervalos de valores da variável. Exemplo 5.1 Seja a variável correspondente ao tempo até a cura de pacientes submetidos a um específico tratamento. Neste caso, vamos associar probabilidades, por exemplo, a um tempo de cura inferior a 15 dias, superior a dois meses, entre 7 e 30 dias... 2
O gráfico da distribuição de probabilidades de uma variável aleatória contínua é uma curva, tal que a área sob a curva, para um intervalo de valores de interesse, represente a probabilidade de um resultado nesse intervalo. Exemplo 5.2 Vamos admitir que o tempo (em dias) até a cura de pacientes submetidos ao tratamento tenha sua distribuição de probabilidades conforme o gráfico apresentado a seguir: 3
P(40<X<60)=0,22 (22% da área) P(X>100)=0,09 (9% da área) 0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 Tempo até a cura (dias) Figura 5.1 Distribuição de probabilidades para o tempo até a cura. 4
A função que associa probabilidades a valores de uma variável aleatória contínua é chamada de função densidade de probabilidade. A função densidade probabilidade é uma função continua e positiva, tal que a área delimitada pela correspondente curva e o eixo horizontal é igual a 1 (pois a soma das probabilidades é igual a 1). 5
Exemplo 5.3 A Escala Visual Analógica EVA consiste em auxiliar na aferição da intensidade da dor no paciente. Para isso, é solicitado ao paciente que, utilizando a escala de 0 (ausência de dor) a 10 (dor insuportável), conforme a figura apresentada na sequência, marque um ponto na posição que melhor representa sua dor atual (que não precisa ser um dos números ilustrados). A esse individuo, atribui-se um escore de dor que corresponde ao valor assinalado por ele na escala visual analógica. 6
Figura 2 Escala visual analógica. 7
Suponha que um paciente, para o qual não se dispõe de informações sobre o grau de dor, seja submetido à EVA. Frente ao nosso desconhecimento sobre o quadro do indivíduo, vamos admitir iguais probabilidades para diferentes níveis de dor. a) Apresente a função densidade de probabilidades para a variável aleatória contínua X : grau de dor aferido pelo paciente; b) Qual a probabilidade do paciente manifestar um grau de dor superior a 8,5? E inferior a 0,8? c) Qual a probabilidade do paciente manifestar um grau de dor entre 2,5 e 7,5? d) Qual a probabilidade do paciente manifestar um grau de dor superior a 6, dado que seu grau de dor está no intervalo de 2,5 a 7,5? 8
Exemplo 5.4 A distribuição dos escores de habilidade verbal em determinada população, numa escala contínua no intervalo de zero a um, são bem representados por uma variável aleatória contínua X com a seguinte função densidade de probabilidade: f ( x) = 4 4x, 4x, 0, para 0 para x 0,5 < 0,5 caso contrário x 1. 9
a) Esboce o gráfico da função densidade de probabilidade; b) Calcule as seguintes probabilidades: o ( X 0,50) P ; o ( X 0,25) P ; o ( X = 0,25) P ; o ( X < 0,25) P ; o ( X 0,90) P ; o ( 0,4 < X < 0,6) P. c) Qual o valor que delimita 25% dos menores escores (quantil 25%, ou 1º quartil)? Qual o valor que delimita 1% dos maiores escores? 10
A distribuição normal de probabilidades Há um grande número de variáveis aleatórias contínuas cujas distribuições de probabilidades são simétricas e têm a forma aproximada de um sino. O modelo probabilístico normal permite descrever adequadamente as distribuições de probabilidades de tais variáveis. Adicionalmente, há diversas técnicas de inferência estatística que baseiam-se na distribuição normal de probabilidades. 11
0.4 0.3 Densidade 0.2 0.1 0.0-3 -2-1 0 1 2 3 Escores Figura 3 Histograma para escores de 100 indivíduos com a curva do modelo normal sobreposta. 12
Cada distribuição normal é especificada por dois parâmetros: a média (denotada por µ ) e o desvio padrão (denotado por σ ). A Figura 4 apresenta as curvas da distribuição Normal para diferentes valores de µ (acima) e σ (abaixo). 13
0.4 0.3 µ=-3, σ 2 =1 µ=0, σ 2 =1 µ=3, σ 2 =1 f X (x) 0.2 0.1 0.0-6 -4-2 0 2 4 6 x (a) 0.4 0.3 µ=0, σ 2 =1 µ=0, σ 2 =4 µ=0, σ 2 =9 f X (x) 0.2 0.1 0.0-6 -4-2 0 2 4 6 Figura 4 - Curvas da distribuição Normal para diferentes valores de µ x (b) (acima) e σ (abaixo) 14
Se a variável aleatória X tem distribuição normal de média µ e desvio padrão σ (para quaisquer valores de µ e σ ), então: o Há uma probabilidade de 0,68 de se observar um valor de X que não se afaste por mais de um desvio padrão da média; o Há uma probabilidade de 0,95 de se observar um valor de X que não se afasta por mais de dois desvios padrões da média; o Há uma probabilidade de 0,997 de se observar um valor de X que não se afasta por mais de três desvios padrões da média. 15
Figura 5 Propriedades da distribuição normal. 16
O cálculo de probabilidades para variáveis aleatórias com distribuição normal baseia-se, como para as demais variáveis aleatórias contínuas, na área sob a curva da função densidade de probabilidade: f(x) f Figura 6 Ilustração de P( a X b) 17 a b para uma variável aleatória normal.
O modelo matemático correspondente à distribuição normal é bastante complexo e a obtenção de probabilidades a partir dele exige o uso de métodos de aproximação numérica, que fogem do escopo desta disciplina. Por meio do uso de softwares estatísticos, tais probabilidades podem ser obtidas facilmente. As referências de Estatística Básica apresentam tabelas com probabilidades correspondentes a uma distribuição normal de média igual a zero e desvio padrão igual a um (distribuição normal padrão). 18
Figura 7 Parte da tabela de probabilidades da distribuição normal padrão. 19
Como usar a tabela da distribuição normal padrão: A tabela fornece probabilidades do tipo P ( Z z) = p, onde Z representa a variável com distribuição normal padrão e z é um valor real qualquer da variável. Os valores da variável (z) estão representados na lateral esquerda (parte inteira e primeiro decimal) e no topo (segundo decimal) da tabela; A probabilidade correspondente ( p) pode ser encontrada no interior da tabela, no cruzamento da linha e da coluna associados ao valor de z. 20
Cuidado! Em outras referências, você pode encontrar tabelas que apresentam diferentes áreas (e diferentes probabilidades, consequentemente), como a área à esquerda de um valor z ( ( Z z) á área entre zero e um valor positivo z ( P( < Z z) 0 ). P ) ou O importante é que, independente da probabilidade apresentada na tabela, as demais probabilidades são deduzidas facilmente. 21
Figura 8 Gráficos da distribuição normal padrão com probabilidades usualmente disponibilizadas em tabelas: P( Z z) (à esquerda), P( Z z) (ao centro) e P( < Z z) 0 (à direita). 22
Exemplo 5.5 Vamos treinar o uso da tabela da distribuição Normal. Suponha que a distribuição do escore de um teste psicométrico, em determinada população, seja bem representado por uma variável aleatória Z com distribuição Normal de média zero e desvio padrão igual a um. Com base nas probabilidades apresentadas na tabela, responda aos seguintes itens: a) Qual proporção dos indivíduos dessa população tem escore negativo? E positivo? b) Qual proporção tem escore maior de 1,5? E menor de 1,5? c) Qual proporção tem escore menor de -1,5? Use algum resultado do item b; 23
d) Qual proporção tem escore menor que 0,75? e) Qual proporção tem escore entre -1 e 1? E entre -2 e 2? E entre -3 e 3? Você identifica este resultado com relação à regra empírica, estudada anteriormente? f) Qual o escore z que delimita 30% dos indivíduos com menores escores? g) Qual o escore z que delimita 1% dos indivíduos com maiores escores? 24
Questão: Como obter probabilidades para uma variável aleatória X com distribuição normal diferentes da normal padrão (com média µ e desvio padrão σ quaisquer?). O seguinte resultado permite transformar a variável X em uma nova variável Z, com distribuição normal padrão, e usar a tabela que dispomos para calcular probabilidades para X. Resultado Se X tem distribuição normal com média µ e desvio padrão µ σ, então Z = X tem distribuição normal padrão. σ 25
Com base no resultado apresentado, pode-se obter uma probabilidade para Z equivalente a qualquer probabilidade desejada para X. Exemplo 5.6 Suponha que para X com distribuição normal de média µ e desvio padrão σ desejamos calcular a probabilidade ( X a) uma constante qualquer. Então: P, sendo a P ( X a) = P = P Z X µ a µ µ a, σ σ σ sendo que a probabilidade apresentada à direita pode ser obtida da tabela da distribuição Normal padrão. 26
o Assim, se a variável X tem distribuição Normal com média µ = 100 e desvio padrão σ = 20, então, a título de exemplo: P X µ σ 80 100 20 ( X 80 ) = P = P( Z 1) = 0, 16, conforme pode ser verificado na Figura 5.9. 27
Densidade P(X<80)=0,16 Densidade P(Z<-1)=0,16 20 40 60 80 100 120 140 160 180-4 -3-2 -1 0 1 2 3 4 x z Figura 5.9 Equivalência de P ( X < 80) e ( Z < 1) P. 28
Exemplo 5.7 O Índice de Desenvolvimento Mental (MDI) - Escalas de Desenvolvimento Infantil de Bayley é uma medida padronizada usada em estudos com crianças de alto risco. Este índice, na população em que se aplica, tem distribuição aproximadamente normal, com média 100 e desvio padrão 16. a) Qual proporção das crianças tem MDI de no máximo 75? b) Qual proporção das crianças tem MDI superior a 120? c) Qual proporção das crianças tem MDI entre 80 e 110? d) Qual o escore de MDI correspondente ao percentil 0,9? e) Determine (e interprete) os quartis correspondentes à distribuição dos MDIs. 29
Exemplo 5.8 O tempo gasto por crianças de uma específica população para realizar cinco tarefas de raciocínio lógico é uma variável aleatória com distribuição Normal de média 15 minutos e variância igual a 25 minutos. a) Se for concedido um prêmio às crianças que encerrarem suas tarefas em menos de 8 minutos, qual proporção das crianças terá direito ao prêmio? b) Suponha que sejam concedidos 20 minutos para as crianças realizarem as tarefas. Qual proporção delas não as terá terminado ao final dos 20 minutos? c) Caso seja desejado premiar 5% das crianças mais rápidas, e encerrar a prova quando apenas 10% das crianças ainda não tiverem terminado, quais seriam os tempos limites nos dois casos? 30
Exemplo 5.9 Um indivíduo foi submetido a um teste de habilidade matemática e outro de habilidade em redação. Para o teste de Matemática sabe-se que os escores da população da qual o indivíduo foi selecionado distribuem-se normalmente, com µ = 500 e σ = 100, enquanto para o teste de redação os escores distribuem-se normalmente com µ = 21 e σ = 4, 7 a pontuação do indivíduo em Matemática foi 600 e em redação 29, em qual prova ele foi relativamente melhor?. Se 31
Aproximação da distribuição binomial pela Normal Ainda que se trate de uma distribuição para variáveis aleatórias discretas, a distribuição binomial tem suas probabilidades bem aproximadas pela distribuição normal para n suficientemente grande. Suponha que X seja a variável que conta o número de sucessos em n experimentos independentes do tipo sucesso x fracasso, cada um dos quais com a mesma probabilidade de sucesso ( p). 32
Neste caso, podemos aproximar a distribuição de probabilidades binomial da variável X pela distribuição Normal, com média µ = np e desvio padrão = np( 1 p) σ. Este resultado é particularmente conveniente quando temos que calcular alguma probabilidade referente à distribuição binomial sem o auxílio de um computador (dependendo do valor de n, a quantidade de contas pode ser proibitiva). 33
n=5,p=0.2 n=10,p=0.2 n=50,p=0.2 0.5 0.35 0.15 P(x) 0.4 0.3 0.2 0.1 P(x) 0.30 0.25 0.20 0.15 0.10 0.05 P(x) 0.10 0.05 0.0 0.00 0.00-4 -2 0 2 4 x -4 0 4 8 x 0 5 10 20 x Figura 5.10 Ilustração da aproximação da distribuição binomial (barras pretas) pela distribuição normal (curvas vermelhas) para diferentes valores de n. 34
Exemplo 5.10 Estudo do Sindicato de Bancários indica que cerca de 30% dos funcionários de bancos têm problemas de estresse, provenientes das condições de trabalho. Numa amostra de 200 bancários, qual seria a probabilidade de haver pelo menos 50 com essa doença? 35