Mais Aplicações sobre cálculo de probabilidades Prof. Hemílio Fernandes Campos Coêlho Departamento de Estatística - Universidade Federal da Paraíba - UFPB
Noções de Epidemiologia Em algumas aplicações de saúde, a base do conhecimento é de natureza probabilística. Algumas aplicações envolvem o que chamamos em saúde de indicadores epidemiológicos Uma aplicação importante da teoria das probabilidades em saúde está relacionada à avaliação da capacidade que um determinado exame tem de acertar o verdadeiro diagnóstico. Isto acontece devido à limitação que o pesquisador possui para elaboração do exame. Ou seja, um diagnóstico é emitido de acordo com a capacidade de um exame clínico para detectar o evento de interesse. O quadro a seguir mostra de maneira esquemática os possíveis resultados associados à comparação do resultado de um exame que está sendo avaliado e o resultado denitivo ou diagnóstico denitivo ou diagnóstico de certeza.
continuação Resultado de um exame diagnóstico versus diagnóstico de certeza Diagnóstico de Certeza Doença(+) Doença( ) Totais Resultado do Exame(+) a(++) b(+ ) a + b Exame Exame( ) c( +) d( ) c + d Totais a + c b + d a + b + c + d
Conceitos Iniciais Falso-Positivo: Indivíduo sadio cujo exame resultou positivo. No quatro anterior, corresponde à letra b Para determinar a probabilidade do evento falso-positivo, basta dividir b pelo total de exames positivos, a + b. Falso-Negativo: Indivíduo doente cujo exame resultou negativo. No quatro anterior, corresponde à letra c Para determinar a probabilidade do evento falso-negativo, basta dividir c pelo total de exames negativos, c + d.
continuação Sensibilidade: É a proporção de indíviduos cujo exame revelou resultado positivo e que possuem a doença, no grupo de indivíduos doentes. Ou seja: Sensibilidade = S = a a + c A sensibilidade avalia o total de acertos do exame sobre o verdadeiro número de doentes. Quanto mais próximo de 1 estiver o valor da sensibilidade do teste, melhor será esse teste. Observação Importante: Ao fazer (1 S), o pesquisador está respondendo a seguinte pergunta: Qual a proporção de indivíduos doentes que o exame deixou de diagnosticar como tais? Essa proporção é a proporção de falso-negativos no total de pessoas doentes.
continuação Especicidade: É a proporção do número de indivíduos sadios cujo exame resultou negativo, no grupo de indivíduos sadios. Ou seja, Especicidade = E = d b + d A especicidade expressa o total de exames corretamente negativos sobre o total de indivíduos sadios. Quanto mais próxima de 1 estiver a especicadade, melhor será esse teste. Observação Importante: Ao fazer (1 E), temos a proporção é a proporção de falso-positivos no total de pessoas doentes.
continuação Valor preditivo positivo: É a proporção de indivíduos doentes com exame positivo no grupo de exames positivos. Valor Preditivo Positivo = VPD = a a + b Valor preditivo negativo: É a proporção de indivíduos sadios com exame negativo no grupo de exames negativos. Valor Preditivo Negativo = VPN = d c + d
continuação Acuidade ou Eciência Global do Teste: Verica o percentual de acerto do exame diagnóstico no grupo total de pacientes analisados. a + d Acuidade = A = a + b + c + d Prevalência: É a proporção de pacientes doentes no grupo total de pacientes analisados. a + c Prevalência = P = a + b + c + d
Observações Importantes Cienticamente já foi constatado que um teste com alta especicidade deve ser usado quando a prevalência da doença é relativamente baixa (doença rara), mesmo que o teste tenha relativamente baixa sensibilidade. O mesmo pode ser dito em relação a um teste com alta sensibilidade deve ser usado quando a prevalência da doença é alta (doença comum), mesmo que o teste tenha relativamente baixa especicidade.
Coeciente de Kappa (κ) Coeciente utilizado quando se tem interesse em testar a concordância entre dois diagnósticos diferentes, fornecidos por pesquisadores diferentes. Concordância de diagnóstico entre dois pesquisadores Diagnóstico 2 (+) ( ) Totais Diagnóstico (+) a(++) b(+ ) a + b 1 ( ) c( +) d( ) c + d Totais a + c b + d a + b + c + d A proporção da concordância observada é dada por a + d P CO = a + b + c + d Além disso, precisamos da chamada concordância causal: (a + b)(a + c) + (c + d)(b + d) P CC = (a + b + c + d) 2
Coeciente de Kappa (κ) Logo: κ = P CO P CC 1 P CC Quando há total concordância, o coeciente é igual a 1. Quando há discordância total, o coeciente é igual a 0. Para avaliar o grau de concordância, é possível avaliar a seguinte classicação: κ = 0 total discordância 0 < κ < 0, 4 concordância leve 0, 4 κ < 0, 8 concordância moderada 0, 8 κ < 1 concordância forte κ = 1 concordância perfeita
Distribuições de Probabilidade Denição: Denimos como uma variável aleatória X uma característica que pode assumir valores denidos em um conjunto de n valores: X = {x 1, x 2,..., x n } A relação x i f (x i ) dene uma correspondência entre todos os valores que a variável aleatória pode assumir, x i, e suas respectivas probabilidades de ocorrência, f (x i ). Esta relação é o que chamamos em estatística de função de probabilidade da variável aleatória X. Analogamente ao estuda da estatística descritiva, as variáveis aleatórias também podem ser divididas em dois tipos: discretas e contínuas.
Modelos Probabilísticos Discretos
Exemplo Suponha que o número máximo de leitos que uma unidade de terapia intensiva comporte seja 4. Denindo a variável aleatória X como número de óbitos (na UTI), os valores que a variável aleatória pode assumir, num certo período de tempo, são: X = {0, 1, 2, 3, 4} onde: X = 0 signica nenhum óbito (quatro pacientes vivos); X = 1 signica um óbito (três pacientes vivos); X = 2 signica dois óbitos (dois pacientes vivos); X = 3 signica três óbitos (um pacientes vivos); Por m, X = 4 signica quatro óbitos, nenhuma sobrevivência.
Exemplo Suponha que o número máximo de leitos que uma unidade de terapia intensiva comporte seja 4. Denindo a variável aleatória X como número de óbitos (na UTI), os valores que a variável aleatória pode assumir, num certo período de tempo, são: X = {0, 1, 2, 3, 4} onde: X = 0 signica nenhum óbito (quatro pacientes vivos); X = 1 signica um óbito (três pacientes vivos); X = 2 signica dois óbitos (dois pacientes vivos); X = 3 signica três óbitos (um pacientes vivos); Por m, X = 4 signica quatro óbitos, nenhuma sobrevivência.
Exemplo Supondo que as probabilidades associadas a cada um destes possíveis resultados sejam f (0) = 0, 3164 f (1) = 0, 4219 f (2) = 0, 2109 f (3) = 0, 0461 f (4) = 0, 0039 É possível montar a função mostrada no quadro a seguir: X 0 1 2 3 4 Soma f (x) 0,3164 0,4219 0,2109 0,0461 0,0039 1 que é função de probabilidade do número de óbitos.
continuação Note que para n possíveis valores da variável aleatória X temos que n f (x i ) = 1 i=1 Em nosso exemplo, n = 4. Note que esse resultado é algo já esperado, pois estamos avaliando todas as possibilidades de ocorrência da variável aleatória X.
Construção da função de probabilidade Suponha que a probabilidade de óbito de um paciente, ao dar entrada na UTI, seja de 25% (risco de morte). Denindo a variável aleatória X como no exemplo anterior, tem-se X = { 0, 1 } { f (0) = 0, 75 f (1) = 0, 25 Ou seja, X 0 1 Soma f (x) 0,75 0,25 1
Construção da função de probabilidade Se dois pacientes ingressarem na UTI (n = 2), Sendo p(v i ) é a probabilidade do paciente i sobreviver e p(o i ) é a probabilidade do paciente i morrer, tem-se X = { 0, 1, 2 } f (0) { p(v 1 )p(v 2 ) = 0, 75 0, 75 = 0, 5625 p(v1 )p(o f (1) 2 ) = 0, 75 0, 25 = 0, 1875 0, 3750 p(o 1 )p(v 2 ) = 0, 25 0, 75 = 0, 1875 f (2) p(o 1 )p(o 2 ) = 0, 25 0, 25 = 0, 0625 O quadro com as funções de probabilidade é dado a seguir: X 0 1 2 Soma f (x) 0,5625 0,3750 0,0625 1
Observações Importantes: A construção para um número maior de casos (n) pode ser realizado. Porém, é uma tarefa repetitiva e bastante trabalhosa. De modo a sistematizar o cálculo de probabilidades de um determinado número de ocorrências em n casos, considera-se a Distribuição Binomial.
Distribuição Binomial Considere uma variável aleatória denida em termos binários, ou seja, com dois valores possíveis de ocorrer em n experimentos, ou n ensaios, ou n tentativas, n casos, etc. Denotando a probabilidade de ocorrência(ou sucesso) de X por p e a probabilidade de não-ocorrência de X por q, tem-se p + q = 1. Note que q = 1 p. Com base nessa informação, a probabilidade de x ocorrências da variável aleatória X em n casos é dada por: ( ) n P(X = x) = p x q n x x
continuação Através de uma distribuição de probabilidade é possível calcular valores para o que chamamos em estatística de parâmetro, ou seja, um valor conceitualmente conhecido na população com base nos valores da amostra. Dessa forma, para o modelo binomial: Média = Valor Esperado = E[X ] = µ = n p Variância = σ 2 = n p q Desvio Padrão = σ = n p q Note que o formato da distribuição binomial depende de p e de n exclusivamente.
EXEMPLO Suponha que a probabilidade de um indivíduo do sexo masculino(m), com mais de 60 anos, sedentário(s) e fumante(f), desenvolver uma doença cardiovascular nos próximos 8 anos seja de 40%. A partir de um estudo controle com 10 indivíduos com essas características, qual a probabilidade de que nenhum desses indivíduos sofra doenças cardiovasculares no período determinado?
EXEMPLO Suponha que a probabilidade de um indivíduo do sexo masculino(m), com mais de 60 anos, sedentário(s) e fumante(f), desenvolver uma doença cardiovascular (DCV) nos próximos 8 anos seja de 40%. A partir de um estudo controle com 10 indivíduos com essas características, qual a probabilidade de que nenhum desses indivíduos sofra doenças cardiovasculares no período determinado? Resposta: Note que n = 10. Além disso, P(DCV M (60+) S F ) = P(X ) = p = 0, 4 Logo, a probabilidade de nenhum caso de DCV resulta em ( ) 10 P(X = 0) = (0, 4) 0 (0, 6) 10 = 0, 0060 = 0, 60% 0
continuação Qual a probabilidade de menos de três indivíduos da amostra terem DCV? P(X < 3) = P(X = {0, 1, 2}) = P(X = 0) + P(X = 1) + P(X = 2) ( ) 10 P(X = 0) = (0, 4) 0 (0, 6) 10 = 0, 0060 = 0, 60% ( 0 ) 10 P(X = 1) = (0, 4) 1 (0, 6) 9 = 0, 0403 = 4, 03% ( 1 ) 10 P(X = 2) = (0, 4) 2 (0, 6) 8 = 0, 1209 = 12, 09% 2 P(X < 3) = P(X = 0) + P(X = 1) + P(X = 2) = 0, 0060 + 0, 0403 + 0, 1209 = 0, 1672 = 16, 72%
continuação Qual a probabilidade de pelo menos três indivíduos da amostra terem DCV? P(X 3) = P(X = {3, 4, 5, 6, 7, 8, 9, 10}) = P(X = 3) + P(X = 4) + + P(X = 10) Contudo, como sabemos que n f (x i ) = 1, podemos utilizar este i=1 resultado para simplicar os cálculos. Ou seja: P(X 3) = 1 P(X < 3) = 1 0, 1672 = 0, 8328
continuação Qual é a média (ou valor esperado) de casos de DCV? µ = 10 0, 4 = 4 casos Qual é o desvio padrão do número de casos de DCV? σ = 10 0, 4 0, 6 = 1, 55 2casos.
Distribuição de Poisson A distribuição de Poisson está associada com a taxa de ocorrência do número de casos da variável aleatória X. A função de probabilidade de Poisson é dada por P (X = x) = ( e λ ) λ x x!, lembrando que e = 2, 71828... A partir deste tipo de distribuição também é possível obter valores de média, variância e desvio padrão: µ = λ Variância = σ 2 = λ Desvio Padrão = σ = λ
continuação Ao substituir λ por µ = np, note que a função de probabilidade de Poisson é dada por P (X = x) = (e µ ) µ x x! = ( e (np) ) (np) x x! Esta expressão dá uma aproximação da distribuição binomial, tanto mais precisa quanto menor for o valor de p. Em áreas de saúde, essa modelagem probabilística é utilizada em situações de estudos relacionados à patologias raras (valor de p baixo).
EXEMPLO Suponha que uma em cada mil pessoas que utilizam determinado anestésico sofra uma reação negativa. Num total de 500 cirurgias em que se empregou esse anestésico, qual é a probabilidade de que 1 pessoa sofra a reação? Resposta: Primeiramente, λ = µ = n p = 500 0, 001 = 0, 5 Logo, P(X = 1) = e 0,5 0, 5 1 = 0, 3033 = 30, 33% 1!
continuação Qual é a probabilidade de nenhum paciente sofrer reação? Resposta: P(X = 0) = e 0,5 0, 5 0 0! = 0, 6065 = 60, 65% Qual é a probabilidade de mais de um paciente sofrer reação? Resposta: P(X > 1) = 1 P (X = {0, 1}) = 1 [P(X = 0) + P(X = 1)] P(X > 1) = 1 (0, 6065 + 0, 3033) = 0, 0902 = 9, 02%
Modelos Probabilísticos Contínuos
Modelos contínuos de probabilidade Variável Aleatória Contínua: Assume valores num intervalo de números reais. Não é possível listar, individualmente, todos os possíveis valores de uma variável aleatória contínua. Dessa forma, associamos probabilidades a intervalos de valores da variável. Ou seja, a probabilidade será calculada como uma área de interesse no gráco da distribuição.
Distribuição Normal Observemos por exemplo, o peso em Kg, de 1500 pessoas adultas selecionadas ao acaso em uma população. O histograma do conjunto de dados é dado a seguir:
Distribuição Normal A análise do histograma mostra que: a distribuição dos valores é aproximadamente simétrica em torno de 70kg; a maioria dos valores (88%) encontra-se no intervalo (55;85); existe uma pequena proporção de valores abaixo de 48kg (1,2%) e acima de 92kg (1%).
Distribuição Normal Denindo a variável aleatória X : peso, em kg, de uma pessoa adulta escolhida ao acaso da população. É natural então considerar a distribuição dos valores da variável aleatória X, isto é, qual a distribuição de probabilidades de X?
Distribuição Normal A distribuição normal é uma das mais importantes distribuições contínuas de probabilidade, pois: Muitos fenômenos aleatórios comportam-se de forma próxima a essa distribuição. Exemplos: 1. Altura; 2. Pressão sanguínea; 3. Peso. Pode ser utilizada para calcular, de forma aproximada, probabilidades para outras distribuições, como por exemplo, para a distribuição Binomial.
Observação Importante Nem todos os fenômenos se ajustam à distribuição Normal. Exemplo: 1. Y : Duração, em horas, de uma lâmpada de certa marca. A experiência sugere que esta distribuição deve ser assimétrica - grande proporção de valores entre 0 e 500 horas e pequena proporção de valores acima de 1500 horas
Função Densidade da Normal A área na gura é calculada a partir da chamada função densidade da distribuição normal. A expressão da função densidade da distribuição normal é dada por f (x) = 1 } (x µ)2 exp { 2πσ 2σ 2 µ é a média e pode assumir valores em um campo de variação amplo ( < µ < ) σ 2 é a variância, e só assume valores positivos (σ 2 > 0) Apesar da complexidade da expressão, a utilizaremos para cálculo de probabilidades de uma forma fácil, através do uso de uma tabela de cálculo de probabilidades, com base na chamada distribuição normal padrão.
Gráco da distribuição normal
Características da Distribuição Normal Assintótica em relação ao eixo das abscissas; Simétrica em torno do seu valor central, ou seja: valores de média, mediana e moda são iguais. Temos uma notação apropriada para representar uma variável aleatória com distribuição normal. Ou seja, quando X for uma variável aleatória que possuir distribuição normal, temos que X N ( µ, σ 2) Valores concentrados em torno da tendência central. No gráco, as áreas (probabilidades) para um, dois e três desvios padrões em torno da média são, respectivamente:
Parâmetros da Distribuição Normal A distribuição normal depende dos parâmetros µ e σ 2 Curvas normais com mesma variância, porém com médias diferentes (µ 2 > µ 1 ).
Inuência de σ 2 na curva da Distribuição Normal Curvas normais com mesma média, porém com variâncias diferentes (σ 2 2 > σ2 1 ).
Cálculo de probabilidades P(a < X < b) Área sob a curva e acima do eixo horizontal(x ) entre a e b
Distribuição Normal Padronizada Para calcular probabilidades associadas à distribuição normal apresentadas anteriormente, costuma-se transformar a variável original do problema X, em unidades padronizadas. Ou seja, é denida uma variável Z, onde Z = X µ σ Com a transformação, temos um modelo bem simples: Z N (0, 1), chamada distribuição normal padrão. Com isso, ca fácil determinar as probabilidades associadas à uma determinada variável aleatória, pois existe uma tabela especíca de cálculo de probabilidades com base na distribuição normal padronizada.
Uso da tabela da distribuição normal padrão Denotamos: A(z) = P(Z z), para todo z 0.
EXEMPLO Calcular P(Z 0, 32) Logo, P(Z 0, 32) = A(0, 32) = 0, 6255
continuação
continuação
EXEMPLO Calcular P(0 < Z 1, 71) Regra: P(x < Z < y) = A(y) A(x) Logo, P(0 < Z 1, 71) = A(1, 71) A(0) = 0, 9564 0, 5 = 0, 4564
EXEMPLO Calcular P(1, 32 < Z 1, 79) Regra: P(x < Z < y) = A(y) A(x) Logo, P(1, 32 < Z 1, 79) = A(1, 79) A(1, 32) = 0, 9633 0, 9066 = 0, 0567
EXEMPLO Calcular P(Z 1, 5) Logo, P(Z 1, 5) = 1 P(Z < 1, 5) = 1 A(1, 5) = 1 0, 9332 = 0, 0668
EXEMPLO Calcular P(Z 1, 3) Logo, P(Z 1, 3) = A( 1, 3) = 0, 0968
EXEMPLO Calcular P( 1, 5 < Z 1, 5) Regra: P(x < Z < y) = A(y) A(x) Logo, P( 1, 5 < Z 1, 5) = A(1, 5) A( 1, 5) = 0, 9331 0, 0668 = 0, 8664
EXEMPLO Calcular P( 1, 32 < Z 0) Regra: P(x < Z < y) = A(y) A(x) Logo, P( 1, 32 < Z 0) = A(0) A( 1, 32) = 0, 9066 0, 5 = 0, 4066
EXEMPLO Calcular P( 2, 30 < Z 1, 49) Regra: P(x < Z < y) = A(y) A(x) Logo, P( 2, 30 < Z 1, 49) = A( 1, 49) A( 2, 30) = 0, 9066 0, 5 = 0, 4066
EXEMPLO Calcular P( 1, 0 < Z 2, 0) Regra: P(x < Z < y) = A(y) A(x) Logo, P( 1, 0 < Z 2, 0) = A(2, 0) A( 1, 0) = 0, 9772 0, 1586 = 0, 8186
EXEMPLO Como encontrar o valor da distribuição N (0, 1) tal que P(Z z) = 0, 975? Note que z é tal que A(z) = 0, 975. Pela tabela, z = 1, 96.
EXEMPLO Como encontrar o valor da distribuição N (0, 1) tal que P(0 < Z z) = 0, 4975? Note que P(0 < Z z) = 0, 4975 = A(z) A(0) = 0, 4975 = A(z) = 0, 9975. Pela tabela, z = 2, 81.
EXEMPLO Como encontrar o valor da distribuição N (0, 1) tal que P(Z z) = 0, 3? Note que P(Z z) = 0, 3 = 1 P(Z < z) = 0, 3 = A(z) = 0, 7. Pela tabela, z = 0, 53.
EXEMPLO Como encontrar o valor da distribuição N (0, 1) tal que P(Z z) = 0, 975? Note que P(Z z) = 0, 975 = 1 P(Z < z) = 0, 975 = A(z) = 0, 025. Pela tabela, z = 1, 96.
EXEMPLO Como encontrar o valor da distribuição N (0, 1) tal que P(Z z) = 0, 10? Note que pela tabela, z = 1, 28.
EXEMPLO Como encontrar o valor da distribuição N (0, 1) tal que P( z < Z z) = 0, 80? Note neste caso que P(Z < z) = P(Z > z) = 0, 1 Logo, pela tabela, P(Z < z) = A(z) = 0, 90 e assim, z = 1, 28.
EXEMPLO Seja X N (10; 64) ( µ = 10, σ 2 = 64 e σ = 8 ) Calcular P(6 X 12) Note que P(6 X 12) = P ( 6 10 P ( 0, 5 < Z < 0, 25) X 10 12 10 8 8 8 Logo, P ( 0, 5 < Z < 0, 5) = A(0, 25) A( 0, 5) = 0, 5987 0, 3085 = 0, 2902. ) =
EXEMPLO Suponha que o comprimento médio de recém-nascidos do sexo feminino não-portadores de anomalias seja 48,54cm. Além disso, sabemos que o desvio padrão da variável é igual a 2,5cm. Qual é a probabilidade de haver na população indivíduos com comprimento maior ou igual à 48,54? Resposta: Queremos então obter P(X 48, 54). Logo: ( X µ P(X 48, 54) = P σ ) 48, 54 48, 54 = P(Z 0). 2, 5 A tabela fornecida calcula probabilidades da forma P(X x) ou P(X < x). Por isso, P(Z 0) = 1 P(Z < 0) = 1 1 2 = 1 2
continuação Qual é a probabilidade do comprimento ser menor que 44,79cm? Resposta: ( X µ P(X < 44, 79) = P < σ ) 44, 79 48, 54 = A( 1, 5) = 0, 0668 2, 5
continuação Qual é a probabilidade do comprimento ser superior à 47,29cm? Resposta: ( X µ P(X > 47, 29) = P > σ ) 47, 29 48, 54 = P(Z > 0, 5) 2, 5 Novamente, é importante lembrar que a tabela fornecida calcula probabilidades da forma P(X x) ou P(X < x). Por isso, P(Z > 0, 5) = 1 P(Z < 0, 5) = 1 0, 3085 = 0, 6915
continuação Qual é a probabilidade de indivíduos terem comprimento entre 46,04cm e 51,04cm? Resposta: P(46, 04 X 51, 04) = P ( 46, 04 48, 54 2, 5 X µ σ ) 51, 04 48, 54 2, 5 No caso da distribuição normal padrão, temos uma propriedade especial: P(a Z b) = P(Z b) P(Z a) Logo, P( 1 Z 1) = P(Z 1) P(Z 1) = 0, 8643 0, 1587 = 0, 7056
continuação Qual é o limite inferior nas crianças com maior comprimento, cujo percentual é de 5% na população? Resposta: Neste tipo de situação, faremos o caminho inverso. Ao invés de encontrar a probabilidade, precisamos encontrar o menor valor dentre os maiores comprimentos. Sabemos que as maiores crianças correspondem à 5%. Ou seja, precisamos então encontrar o valor de x tal que P ( Z ) x 48, 54 = 0, 95 2, 5 Logo, pesquisando na tabela, vemos então que x 48, 54 2, 5 = 1, 65 x = 1, 65 2, 5 + 48, 54 = 52, 67cm Ou seja, 5% das crianças nasce com comprimento superior à 52,67. Neste exercício o valor de x é chamado de percentil 95.
Comentários adicionais da distribuição normal
EXEMPLO Suponha que temos X variável aletória com distribuição normal com média 60 e variância igual a 64. Ou seja: X N (60, 64). Considerando as áreas sob a distribuição (probabilidades) em relação ao desvio padrão, seria possível armar para este exemplo que P(µ ± σ) = P(52 X 68) = 0, 6826 P(µ ± 2σ) = P(44 X 76) = 0, 9546 P(µ ± 3σ) = P(36 X 84) = 0, 9974