ioestatística e Computação I Estatística Descritiva Maria Virginia P Dutra Eloane Ramos Vania Matos Fonseca Pós raduação em Saúde da Mulher e da Criança IFF FIOCRUZ Organizar e resumir dados Estatística Inferencial Deduções sobre a população a partir de uma amostra Teoria da Fundamentos para a estatística inferencial aseado nas aulas de M. Pagano e ravreau e eraldo Marcelo da Cunha É provável que chova hoje É provável que este ovo esteja infectado. Evento Elemento básico para o qual a probabilidade pode ser aplicada Pode ocorrer ou não (incerteza) Como quantificar a incerteza sobre a ocorrência de determinado evento? Definição frequentista Um experimento é repetido n vezes sob condições idênticas e um evento A ocorre m vezes. Conforme n aumenta a razão m/n se aproxima de um limite fixo, que é a probabilidade de A, denotada por P(A). P A = m n quandon Frequência relativa de A tende a P(A), após um número grande de repetidas tentativas limite da frequência relativa
0 P(A) 1 sempre P(A) = 0 Não há nenhuma chance do evento A ocorrer P(A) = 1 O evento A ocorrerá com certeza Evento certo Exemplo Numa comunidade em um dado período de tempo, de 100.000 nascimentos, 99.149 sobreviveram ao primeiro ano de vida. Evento A: sobreviver ao primeiro ano de vida. Assumindo que 100.000 é um número de repetições grande o suficiente: P A = 99.149 100.000 =0,99149 99,15% limite da frequência relativa Espaço amostral Embora não se possa afirmar o resultado de um experimento aleatório, todos os possíveis. resultados podem ser identificados previamente. Espaço amostral Experimento Procedimento científico para a verificação de relações entre fatos bem definidos. Pode-se listar todos os resultados possíveis. Espaço amostral Conjunto de resultados possíveis de um experimento aleatório Denotado simbolicamente por Ω (ômega). Evento Qualquer resultado possível ou subconjunto do espaço amostral de um experimento.
Exemplos Experimento E1: Jogar um dado e observar o número da face superior Espaço amostral Ω1 = {1,2,3,4,5,6} Eventos: A = {1}, = {2}, C = número par = {2,4,6},... Experimento E2: Observar o número de crianças com deficiência visual num ambulatório Ω2 = {0,1, 2,..., N}, onde N é o número máximo de crianças atendidas no ambulatório. Eventos: A = {3}, = {5}, C = mais do que 10 crianças = {11,12,13,...} Exemplos Experimento E3: Observar o tempo t de recidiva de uma doença num determinado paciente. Espaço amostral Ω3 = qualquer valor real maior ou igual a zero = {t R t 0} Eventos: A = {32 dias}, = {3 meses}, C = t menor que 6 meses = {t R t < 6 meses} E4: Observar o sexo dos bebês internados na UTI neonatal E5: Observar o tipo de parto das mulheres atendidas na maternidade do IFF E6: Número de DMOS em pacientes da UP Espaço amostral Mais algumas definições Eventos elementares Finito Ω1, Ω2, Ω4, Ω5, Ω6 Infinito Ω3 Resultados individuais do experimento Quais os eventos elementares de Ω1, Ω2, Ω3,? Evento nulo ou conjunto vazio ( ) também é um subconjunto de Ω Ex: Observar a idade i de um paciente internado na UP. Ω = {t R t 1 mês e t < 18 anos}. Evento A: observar uma idade de 30 anos = Evento certo: o próprio espaço amostral Ω P(Ω) = 1
Outra definição Se o espaço amostral Ω é finito e os eventos elementares são equiprováveis, a probabilidade de ocorrer um avento A é a razão entre o número de eventos elementares pertencentes a A e o tamanho do espaço amostral. P A = úmerodeeventoselementares A úmerototaldeeventoselementares dado que os eventos elementares tem igual probabilidade de ocorrência Experimento: jogar um dado. Evento A = {2} P(A) =? Número de eventos elementares de A (na): 1 Tamanho de Ω (nω): 6 P(A) = 1/6 Evento = número par = {2,4,6} n = 3 nω = 6 P() = 3/6 = ½ = 0,5 Eventos mutuamente exclusivos Experimento: observar o sexo dos bebês internados na UTIN, assumindo que os eventos elementares são equiprováveis. P(feminino) =? É possível usar essa definição de probabilidade com os experimentos abaixo? número de crianças com deficiência visual tempo de recidiva tipo de parto DMOS Por que? Disjuntos Eventos que não podem ocorrer simultaneamente Eventos elementares de um espaço amostral são sempre mutuamente exclusivos Exemplo: faixa etária na primeira gravidez evento A = idade menor que 20 evento = idade maior ou igual a 40 anos Idade na primeira gravidez (anos) 10 a 20 20 a 30 30 a 40 40 a 50
Eventos mutuamente exclusivos Exemplo evento A = ser do sexo masculino evento = gravidez Exemplo evento A = bebê com muito baixo peso evento = baixo peso evento C = peso normal Eventos independentes A ocorrência de um evento de um experimento não afeta a ocorrência do outro Exemplo: observar o sexo do 1o e do 2 o filho Dado que o 1o filho é menino, isso afeta a probabilidade do sexo do segundo filho? Exemplo: cor dos olhos e estado nutricional Exemplo de eventos não independentes: estado nutricional da mãe peso ao nascer do bebê Diferença entre independente e excludente Independentes A ocorrência do evento A não influencia a probabilidade de ocorrência de. Mutuamente exclusivos A ocorrência do evento A implica que o evento não pode ocorrer. Operações com eventos aleatórios Operações podem ser usadas para descrever eventos complexos a partir de eventos simples Intersecção ( ) A = A e (no mesmo experimento) = tanto A quanto (experimentos distintos) União ( ) A = A ou Complemento (c ) Ac = não A
Operações com eventos aleatórios Exemplo de Intersecção ( ) Experimento: jogar um dado, Ω = {1,2,3,4,5,6} evento A = número par = {2,4,6} evento = número maior que 3 = {4,5,6} evento C = número par e maior que 3 = A = {4,6} Ω 1 2 3 4 5 6 A C Diagrama de Venn Operações com eventos aleatórios Exemplo de Intersecção para experimentos distintos Ω1 sexo de um indivído e faixa de pressão arterial (experimento composto) A = ser homem E hipertenso feminino masculino = ser homem C = ser hipertenso A = C Ω2 hipotenso normotenso hipertenso Ω C feminino e hipotenso feminino e normotenso feminino e hipertenso masculino e hipotenso masculino e normotenso masculino e hipertenso Operações com eventos aleatórios Operações com eventos aleatórios Exemplo de União ( ) Experimento: jogar um dado, Ω = {1,2,3,4,5,6} evento A = número par = {2,4,6} evento = número maior que 3 = {4,5,6} evento C = par ou maior que 3 = A = {2,4,5,6} Ω 1 2 3 4 5 6 A C Diagrama de Venn Exemplo de União para experimentos distintos sexo e faixa de pressão arterial A = ser homem OU hipertenso = ser homem C = ser hipertenso A = C Ω C feminino e hipotenso feminino e normotenso feminino e hipertenso masculino e hipotenso masculino e normotenso masculino e hipertenso
Operações com eventos aleatórios de eventos compostos Exemplo de complemento Experimento: jogar um dado, Ω = {1,2,3,4,5,6} evento A = número par = {2,4,6} evento Ac = número não par = {1,3,5} Evento composto: formado por uma operação envolvendo dois ou mais eventos simples da união Se A e são eventos mutuamente exclusivos P(A ) = P(A) + P() da intersecção Ω A C 1 2 3 4 5 6 A Diagrama de Venn Se A e são eventos independentes P (A ) = P(A) x P() do complementar P(Ac ) = 1 P(A) de eventos compostos Exemplo: Sabe-se que a distribuição de DMOS na UP-IFF é a que está na tabela abaixo, considerando dados passados. A = DMOS 4 = {4,5,6} Se 670 é grande o suficiente: P(A) = P(4 5 6) Eventos mutuamente exclusivos P(A) = P(4) + P(5) + P(6) P(A) = 5,97 + 3,43 + 1,64 = 11,04% DMOS Fa Fr (%) 0 241 35,97 1 149 22,24 2 132 19,70 3 74 11,04 4 40 5,97 5 23 3,43 6 11 1,64 Total 670 100,00 de eventos compostos Dada a distribuição do meio de transporte para chegar a maternidade e o evento: A = chegar de taxi ou de carro P(A)=?
de eventos compostos de eventos compostos Dada a tabela de frequência de idade na primeira gravidez, considere o evento A = idade < 20 ou 40 anos P(A)=? Idade na primeira gravidez (anos) Fa Fr 10 e < 20 1152 46.8 20 e < 30 1082 43.9 30 e < 40 224 9.1 40 e < 50 6 0.2 Total 2464 100.0 Experimento: observar o estado nutricional e o hábito de tomar café. A = ser obeso E ter o hábito de tomar café P(A) = P(obeso tomar café) Se são eventos independentes: P(A) = P(obeso) * P(tomar café) P(A) = 0,22 * 0,85 = 0,187 Toma café P(A) = 18,7% Estado nutricional Fr Fr Sim 85% Não 15% Total 100% déficit de peso 10% normal 42% sobrepeso 26% obeso 22% Total 100% de eventos compostos de eventos compostos Experimento: observar o sexo do primeiro e segundo filho. A = dois meninos, P(A) =? P(A) = P([F1=menino] [F2=menino]) Se os dois nascimentos são eventos independentes: P(A) = P(F1=menino) P(F2=menino) 1. Ambos os sexos equiprováveis P(A) = 0,5 * 0,5 = 0,25 = 25% 2. de nascer menino = 48% Numa UTI pediátrica com 15 leitos, suponha que a probabilidade de não encontrarmos nenhum paciente com meningite seja 99% e a de encontrarmos exatamente 1 paciente com meningite seja 0,7%. Qual a probabilidade de encontrarmos mais de 1 paciente com meningite? A = {0,1}, P(A) =? Ac = não A = {2, 3, 4,, 15} P(Ac ) = 1 P(A) P(A) = 0,48 * 0,48 = 0,2304 = 23,04%
Árvore de probabilidade É comum que os experimentos tenham um espaço amostral mais complexo. Exemplo: observar o sexo das crianças de famílias com 3 filhos um evento possível A = dois meninos e uma menina P(A) =? Árvore de probabilidade Permite visualizar o espaço amostral e as probabilidades de cada evento elementar Árvore de probabilidade nasc 1 nasc 2 nasc 3 espaço amostral do experimento final Árvore de probabilidade Cada bifurcação representa um subexperimento Primeiro nascimento (2 resultados possíveis) Segundo nascimento (2 resultados possíveis) Terceiro nascimento (2 resultados possíveis) Número de ramos em cada bifurcação depende do número de eventos elementares de cada sub-experimento Número de ramos final: n1 x n2 x n3 x... No exemplo, número de ramos = 2 x 2 x 2 = 8 Cada ramo final representa um evento elementar do espaço amostral final Árvore de probabilidade nasc 1 nasc 2 nasc 3 Espaço amostral ½ ½ ½ ½ P()=½ P()=½ Experimentos independentes e eventos equiprováveis Evento E1 E2 E3 E4 E5 E6 E7 E8 ½ * ½ * ½ = 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
Árvore de probabilidade Árvore de probabilidade P(E1) = P(E2) = P(Ei) eventos elementares equiprováveis Qual a probabilidade de nascer um menino, uma menina e um menino, nessa ordem? Qual a probabilidade de nascerem dois meninos e uma menina? A = pelo menos uma menina. P(A) =? = todos do mesmo sexo. P() =? E = {,, } Eventos elementares do espaço amostral são equiprováveis P(E) = ne / nω = 3/8 Árvore de probabilidade Suponha agora que a probabilidade de nascer menino é 48% e menina é 52%. Construa a árvore de probabilidade. Qual a probabilidade de nascer um menino, uma menina e um menino, nessa ordem? Qual a probabilidade de nascer dois meninos e uma menina? E = {,, } eventos elementares mutuamente excludentes P(E) = P( ou ou ) = P( ) = P() + P() + P() = Árvore de probabilidade nasc 1 nasc 2 nasc 3 Espaço amostral 0,52 0,52 0,48 0,48 P()=0,52 P()=0,48 Experimentos independentes Evento E1 E2 E3 E4 E5 E6 E7 E8
Árvore de probabilidade A = pelo menos uma menina. P(A) =? = todos do mesmo sexo. P() =? Cada evento elementar de um espaço amostral possui uma probabilidade de ocorrência. Um evento A qualquer é sempre um subconjunto do espaço amostral. Como os eventos elementares são excludentes P(A) = soma das probabilidades de todos eventos elementares que compõem o evento A P A = P E i E i A onde Ei = eventos elementares de A Árvore de probabilidade e diagrama de Venn Árvore de probabilidade e diagrama de Venn Árvore de probabilidade probabilidades dos eventos elementares Diagrama de Venn probabilidade de qualquer outro evento A = pelo menos duas meninas P(A) =? O casal ficará desapontado se nascerem menos do que duas meninas ou se todos forem do mesmo sexo = menos que duas meninas H = todos do mesmo sexo ou H = H = {E1,E2,E3,E5,E8} Se os eventos são equiprováveis P( H) = 5/8 Se não...
Árvore de probabilidade e diagrama de Venn O casal ficará desapontado se nascerem menos do que duas meninas e todos forem do mesmo sexo = menos que duas meninas H = todos do mesmo sexo e H = H = {E1} P( H) = 1/8 Podemos utilizar P( H)= P() * P(H)? Porque? Calcular a probabilidade dos eventos A = pelo menos duas meninas ou todos do mesmo sexo = não nascerem todos do mesmo sexo C = o primeiro ser menino e pelo menos uma menina Considere que ambos os sexos são equiprováveis E1: E2: E3: E4: E5: E6: E7: E8: de eventos compostos de eventos compostos da união ( ) quando os eventos não são excludentes A = menos do que duas meninas ou todos do mesmo sexo P(menino) = 0,48 e P(menina) = 0,52 P(A) =? = menos que duas meninas C = todos do mesmo sexo A = C P(A) = P( C) P( C) = P() + P(C) P( C) Exemplo: baixo peso e prematuridade aixo peso Prematuro não sim Total não 1602 46 sim 309 151 Total A = bebê nascer com baixo peso (bp) ou prematuro (pmt) P(A) = P(bp pmt) P(A) = P(bp) + P(pmt) P(bp pmt)
de eventos compostos Exemplo: Suponha que a proporção de pessoas com menos de 18 anos numa comunidade seja 47,2% e de pessoas com déficit de peso seja 11,3%. Sabe-se que a proporção de pessoas com menos de 18 anos e com déficit de peso é 3,5%. Qual a probabilidade de uma pessoa escolhida ao acaso ter menos de 18 anos ou déficit de peso? P(A) = P(déficit <18 anos) P(A) = P(déficit) + P(<18 anos) P(déficit <18 anos) condicional condicional Frequentemente deseja-se determinar a probabilidade de um evento dado que já se conhece o resultado de outro evento anterior P(A ) = probabilidade de A dado Exemplo. No experimento dos 3 nascimentos, dado que o primeiro filho é menina, qual a probabilidade de nascerem todos do mesmo sexo? A = todos os filhos do mesmo sexo = primeiro filho é menina P(A ) =? condicional Qual a probabilidade de nascerem Qual a probabilidade de nascerem
condicional Teorema de ayes: No nosso exemplo, com eventos equiprováveis: P() = 4/8 P(A ) = 1/8 P(A ) = (1/8) / (4/8) = 1/4 = 25% Se os eventos não são equiprováveis P() = P(A ) = P(A ) = P A = P A P condicional Qual a probabilidade de termos 2 meninos ou mais, dado que o primeiro filho é menino? Se pelo menos um dos três filhos é menina, qual a probabilidade do mais velho ser menino? E1: E2: E3: E4: E5: E6: E7: E8: condicional condicional Na epidemiologia existem muitas situações em que as probabilidades de ocorrência de um evento A são alteradas devido à ocorrência ou não de outro evento associado a A. O evento que condiciona ou altera a probabilidade de outro é frequentemente chamado de fator de exposição. Qual a probabilidade de ocorrer uma doença (evento A) dado que o indivíduo foi exposto a determinado fator (evento )? Qual a probabilidade de ter câncer, dado que o indivíduo é fumante? Qual a probabilidade do bebê nascer com baixo peso, dado que a mãe é desnutrida? Qual a probabilidade de uma criança morrer, dado que o lixo fica a céu aberto no local onde mora?
condicional conjunta A 1 = perder filhos dado que o lixo é recolhido P(A 1 ) =? A 2 = perder filhos dado que o lixo é jogado a céu aberto P(A 2 ) =? Perdeu filhos depois de nascidos Destino do lixo doméstico sim não Total Recolhido pelo lixeiro 940 9930 Colocado em caçamba 150 1140 Enterrado/queimado 10 200 Jogado a céu aberto 50 110 Total da intersecção Caso geral quando os eventos não são independentes Dado que: P A = P A P A probabilidade da intersecção pode ser calculada como: P(A ) = P() x P(A ) = P(A) x P( A) conjunta conjunta Suponha que a incidência de prematuridade seja 21,8% e, dado que o bebê é prematuro, a probabilidade de nascer com baixo peso é 32,8%. Qual a probabilidade de nascer um bebê com baixo peso e prematuro? P(A ) = P() x P(A ) A = baixo peso = prematuro Qual a probabilidade de nascer um bebê com baixo peso e prematuro? aixo peso Prematuro não sim Total não 1602 (76.0%) 46 (2.2%) 1648 (78.2%) sim 309 (14.7%) 151 (7.2%) 460 (21.8%) Total 1911 (90.7%) 197 (9.3%) 2108 (100.0%) P() = P(A ) = P(A ) = P A =P P A P A =P P A
conjunta Exercício Qual a probabilidade de um indivíduo ter déficit de peso e ter menos de 18 anos? Estado nutricional Idade Déficit Normal Total <18 anos 90 1120 18 anos 200 1150 Total P A =P P A condicional e árvore de probabilidade Sabe-se que a incidência de pressão alta nos homens de uma determinada comunidade é de 3,47% e a proporção de homens é de 45,89%. Qual a probabilidade de um indivíduo escolhido ao acaso nessa comunidade ser homem e possuir pressão alta? Sabe-se que a proporção de mulheres numa comunidade é de 54,11% e a proporção de mulheres com pressão alta é de 2,92%. Se um indivíduo escolhido ao acaso é mulher, qual a probabilidade de sofrer de pressão alta? P A =P P A condicional e árvore de probabilidade Conhecendo-se as probabilidades condicionais, pode-se utilizar a árvore de probabilidade para calcular as probabilidades conjuntas. E+ 0,015 M Espaço amostral E+ M s conjuntas P(E+ e M) = 0,006 Exemplo. A probabilidade de morte por câncer de pulmão é de 0,015 para fumantes (E+) e 0,005 para não fumantes (E-). Sabe-se que 40% da população é fumante. 0,4 0,6 0,985 0,005 S M E+ S E- M P(E+ e S) = 0,394 P(E- e M) = 0,003 Qual o desfecho de interesse? E- Qual a exposição? Qual o espaço amostral e as probabilidades conjuntas? 0,995 S E- S P(E- e S) = 0,597 somatório = 1
conjunta e tabela de contingência conjunta e tabela de contingência Tabela de contingência Tabela de frequencias absolutas ou relativas ou de probabilidades envolvendo duas variáveis. Morrer Sobreviver Total E+ (fumar) 0,006 0,394 0,4 E- (ñ fumar) 0,003 0,597 0,6 Total 0,009 0,991 1 O miolo possui as probabilidades conjuntas Os totais possuem as probabilidades marginais Morrer Sobreviver Total E+ (fumar) 0,006 0,394 0,4 E- (ñ fumar) 0,003 0,597 0,6 Total 0,009 0,991 1 Qual a probabilidade de morrer? Qual a probabilidade de sobreviver? Qual a probabilidade de ser fumante? Qual a probabilidade de não estar exposto? Qual a probabilidade de não estar exposto ou de sobreviver? Qual a probabilidade de morrer dado que é fumante? Independência estatística Independência estatística A ocorrência de um evento não influencia a probabilidade de ocorrência de outro evento P(A ) = P(A) e P( A) = P() P(A ) = P(A). P( A) = P(A). P() 0.3 0.7 L NL 0.009 0.991 0.009 0.991 M 0.0027 S 0.2973 M 0.0063 S 0.6937 M e S = Morrer e Sobreviver de câncer L e NL = Louro e Não Louro P(M L) = P(M) = P(L) = P(L M) = P(L). P(M) = Usando a tabela de contingência P(M) = P(L) = P(L M) = P(L). P(M) = P(M L) = P(L M) / P(L) = Morrer Sobreviver Total E+ (L) 0,0027 0,2973 E- (NL) 0,0063 0,6937 Total
Testes Diagnósticos O teste T pode dar positivo ou negativo para uma determinada doença D. Existe uma probabilidade do teste ser positivo mesmo que o paciente não tenha a doença. Assim como de ser negativo mesmo que o paciente tenha a doença. É desejável que o teste acerte o máximo possível tanto na presença da doença (sensibilidade) quanto na sua ausência (especificidade). Testes Diagnósticos Sensibilidade do teste ser positivo quando deveria. do teste dar positivo (T+) quando de fato a doença está presente (D+). S = P(T+ D+) Especificidade do teste ser negativo quando deveria. do teste dar negativo (T-) quando de fato a doença está ausente (D-). E = P(T- D-) Testes Diagnósticos S = P(T+ D+) P(T+ D+) = 22/1820 P(D+) = 30/1820 S = 22/1820 / 30/1820 = (22/30) = 0,7333 E = P(T- D-) E = 1739/1790 = 0,9715 Tuberculose Raio X Sim (D+) Não (D-) totais Pos (T+) 22 51 73 Neg (T-) 8 1739 1747 totais 30 1790 1820 P A = P A P Testes Diagnósticos Se o indivíduo está doente, há uma probabilidade de 73,33% do teste acertar Se o indivíduo não está doente, há uma chance de 97,15% do teste acertar O teste acerta 73,3% das vezes quando o indivíduo está doente O teste acerta 97,15% das vezes quando o indivíduo não está doente O teste é específico mas é pouco sensível
Testes diagnósticos Dado que o resultado do teste é positivo, existe uma probabilidade do indivíduo estar ou não realmente doente. Valor preditivo positivo (VPP) Dado que o teste é positivo, qual a probabilidade do indivíduo estar realmente doente? VPP = P(doente teste positivo) = P(D+ T+) VPP = 22/73 = 30,14% Tuberculose Raio X Sim (D+) Não (D-) totais Pos (T+) 22 51 73 Neg (T-) 8 1739 1747 totais 30 1790 1820 Testes diagnósticos Dados a sensibilidade e especificidade do teste e a prevalência da doença, como calcular o valor preditivo positivo? VPP = P(D+ T+) = P(T+ D+) / P(T+) P(T+ D+) = P(D+ T+) * P(T+) = P(T+ D+) * P(D+) P(T+ D+) = Sensibilidade * Prevalência P(T+) = P(T+ D+) + P(T+ D-) = P(T+ D+) * P(D+) + P(T+ D-) * P(D-) complementar da especificidade (1-E) complementar da prevalência Testes diagnósticos VPP=P D T = P T D P T P T D P D VPP= P T D P D P T D P D S Prev VPP= S Prev 1 E 1 Prev O VPP depende da sensibilidade e especificade do teste e da prevalência da doença na comunidade estudada Qual a sensibilidade do exame Papanicolau para detectar câncer de colo de útero? Quais as consequências desse resultado? Qual a especificidade do teste? Quais as consequências? Qual a probabilidade de uma mulher ter câncer de colo de útero? E se ela tiver um exame Papanicolau positivo? Câncer colo útero Papanicolau Sim Não totais Pos 69 186.385 186.454 Neg 14 813.532 813.546 totais 83 999.917 1.000.000