HEP-5800 BIOESTATÍSTICA UNIDADE III INFERÊNCIA ESTATÍSTICA : AMOSTRAGEM PROBABILÍSTICA, DISTRIBUIÇÃO AMOSTRAL, INTERVALOS DE CONFIANÇA. Nilza Nunes da Silva Regina T. I. Bernal
2 1. AMOSTRAGEM PROBABILISTICA CONCEITOS BASICOS O levantamento por amostragem permite a obtenção de informações a respeito de valores populacionais (PARAMETROS), através da observação de apenas uma parte (amostra) do seu universo de estudo (população). Os elementos de uma população são as unidades de observação e analise determinadas pelos objetivos do levantamento. Do ponto de vista matemático, a população é definida como um conjunto de elementos que possuem pelo menos uma característica em comum. Na pratica, compreende o agregado dos elementos, devendo ser definida em termos de localização e tempo. Freqüentemente, devido a problemas de acesso ou de cobertura, esta população é modificada para o conjunto efetivamente observado (população de estudo). E o seu tamanho definido pelo numero de elementos identificáveis (N) que a compõem. Unidade amostral é a menor parte distinta da população identificável para fins de enumeração e sorteio. Portanto, se a unidade de sorteio é a mesma para observação e analise, chama-se elemento. Em algumas amostras a unidade amostral pode ser um conjunto de elementos (escolas, setores censitários, quadras, domicílios, etc). DEFINIÇAO E PROPRIEDADES Dentre os vários processos existentes para a obtenção de amostras, a amostragem probabilística caracteriza-se por garantir, a priori, que todo elemento pertencente ao universo de estudo, possui probabilidade conhecida e diferente de zero, de pertencer à amostra sorteada. A identificação (direta ou indireta) dos elementos e o uso de sorteio fundamentam as propriedades matem ticas da amostragem probabilística. Considere uma população composta pelos elementos (A, B, C, D, E, F), nos quais a característica ou variável X foi observada. Então, N = 6 e X é uma variável discreta. Note que sua distribuição de freqüências é retangular. ------------------------------ elementos (i) X i ------------------------------ A 1 2 B 2 4 C 3 6 D 4 8 E 5 10 F 6 12 ------------------------------
3 O sorteio com reposição de uma amostra de dois elementos, e calculo da media dos valores observados para X em cada uma, define os resultados descritos na tabela 1, permitindo verificar que: a) pela aplicação de determinado processo de amostragem probabilística a uma população composta por N elementos, pode-se definir,para um tamanho fixado de amostra (n), o conjunto de todas as possíveis amostras sorteadas, (coluna a ) da tabela 1. TABELA 1 DESCRIÇAO DE TODAS AS POSSÖVEIS AMOSTRAS AMOSTRAGEM Aleatória COM REPOSI ÇO (N=6 n=2) ------------------------- (a) (b) (c) (d) _ Num. amostras (X1;X2) x i (*) P(Am) ------------------------- 1 AA (02;02) 2 1/36 2 AB (02;04) 3 1/36 3 AC (02;06) 4 1/36 4 AD (02;08) 5 1/36 5 AE (02;10) 6 1/36 6 AF (02;12) 7 1/36 7 BA (04;02) 3 1/36 8 BB (04;04) 4 1/36 9 BC (04;06) 5 1/36 10 BD (04;08) 6 1/36 11 BE (04;10) 7 1/36 12 BF (04:12) 8 1/36 13 CA (06;02) 4 1/36 14 CB (06;04) 5 1/36 15 CC (06;06) 6 1/36 16 CD (06;08) 7 1/36 17 CE (06;10) 8 1/36 18 CF (06;12) 9 1/36 19 DA (08;02) 5 1/36 20 DB (08;04) 6 1/36 21 DC (08;06) 7 1/36 22 DD (08;08) 8 1/36 23 DE (08;10) 9 1/36 24 DF (08;12) 10 1/36 25 EA (10;02) 6 1/36 26 EB (10;04) 7 1/36 27 EC (10;06) 8 1/36 28 ED (10;08) 9 1/36 29 EE (10;10) 10 1/36 30 EF (10;12) 11 1/36 31 FA (12;02) 7 1/36 32 FB (12;04) 8 1/36 33 FC (12;06) 9 1/36 34 FD (12;08) 10 1/36 35 FE (12;10) 11 1/36 36 FF (12;12) 12 1/36 ------------------------- *) x i a media calculada em cada i-ésima amostra (i=1,2,...,36)
4 b) Cada amostra possui uma probabilidade conhecida de ser a amostra efetivamente sorteada (coluna d). c) Todo processo de amostragem probabilística define a distribuição amostral que representa a flutuação aleatória das estimativas obtidas (tabela 2). Note na mesma tabela que foram encontrados valores entre 2 e 12 para a media estimada, enquanto sabemos que a media da população é única e igual a 7. Note também que a distribuição tem média 7, e desvio padrão igual a 2,42. 2. DISTRIBUIÇOES AMOSTRAIS Tabela 2 DISTRIBUIÇAO AMOSTRAL DA MÉDIA MÉDIA Freq % %AC. AMOSTRAL 2 1 2.8 2.8 3 2 5.6 8.3 4 3 8.3 16.7 5 4 11.1 27.8 6 5 13.9 41.7 7 6 16.7 58.3 8 5 13.9 72.2 9 4 11.1 83.3 10 3 8.3 91.7 11 2 5.6 97.2 12 1 2.8 100.0 Total 36 100.0 Tabela 3 PROCEDIMENTO PARA CALCULO DA ESPERANÇA E DA VARIANCIA DA DISTRIBUIÇAO AMOSTRAL DA MEDIA ---------------- j x f j x.f j [ x -E( x )] 2 [ ( x -E( x ) 2].f j ----------------- 1 2 1 2 25 25 2 3 2 6 16 32 3 4 3 12 9 27 4 5 4 20 4 16 5 6 5 30 1 5 6 7 6 43 0 0 7 8 5 40 1 5 8 9 4 36 4 16 9 10 3 30 9 27 10 11 2 22 16 32 11 12 1 12 25 25 ---------------- SOMA 36 252 210 ----------------
5 E( x) 252/ 36 7 DP (x) 210 36 2,42 X VALORES POPULACIONAIS E ESTIMATIVAS Retornando ao exemplo apresentado anteriormente, pode-se construir a distribuição de X, apresentada na tabela a seguir. Distribuição de X ---------------- X F ---------------- 2 1 4 1 6 1 8 1 10 1 12 1 -------------- TOTAL 6 -------------- A media populacional é dada por _ X = 2+4+6+8+10+12 = 7. A variância por elemento é então igual [(2-7) 2 +(4-7) 2 +(6-7) 2 +(8-7) 2 + +(10-7) 2 +(12-7) 2 ]/ 5 =14. ;e o desvio padrão é 3,74. Pode-se, portanto, resumir: X possui distribuição retangular com média igual a 7 e desvio padrão 3,74. Suponha agora que esta informação será estimada através de uma única amostra de tamanho 2. Tome, por exemplo, a quinta amostra da tabela 1, composta pelos elementos (A,E). A media nessa amostra (6) é uma estimativa e esse valor não é igual à média da população da qual ela foi sorteada.?como ENTÃO DECIDIR A RESPEITO DO VALOR MÉDIO DA POPULAÇÃO COMPOSTA POR 6 ELEMENTOS, A PARTIR DA ESTIMATIVA CALCULADA EM UMA ÚNICA AMOSTRA?
6 3. INTERVALOS DE CONFIANÇA Usando a estimativa (média ou proporção calculadas em uma amostra) e os parâmetros da distribuição amostral, controem-se intervalos para os valores que se deseja conhecer na população. O desvio padrão da média amostral é calculado pela expressão dp( x) (1- f).s x n 1- (2/6).3,74 3,05 1,41 2,17, onde f=2/6 é a proporção de elementos da 2 população que compõem a amostra sorteada. O fator (1-f) é a correção para populações finitas. x 1,96.dp(x) 6 1,96.2,17 6 4,24 é o intervalo de confiança estimado para a média populacional. 1,96 é o valor da distribuição normal padronizada que define a região de confiança, ou seja : reúne 95% dos intervalos calculados nesse processo de amostragem. Observe que este intervalo contém o valor da média na população (N=6) 7. Entretanto, você pode ver na tabela 4 (abaixo) que entre os 36 possíveis intervalos, 6 não incluem esse valor populacional. Portanto, confiamos que 95% dos intervalos estimados contenham o valor verdadeiro para a média da população composta por seis elementos. Tabela 4 MEDIA Numero IC95% para média AMOSTRAL da população 2 1-1,73-5,73* 3 2-0,73-6,00* 4 3 0,27-7,73 5 4 1,27-8,73 6 5 2,27-9,73 7 6 3,27-10,73 8 5 4,27-11,73 9 4 5,27-18,00 10 3 6,27-20,00 11 2 7,27-14,73 12 1 8,27-15,73 - Total 36 - *resultado de baixa precisão, decorrente do artifício usado (n=2) A figura 1 (apresentada a seguir) mostra 100 intervalos de confiança (95%) para a média de glicose no sangue de uma população. Note que os intervalos calculados com médias estimadas fora da região de confiança (menores que 34, na sua região inferior à esquerda) e (maiores que 36, na região superior à direita) também não contém o valor 35. Por esse motivo, em todo processo de amostragem enquanto sabemos que 5% dos intervalos não
7 incluem o valor populacional, esperamos que aquele estimado na amostra efetivamente sorteada esteja entre os 95% que o incluem. Figura 1 Fonte:Altman D.G. Practical Statistics for Medical Research.pag.164
8 4. AMOSTRAGEM ALEATÓRIA SIMPLES Sorteio A listagem apresentada a seguir contem informações sobre o sexo e o numero de dentes Careados, Perdidos, ou Obturados (CPOD*)de 170 crianças com 12 anos de idade. Usando a tabela de números aleatórios, selecionamos uma amostra de 10 crianças por sorteio sem reposição. * CPOD é um indicador de saúde oral criado pela Organização Mundial de Saúde. --------- NUM SEXO CPOD 43 F 0 86 M 3 129 M 2 1 F 0 44 F 2 87 M 0 130 M 4 2 F 4 45 F 2 88 M 2 131 M 1 3 F 0 46 F 3 89 M 3 132 M 3 4 F 3 47 F 2 90 M 0 133 M 0 5 F 0 48 F 4 91 M 0 134 M 1 6 F 0 49 F 7 92 M 0 135 M 3 7 F 4 50 F 6 93 M 1 136 M 4 8 F 4 51 F 7 94 M 4 137 M 2 9 F 2 52 F 5 95 M 3 138 M 3 10 F 2 53 F 6 96 M 0 139 M 4 11 F 4 54 F 13 97 M 2 140 M 3 12 F 0 55 F 8 98 M 4 141 M 3 13 F 3 56 F 14 99 M 1 142 M 2 14 F 4 57 F 15 100 M 3 143 M 4 15 F 3 58 F 8 101 M 0 144 M 0 16 F 3 59 F 5 102 M 1 145 M 2 17 F 3 60 F 5 103 M 3 146 M 2 18 F 4 61 F 5 104 M 4 147 M 11 19 F 0 62 F 5 105 M 2 148 M 5 20 F 2 63 F 7 106 M 3 149 M 6 21 F 2 64 F 8 107 M 4 150 M 5 22 F 3 65 F 6 108 M 3 151 M 7 23 F 2 66 F 7 109 M 3 152 M 6 24 F 4 67 F 6 110 M 2 153 M 5 25 F 0 68 F 7 111 M 4 154 M 6 26 F 4 69 F 5 112 M 0 155 M 5 27 F 0 70 F 6 113 M 2 156 M 5 28 F 3 71 F 13 114 M 2 157 M 6 29 F 0 72 F 8 115 M 1 158 M 9 30 F 0 73 F 14 116 M 3 159 M 8 31 F 4 74 F 15 117 M 1 160 M 11 32 F 4 75 F 8 118 M 3 161 M 5 33 F 2 76 F 5 119 M 0 162 M 6 34 F 2 77 F 5 120 M 2 163 M 5 35 F 4 78 F 5 121 M 3 164 M 7 36 F 0 79 F 5 122 M 0 165 M 6 37 F 3 80 F 7 123 M 0 166 M 5 38 F 4 81 F 8 124 M 0 167 M 6 39 F 3 82 F 6 125 M 1 168 M 5 40 F 3 83 M 1 126 M 4 169 M 5 41 F 3 84 M 3 127 M 3 170 M 6 42 F 4 85 M 1 128 M 0 ----------
9 Amostra Aleatória Simples (n=10) ---------------------------------- NUM SEXO CPOD NUM SEXO CPOD --- ---- ---- --- ---- --- 1 F 4 6 F 5 2 F 2 7 M 4 3 F 0 8 M 3 4 F 6 9 M 0 5 F 13 10 M 4 -------------------------------- Tabela 5 Distribuição de freqüências e estimativas (AAS, n=10) ---------------------------- CPOD Freq Percent Cum. ------+----------------------- 0 2 20.0% 20.0% média (CPOD) = 4,10dentes 2 1 10.0% 30.0% dp (CPOD) = 3,695 dentes 3 1 10.0% 40.0% 4 3 30.0% 70.0% 5 1 10.0% 80.0% 6 1 10.0% 90.0% 13 1 10.0% 100.0% ------+----------------------- Total 10 100.0% ------------------------------ INTERVALO DE CONFIANÇA (95%) - para o CPOD MEDIO na população (N=170) será dp(media amostral)= erro padrão = (3,695/3,162*) = 1,169 (*) raiz quadrada de n=10 4,10 1,96.1,169 4,10 2,291 1,81 6,39. - para a proporçao de crianças do sexo feminino (P) p 1,96. pq n 0,6x0,4 0,6 1,96. 0,6 0,1549 (0,445 0,755) 10
10 Tabela 6 ---------- SEXO Freq Percent 95% Conf Limit ------+--- F 6 60.0% 26.2%-87.8% M 4 40.0% 12.2%-73.8% ------+--- Total 10 100.0% ---------- 5. AMOSTRAGEM ESTRATIFICADA SIMPLES Se o cadastro (listagem) estiver ordenado segundo sexo, podemos usar o sorteio sistemático para obter uma amostra estratificada simples (com partilha proporcional) da população de escolares. a) calcula-se o intervalo para sorteio dos elementos (I=170/10=17) b) sorteia-se o inicio casual...um numero entre 01 e 17 (IC=8) c) definem-se os numero que comporão a amostra sorteada, PELAS SOMAS SUCESSIVAS operadas pela expressão[ic+(n-1).i],(coluna b)da tabela 7. Ou simplesmente somando o intervalo (I=17) ao número calculado na linha anterior (coluna c). Tabela 7 Num. Cálculo (a) [IC+(n-1).I] Num.sortea do ( c ) SEXO* ( d ) CPOD ( e ) ( b ) 1 IC = 8 8 F 4 2 8+(2-1).17=25 8+17=25 F 0 3 8+(3-1).17=42 25+17=42 F 4 4 8+(4-1).17=59 42+17=59 F 5 5 8+(5-1).17=76 59+17=76 F 5 6 8+(6-1).17=93 76+17=93 M 1 7 8+(7-1).17=110 93+16=110 M 2 8 8+(8-1).17=127 110+17=127 M 3 9 8+(9-1).17=144 127+17=144 M 0 10 8+(10-1).17=161 144+17=161 M 5 ESTIMATIVAS As colunas ( d ) e (e ) da tabela 7 informam o SEXO E O CPOD de cada criança incluída na amostra estratificada de tamanho 10. Observe que os CPOD s das meninas são mais elevados que os dos meninos..cpod médio = 2,9 dentes ; erro padrão = 0,64 dentes
11 IC95% para o CPOD MEDIO DA POPULAÇAO (N=170) = (0,875 4,16) Note que a amostra estratificada com partilha proporcional resultou em intervalo de confiança mais preciso. Erro padrão AAS (1,169) > Erro padrão AES com part.proporcional (0,64). Ou seja, o efeito de delineamento (0,64/1,61)= 54,7% e o ganho de precisão pode ser calculado por (100 54,7)=45,3%. Tabela 8 - RESUMO AMOSTRAGEM.n=10 ALEATORIA SIMPLES (AAS) ESTRATIFICADA SIMPLES (AES) ESTIMATIVA Para o CPOD Médio pop. ERRO PADRAO IC95% 4,10 1,169 (1,81-6,39) DEFF 2,90 0,64 (0,884,16) 0,547