TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro
Sumário
Amostragem estratificada Divisão da população em grupos chamados de estratos, motivada por: melhora da precisão das estimativas; estimativas independentes para estratos além da população como um todo; questões administrativas, estratos naturais Motivação técnica: Var AAS (y) = (1 f ) S2 n ; Erro diminui quando amostra cresce, mas cresce quando a variabilidade é grande; Uma alternativa é dividir a população em grupos (estratos) o mais homogêneos possíveis
Exemplo: Seja uma população P 8 sendo que se conhece as variáveis renda domiciliar (y) e bairro de moradia (x) como na tabela abaixo: i 1 2 3 4 5 6 7 8 Y i 13 17 6 5 10 12 19 6 X i B A B B B A A B Y = 11; σ 2 = 24; S 2 = 27, 43 Estrato A Estrato B i 2 6 7 1 3 4 5 8 Y i 17 12 19 13 6 5 10 6 X i A A A B B B B B Y A = 16 σa 2 = 8, 67 SA 2 = 13 Y B = 8 σb 2 = 9, 2 SB 2 = 11, 5
Vamos selecionar amostras de tamanho 4 das seguintes maneiras: AAS na população P N ; AAS de tamanho 2 no estrato A e AAS de tamanho 2 no estrato B Então, pode-se calcular: Var AAS (y) = (1 f ) S2 n Var AAS (y A ) = (1 f A ) S2 A n A Var AAS (y B ) = (1 f B ) S2 B n B Pode-se calcular a média da população como uma média ponderada das médias dos grupos A e B Propomos como estimador da média populacional a seguinte estatística: y ae = N A N y A + N B N y B
Portanto, Var(y ae ) = [ ] 2 NA Var(y N A ) + O efeito da estratificação é dado por: EPA = Var(y ae ) Var(y) [ ] 2 NB Var(y N B ) Escolha do método de amostragem: melhor método é o que tem menor variância para o estimador
Nem tudo são flores! Vamos supor que ao invés de usar a variável bairro para estratificar, fosse usada outra variável tal que: Estrato A Estrato B i 1 2 3 4 5 6 7 8 Y i 13 17 6 5 10 12 19 6 X i B A B B B A A B Y A = 10, 25 σa 2 = 24, 69 SA 2 = 32, 92 Y B = 11, 75 σb 2 = 22, 19 SB 2 = 29, 58 Será isto razoável? Qual será o valor EPA?
Formalização Seja a população P N = {U 1, U 2,, U N } Dividida em H estratos: P N1 = {U 11, U 12,, U 1N1 } P N2 = {U 21, U 22,, U 2N1 } P NH = {U H1, U H2,, U HNH }, sendo que P N = H P Nh e H P Nh =
Pode-se representar uma população estratificada por: Estrato Total Média Variância 1 τ 1 µ 1 = Y 1 σ1 2 ou S1 2 2 τ 2 µ 2 = Y 2 σ2 2 ou S2 2 h τ h µ h = Y h σh 2 ou Sh 2 H τ H µ H = Y H σh 2 ou SH 2 População τ µ = Y σ 2 ou S 2
Notação da população Tamanho do estrato h: N h ; Total do estrato h: τ h = Y h = N h i=1 Y hi; Média do estrato h: µ h = Y h = 1 N h Nh Variância do estrato h: S 2 h = 1 N h 1 Peso do estrato h: W h = N h N i=1 Y hi; Nh i=1 (Y hi Y h ) 2 ; tal que H W h = 1; Tamanho da população: N = H N h; Total da população: τ = H τ h ou Y = H Y h; Média da população: µ = Y = 1 N H Nh Variância populacional: S 2 = 1 N 1 H i=1 Y hi = H W hy h ; Nh i=1 (Y hi µ) 2
Notação da amostra Considere y ih como a i-ésima observação do estrato h Tamanho da amostra do estrato h: n h ; Média amostral do estrato h: y h = 1 n h nh Variância amostral do estrato h: s 2 h = 1 n h 1 Fração amostral do estrato h: f h = n h N h ; Tamanho da amostra: n = H n h; i=1 y hi; nh i=1 (y hi y h ) 2 ;
Resultados Temos que σ 2 = σ 2 d + σ 2 e A variância pode ser vista como uma soma das variâncias dentro dos grupos (estratos) mais uma medida da variância entre os grupos, sendo: tal que σ 2 d = W h σh 2 e σe 2 = σ 2 = σ 2 d + σ 2 e = De forma análoga, tem-se S 2 = W h (Y h Y ) 2 W h σh 2 + W h (Y h Y ) 2 N h 1 N 1 S2 h + N h N 1 (Y h Y ) 2
Estimação O estimador da média populacional (média global) é dado por: y ae = 1 N N h y h = W h y h, sendo y h o estimador da média no estrato h Se todos os y h são estimadores não tendenciosos, tem-se que: E(y ae ) = Y Em particular, isso ocorre se os estimadores de cada média de estrato for a correspondente média amostral
Exemplo Uma vila foi dividida (estratificada) em três conjuntos de domicílios segundo suas características: 1-região onde moram trabalhadores da indústria, 2-moradores mais antigos, 3-área rural Foi selecionada uma amostra em cada estrato e investigado o número de horas em que se assiste televisão por semana em cada domicílio Estimar a média de horas por semana em cada estrato e na população; Existe evidência que o número de horas difere em cada estrato? Estrato 1 Estrato 2 Estrato 3 35 28 26 41 27 4 49 10 8 15 21 7 43 29 32 37 15 41 25 30 14 30 20 11 36 25 29 31 12 32 34 24 39 38 40 45 28 27 35 34 N 1 = 155 N 2 = 62 N 3 = 93 n 1 = 20 n 2 = 8 n 3 = 12
Exemplo (continuação) y ae = y 1 = 33, 900 s1 2 = 33, 35789 y 2 = 25, 125 s2 2 = 232, 4107 y 3 = 19, 000 s2 2 = 87, 63636 1 [155 33, 9 + 62 25, 125 + 93 19, 0] = 27, 675 155 + 62 + 93 Ao nível de significância de 5%, tem-se: ic 95% (Y 1 ) = (31, 47; 36, 33) ic 95% (Y 2 ) = (15, 27; 34, 98) ic 95% (Y 3 ) = (14, 05; 30, 07) Portanto, existe diferença entre o número médio de horas em cada estrato
Importante O estimador sugerido para a média populacional na amostragem estratificada não é a média amostral A média amostral é dada por: y = 1 n = 1 n = n h y hi i=1 n h y h w h y h com w h = n h, h = 1, 2,, H n Então, y = y ae se w h = W h para todo h = 1, 2,, H
Estimação Um estimador para o total populacional é dado por: Ŷ ae = Ŷ h = N h y h = Ny ae com Ŷh = N h y h Variância dos estimadores: média: Var AE (y ae ) = Wh 2 Var(y h ) total: Var AE (Ŷae) = H N2 Wh 2 Var(y h ) = Nh 2 Var(y n ) E se em todos os estratos tivermos AAS?
Alocação da amostra Um problema na amostragem estratificada é determinar como dividir as n unidades da amostra total em cada estrato de modo que: n = n h Chama-se este problema de alocação da amostra Os três tipos principais de alocação são: Alocação proporcional; Igual; Ótima ou de Neyman
Alocação proporcional Nesse tipo de alocação o número de unidades na amostra em cada estrato é proporcional ao tamanho do estrato: Portanto: n h = nw h = n N h, para todo h = 1, 2,, H N f h = n h = n, para todo h = 1, 2,, H N h N Alocação igual Tem-se que n h = n H, para todo h = 1, 2,, H Pode-se adaptar adequadamente as fórmulas das variâncias dos estimadores para cada alocação
Exemplo Uma região possui 60 municípios e deseja fazer uma amostragem para atualizar a estimativa do total de sua população Para isso foi decidido pesquisar 20 cidades e deseja-se saber qual seria o mais eficiente para o caso: uma amostra aleatória simples (AAS), uma amostra aleatória estratificada (AAE) com alocação proporcional ou uma AAE com alocação igual As cidades foram agrupadas em dois estratos segundo a população apurada no último Censo (cidades grandes: mais de 300 mil habitantes; e cidades pequenas: menos de 300 mil habitantes) A tabela mostra essa estratificação e as populações, no censo, em milhares de habitantes Estrato 1 776 622 583 502 468 468 438 437 419 416 404 382 370 346 318 Estrato 2 297 295 294 292 290 285 270 255 250 250 244 241 238 236 234 231 220 218 215 211 204 202 201 192 190 190 188 178 178 171 167 166 163 162 157 145 141 141 139 125 122 118 112 111 110 Estrato 1 Estrato 2 Total 6949 9039 Soma de Quadrado 3417311 1954179
Alocação ótima de Neyman Sabe-se que populações (ou estratos) grandes precisam de amostras grandes Sabe-se que fenômenos com grande variabilidade também precisam de amostras grandes Suponha que o custo para pesquisar uma unidade amostral possa variar para cada estrato A alocação ótima de Neyman leva tudo isso em conta: n h = n O custo da pesquisa será suposto linear, ou seja: C = c 0 + N h S h / c h H N hs h / c h (1) n h c h, (2) sendo c 0 o custo de escritório que não depende de h e c h o custo de pesquisar uma unidade do estrato h
Alocação ótima de Neyman Tendo o custo fixo, pode-se calcular o tamanho da amostra, substituindo (1) em (2), por: n = (C c 0) H N hs h / c h H N hs h ch Fixando a variância desejada para estimar a média como V, ou seja, V = Var AE (y ae ) = Wh 2 Var(y h ) = W 2 h (1 f h ) S2 h n h = e substituindo (1) em V, tem-se: ( H W hs h / ) ( H c h W ) hs h ch n = V + 1 H N W hsh 2 Wh 2 Sh 2 1 n h N W h Sh, 2
Para o caso em que os custos para coleta dos dados independem do estrato tem-se N h S h W h S h n h = n H N = n H hs h W hs h A alocação acima é a que minimiza a variância quando o tamanho total da amostra, n, é dado Utiliza-se também essa fórmula quando não se tem nenhuma ideia sobre o custo de coleta nos estratos
Dado um tipo de alocação, pode-se adaptar as fórmulas das variâncias dos estimadores: Alocação proporcional: Var(y es:prop ) = 1 f nn N h Sh 2 Alocação igual ou uniforme: Var(y es:igual ) = 1 N 2 [ H n ] Nh 2 Sh 2 N h Sh 2 Alocação ótima ou Neyman: ( Var(y es:otima ) = 1 1 H ) 2 N N 2 h S h N h Sh 2 n
Tamanho da amostra estratificada - caso geral Seja V a variância mínima desejada para estimar a média da população Seja uma alocação qualquer n h = na h, sendo a h a constante que define a alocação no estrato h Pela fórmula da variância da média temos ( V = Wh 2 1 na ) h S 2 h = 1 N h na h n Logo, W 2 h Sh 2 1 a h N W h Sh 2 n = H W 2 h S 2 h a h V + 1 N H W hs 2 h Portanto, os a h s vão depender da alocação escolhida Proporcional: a h = W h Igual: a h = 1 H Ótima: a h = W h S h / c h H W hs h / c h
Pode-se usar a mesma estratégia do cálculo do tamanho da amostra na AAS, calculando n 0 e depois n, sendo: n 0 = 1 V W 2 h S 2 h a h, n = 1 + 1 NV n 0 W h Sh 2 Fixando o erro, d, ao invés da variância V : [ ] 2 d V = z 1 α/2
Intervalos de confiança Intervalos de confiança para a média e total, supondo AAS dentro dos estratos Seja a variância amostral em cada estrato: s 2 h = 1 n h 1 n h i=1 (y hi y h ) 2 Um estimador não tendencioso para variância da estimativa da média é: v(y ae ) = W 2 h s 2 h n h W h s 2 h N Intervalos de confiança podem ser calculados por: ) ic (1 α)100% (Y ) = (y ae z 1 α/2 v(y ae ), y ae + z 1 α/2 v(y ae ) ( ) ic (1 α)100% (Y ) = Ny ae z 1 α/2 N v(y ae ), Ny ae + z 1 α/2 N v(y ae )
Intervalos de confiança Quando as amostras nos estratos são muito pequenas aconselha-se substituir a aproximação Normal pela t-student com ν graus de liberdade Os graus de liberdade são dados por ν = H [ H ] 2 g hsh 2 [ g 2 h sh 4(n h 1) ] com g 2 h = N h(n h n h ) n h O grau de liberdade ν pode ser arredondado para um inteiro positivo
Estrato com tamanho unitário Suponha que os estrato certo é h = 1 Então, o estimador da média da população é y ae = W h y h = W 1 Y 1 + W h y h, com variância dada por Var AE (y ae ) = W 2 1 Var AE (Y 1 ) + h=2 Wh 2 Var AE (y h ) = h=2 pois Var AE (Y 1 ) = 0 Para o total populacional, tem-se: Ŷ ae = N 1 Y 1 + N h y h, Var AE (Ŷae) = H h=2 h=2 e N 2 h Var AE (y h ) Wh 2 Var AE (y h ), h=2
Amostragem estratificada: proporções Em uma população com H estratos: P h = N ch N h, sendo N ch o número de unidades no estrato h com a característica A variância de y no estrato h é dada por: S 2 h = N hp h Q h N h 1 Estima-se a proporção na população por: p ae = 1 N N h p h = W h p h, com p h = y ae = 1 n h n h i=1 y hi Sua variância é dada por Var AE (p ae) = Wh 2 Var AE (p h ) = W 2 h [ ] Nh n h Ph Q h N h 1 n h
Tamanho da amostragem Alocação proporcional: n h = nw h Fixando a variância V : V = W 2 h [ ] Nh nw h Ph Q h = N N h 1 nw h n W 2 h H P h Q h N h 1 W 2 h P h Q h N h 1 n = N H W 2 h P h Q h N h 1 V + H W h 2 P h Q h N h 1 Supondo N h grande : = n 0 1 + n 0 N com n 0 = N H W 2 h V P h Q h N h 1 H n = W hp h Q h V + 1 = n 0 H N W hp h Q h 1 + n 0 N H com n 0 = W hp h Q h V