Teora da Amostragem I- oções fudametas sobre amostragem. Amostragem é todo o processo de recolha de uma parte, geralmete pequea, dos elemetos que costtuem um dado couto. Da aálse dessa parte pretede obter-se formações para todo o couto. Veamos agora algumas oções báscas da teora da amostragem: --- População -- é a colecção de todos os elemetos com uma dada característca comum. um processo de amostragem é mportate dstgur etre população obectvo -- é a totaldade dos elemetos em estudo e relatvamete aos quas se pretede obter certo tpo de formação e população qurda -- aquela sobre a qual é efectvamete feta a amostragem. A população obectvo e população qurda devem cocdr. Se sso ão acotecer deve ter-se em cota que as extrapolações apresetadas este texto dzem respeto à população qurda. --- Característca ou atrbuto da população -- é a formação relatva à população que se pretede estudar. As característcas podem ser de atureza quattatva e este caso cosderam-se escalas umércas as quas as varáves se podem classfcar em -- cotíuas (referem-se a medções, pesages, etc..); -- dscretas (referem-se a cotages), ou de atureza qualtatva e este caso classfcam-se em -- omas (ex: sexo, espéce de uma dada plata ou amal, etc...); -- ordas (ex: tems de valores de uma dada classfcação). --- População de amostras é o couto de todas as amostras possíves. --- Estatístca é uma fução da amostra aleatóra que ão cotém parâmetros descohecdos. --- Udade de amostragem ou udade estatístca -- é o elemeto da população cosderada e sobre o qual va ser estudada a característca de teresse -
exemplos: um amal, uma plata, um obecto, uma famíla, uma exploração agrícola, um barro, etc. O obectvo prcpal da teora da amostragem é obter uma amostra que sea uma represetação hoesta da população e que coduza à estmação das característcas da população com grade precsão. Algumas das vatages que podemos desde á apotar ao usarmos um processo de amostragem o estudo de um dado problema são: a) redução dos custos e maor rapdez o apurameto dos resultados; b) maor profuddade a recolha de elemetos; c) resolve o problema de estudar característcas que são destrutvas; d) mmza os erros assocados à recolha de formação (a recolha, regsto e tratameto de formação há sempre erros assocados. A recolha de um úmero meor de elemetos faz, obvamete, dmur as possbldades deste tpo de erro). Qual o processo a adoptar a recolha de elemetos a clur a amostra? Isto costtu o que se desga por plao de amostragem. Veamos quas são as fases prcpas de um plao de amostragem adequado: -- defção dos obectvos do estudo; -- escolha dos dados útes a recolher, o que sgfca: -- defção da udade de amostragem; -- defção da escala de valores para a característca em estudo; -- defção da população ou uverso; -- escolha do método de amostragem; -- defção do ível de precsão ou erro de amostragem admtdo. Defda a população há que decdr sobre o processo a adoptar a recolha dos elemetos a clur a amostra, sto é, o método de amostragem. Tas processos podem ser globalmete classfcados em: --métodos ão aleatóros ou drgdos - estes métodos a costrução da amostra é feta a partr de formação à pror sobre a população estudada, tetado que a amostra sea um espelho fel dessa população. Por assetarem em bases empírcas, tas métodos ão permtem calcular a precsão das estmatvas obtdas a partr da amostra. Os métodos ão aleatóros mas cohecdos são a amostragem oretada, a amostragem por coveêca e a amostragem por quotas.
--métodos aleatóros ou probablístcos quado cada elemeto da população tem uma probabldade cohecda de fazer parte da amostra. Estes métodos possbltam a determação da dstrbução de probabldade, pelo meos asstotcamete, do estmador de teresse, cosequetemete a determação da sua varâca e permtem por sso quatfcar o erro de amostragem decorrete da utlzação de apeas uma parte da população. Destes métodos remos estudar a amostragem aleatóra smples, a amostragem estratfcada, a amostragem por coglomerados e a amostragem multetápca. Outros desevolvmetos além dos que rão ser aqu abordados podem ver-se em Cochra (977). Dada uma população, sea θ a característca de teresse e sea Θˆ um estmador costruído a partr de uma amostra aleatóra. As propredades de um estmador são de grade teresse para a sua caracterzação. A varâca do estmador é de mportâca fudametal em amostragem porque do seu valor depede: - a precsão do estmador; - o tamaho da amostra para obter a precsão deseada; - a escolha do melhor método de selecção da amostra. Ao falarmos a mportâca da varâca de um estmador estamos a pesar em estmadores cetrados. Acotece mutas vezes que, algus estmadores usados são evesados. Sedo assm, se pretedermos comparar dos estmadores, um cetrado e outro ão ou dos evesados, a medda adequada é o erro quadrátco médo(eqm), assm defdo: [( θ) ] [ ] [ ] ( θ). EQM( Θ $ ) E Θ$ Var Θ$ + E Θ$ O erro quadrátco médo é a medda da exactdão, rgor (em glês accuracy) do estmador cosderado, relatvamete ao que se está a estudar, equato a varâca é a medda da precsão (do glês precso) do afastameto ao valor esperado do estmador (medda obtda estmada` por sucessvas réplcas do procedmeto de amostragem). EQM e varâca cocdem, como se sabe, se o estmador é cetrado. 3
Amostragem de uma população fta Cosderemos uma população P, costtuída por dvíduos. Desgemos por a característca em estudo que supomos assumr os segutes valores A, A,..., A para todos os elemetos da população. Em geral teressa-os cohecer aspectos ou parâmetros caracterzadores da população, tas como: A Valor Médo µ µ () Varâca µ ( A ) A σ E ( µ ) µ () ou ' A µ σ σ (3) Total T A µ (4) T Razão de dos totas T Y T (5) atrbuto. Proporção P dos elemetos da população que possuem um certo Amostragem aleatóra smples com reposção Se cosderarmos uma população com elemetos, um processo de amostragem com reposção, cada elemeto tem a mesma probabldade / de ser seleccoado. Sedo assm, qualquer amostra de dmesão tem probabldade / de ser seleccoada. Sea etão,,..., uma amostra aleatóra retrada com reposção de uma população com elemetos com valores A (,..., ) e x, x,..., x a correspodete amostra observada. 4
/. Cada elemeto da amostra pode tomar qualquer valor A com probabldade Um estmador cetrado para µ é, como sabemos, Tem-se ada Var ( ) σ. (6) σ A Var( ) chama-se erro padrão da méda. Como regra geral ão se cohece σ ão é possível saber o valor do erro padrão. Há etão que determar um estmado de σ. Vamos relembrar que. ' S ( ) é um estmador cetrado de σ. Efectvamete E ' ( ) E[ S ] E E [ ] E[ ]. Relembrado que Var E E tem-se ' ( σ + µ ) ( σ / + µ ) σ + µ σ µ E S σ. um processo de amostragem, é ecessáro calcular a dmesão da amostra a recolher, de modo a obter a estmatva de teresse, com um erro feror a ε, fxado um ível de cofaça. Quado a dmesão da amostra aumeta, aumeta a precsão do estmador, mas também os custos de amostragem. Idealmete deve estabelecer-se a precsão deseada e etão escolher a dmesão da amostra. Como se sabe, um tervalo de cofaça para µ a (-)00% de cofaça, o caso de uma amostra aleatóra obtda com reposção é ' ' x t s x t s /, + / (7) 5
determado com base uma amostra de dmesão. Sedo assm, fxado o ível de precsão ou erro de amostragem (ε) e o ível de cofaça (-) ou o rsco () podemos determar a dmesão da amostra a recolher por forma a termos um erro feror a ε. Para sso basta etão exgr que s t / s' t / ε. (8) ε Porém, para calcular o valor t / é ecessáro saber o úmero de graus de lberdade (-), e cosequetemete a dmesão da amostra, que é afal aqulo que pretedemos calcular. Por sso a prátca costuma usar-se t / para um ível de sgfcâca de 5%. o que se refere ao valor s', o desvo padrão da amostra, ecessta de ser cohecdo para se ter a dmesão da amostra. O que se deverá fazer? -- cosderar uma amostragem de uma população semelhate e usar os valores de teresse desse estudo. -- fazer um estudo ploto para, a partr dele obter estmatvas dos parâmetros descohecdos para podermos usar a fórmula (8). -- cosderar uma amostragem b-etápca, sto é, obter uma prmera amostra de dmesão e com desvo padrão s '. Para uma precsão ε, a amostra fal deverá ter um úmero de elemetos, dado por t s ε / ' +. (9) Se o valor resultate para é tal que é aprecável (>5% ou >0%), deve cosderar-se como dmesão de amostra a recolher o valor dado por *. + / 6
Amostragem sem reposção este caso a stuação é dferete da ateror, porque os elemetos vão ser cluídos a amostra sem reposção o que tora as varáves aleatóras correspodetes aos valores da característca em estudo ão depedetes umas das outras. o etato, o caso da população ser grade relatvamete à dmesão da amostra extraída, pode cosderar-se um esquema de amostragem em que aquelas varáves são pratcamete depedetes. Veamos este caso o estudo das propredades dos estmadores da méda e da varâca da população. Para facltar cosderemos as segutes varáves dcatrzes: I 0 se se A A está a amostra ão está a amostra Sea ovamete (,,..., ) a amostra retrada desta vez sem reposção A I etão (ote-se que se A está a amostra A I ) Vamos etão calcular o valor médo e a varâca de. Para sso vamos estudar a v. a. I. P[ I ] [ ] 0 ( 0) ( ) [ ] A E[ I ] E I P I + P I E E A I, ; dode A µ Portato é estmador cetrado de µ. 7
Calculemos agora a varâca de. [ ] [ A I ] Var Var A I Ora atededo a que os I Var ão são depedetes tem - se [ ] Var A I AVar I + A A Cov( I, I ) (0) ( ) Cov( I, I ) E[ I I ] E[ I ]. E[ I ]. ( ) Ora Var[ I ] E[ I ] E [ I ] o que, após pequeos cálculos dá Cov( I, I ). () Por curosdade veamos que a correlação é assm dada. (, I ) ρ I Cov( I, I ) Var( I ) Var( I ). () Observe-se que a covarâca tede para zero quado, o que explca a quase depedêca para populações grades. O sal egatvo o coefcete de correlação também se terpreta com facldade, bastado pesar que o facto de a amostra se observar um elemeto com a característca A. dmu a probabldade de se observar outro com essa mesma característca. Calculemos etão Var Var A I ( ) A Var( I ) + A A Cov( I, I ) A A A 8
Atededo a que A A se pode escrever como A A A ' A com ' A ( A +... + A ) A µ A vem A A A ( µ A ) µ A, após o que, cosderado a substtução, se tem Var( ) A A ( µ A ) ( µ A ) A µ A µ σ. (3) Observe-se que σ σ < sto é Var ( ) < Var ( ) s / reposção c / reposção Sedo assm, quer dzer que a amostragem sem reposção é mas efcete do que a amostragem com reposção para estmar o valor médo. Se é grade comparatvamete a, a fracção a dfereça a efcêca tora-se desprezável. ão dfere muto de e Ao factor chama-se correcção de população fta e a f chama-se fracção de amostragem. A expressão da varâca acma deduzda pode ser apresetada usado a varâca corrgda σ, sto é, 9
σ σ σ Var ( ) ( f ). (4) Vmos que o caso da amostragem com reposção era um estmador cetrado de σ, veremos agora que o caso da amostragem sem reposção S é estmador cetrado de σ. Ora S ' ( ) [ ] E E[ ( µ ) ( µ ) ] E S [ E( ) E( ) ] σ µ µ σ σ ( ) ( ) σ ( ) σ σ logo S é estmador cetrado de σ a amostragem sem reposção. σ este caso uma estmatva do erro padrão é: s f (5) Itervalos de cofaça para µ Veamos o segute exemplo, Barett (994). Cosderemos uma população com 5 elemetos, todos cohecdos: 5 4 5 8 8 6 6 8 9 0 7 9 4 8 4 9 8 0 5 Para esta população tem-se µ8.44 e σ. 4 e dela é extraída aleatoramete, sem reposção, uma amostra de 5 elemetos. Sea por exemplo a amostra obtda 0 5 8 5 0
σ Para esta amostra tem-se x 9. 8 e Var ( ) ( f ). 987 5 Barett (994) apreseta o resultados obtdos quado, para aquela população se geram 500 amostras de dmesão 5. Verfcou que x 8. 46 µ e s. 94 Var ( ). 500 Tedo em cota o que fo acabado de observar, pode pesar-se uma extesão do Teorema Lmte Cetral ao caso de populações ftas. Assm pode cosderar-se µ, ( f ) σ / ( ) (6) Este resultado pode ser razovelmete acete mesmo em preseça de assmetra a população. Como uma regra grossera para uso daquela dstrbução aproxmada em populações evesadas à dreta requere-se que > 5G com G ( A µ ) σ 3 3 (coefcete de assmetra para populações ftas) e que f ão sea demasado grade, ver Cochra(977). Sedo assm, as codções aterores pode usar-se a dstrbução ormal para fazer ferêcas sobre µ. as codções atrás referdas um tervalo a (-)00% de cofaça para µ será etão - f - f x z/ σ < µ < x + z/ σ (7) sedo z tal que P Z > z. ( ) / / Porém a prátca σ ão é cohecdo e sedo assm cosdera-se s como uma estmatva para σ, o que é razoável desde que grade, cotuado a usar-se a aproxmação à ormal. Se ão é sufcetemete grade (<40) e ão se cohece σ, o melhor é usar a dstrbução t, dode um tervalo a (-)00% de cofaça para µ será etão - f - f x t/ ( ) s < µ < x + t/ ( ) s (8)
sedo t ( ) tal que P > / ( ) ( T t ), com T v.a. com dstrbução de Studet. / t Por exemplo em sodages referem-se a populações grades (>000) com amostras >00 e por sso estamos em codções de usar a ormal a costrução de tervalos de cofaça. Escolha da dmesão da amostra Quado a dmesão da amostra aumeta, aumeta a precsão, mas há que ter em cota que também o custo de amostragem aumeta. Sedo assm há que crar-se uma stuação de compromsso: a stuação deal sera escolher de modo a ter precsão máxma com custo mímo. este caso pretedemos determar o mímo valor de que permta estmar µ de modo a ter uma precsão d. Pretede-se etão que { d} P µ < Vmos á que o tervalo de cofaça a (-)00% para µ era - f - f x z / σ < µ < x + z / σ z Basta etão exgr que - f - / σ d z σ d z σ / / / d d z σ / / / / / ( z σ ) ( z σ ) d 0 ( z σ ) + d ( z σ ) ( z / σ ) ( z σ ) + d / sto é, a dmesão da amostra é z σ d z / / z / z / σ d σ + d σ + (8) d
Como prmera aproxmação para regra geral cosdera-se z / σ 0. o caso de 0 ter um valor muto elevado etão deve usar-se d como dmesão de amostra a recolher 0 0 + Observe-se que, regra geral, mas uma vez se descohece σ, devedo etão substtuí-lo por s. Para sso sera ecessáro cohecer prevamete a amostra que é aqulo que ão se cohece. Há bascamete quatro attudes a tomar: σ. Recorredo a estudos ploto, que os permtam uma prmera estmatva para Recorredo a estudos prévos da mesma população ou de populações semelhates. É comum as mas varadas áreas de teresse: medca, educação, haver estudos de característcas semelhates em populações semelhates. esse caso uma medda da varabldade obtda em stuações semelhates pode dar uma dcação de σ. Fazedo a selecção em duas fases. É este o procedmeto mas fável, embora possa ão ser pratcável em termos admstratvos ou de custos. Como se processa? Tra-se uma amostra aleatóra com elemetos e calcula-se s como estmatva de σ. ecesstamos agora de verfcar se a dmesão é adequada para obtermos a precsão requerda. Para sso aumeta-se a amostra com outra de dmesão ( ) ode ( ) é escolhda usado s como uma estmatva cal para σ. Cochra (977) e Barett (994) propõem este caso que se gore a correcção de população fta (-f) devedo a dmesão total da amostra ser pela mesma expressão defda em (9), sto é, t d s' / +. A partr de cosderações prátcas sobre a estrutura da população. Pode acotecer ter-se alguma formação sobre a estrutura da população, por exemplo, pode haver razões que os levem a suspetar tratar-se de uma população de Posso. Sedo assm σ µ. 3
Estmação do total T Há mutas stuações em que pretedemos estmar um total : a produção aual de trgo, etc. Dado que T T µ (9) o estmador mas usado é * (0) T * * σ sedo E T µ T e Var T ( f ). as mesmas codções referdas atrás, pode também aqu usar-se a aproxmação à ormal, tedo-se * σ T T, ( f ) () para costrur tervalos de cofaça para T e ada determar a dmesão da amostra ecessára para obter certa precsão a estmação de T. Se >50 um tervalo de cofaça para T a (-)00% é * f * f xt z/ σ - < T < xt + z/ σ - () Se pequeo, dgamos feror a 50, substtu-se z / por t / ( ). Escolha de Fxada uma precsão d, para um ível de sgfcâca, pretede-se que P * < d T dode, e tedo em cota o tervalo de cofaça escrto acma, terá que exgr-se z - f - / - / σ d ( z σ ) d z / / dode se tem - z T d + σ z / / d σ / d σ 4
+ z / d σ. (3) Mas uma vez estaremos em preseça das mesmas dfculdades que surgram aterormete aquado da determação da dmesão da amostra. As cosderações sobre os procedmetos a usar deverão ser aqu tdas em cota. Como prmera aproxmação podemos cosderar z / σ 0. d Se 0 grade deve cosderar-se 0 + 0 0. Estmação de uma proporção P o estudo de uma dada característca, pretede-se estmar P, a proporção de elemetos com uma dada propredade. Exemplo: a população de estudates de uma dada Uversdade, qual a proporção dos que vvem em quartos alugados? Retrado uma amostra aleatóra de dmesão, cota-se o úmero r de dvíduos que satsfazem a propredade. Sedo assm uma estmatva de P, pode ser dada por p$ r / Ora o modo mas smples de obter propredades para o estmador Pˆ é usar as propredades á estudadas aterormete para o estmador do valor médo, bastado para sso cosderar o segute: Supohamos que P represeta a proporção de elemetos de uma população fta de dmesão, que verfcam uma dada característca A. Pode costrur-se a segute varável aleatóra auxlar assocdada a cada elemeto da população: Y 0 se o elemeto da população verfca a propredade A se o elemeto da população ão verfca a propredade A 5
Y Y R, ode R é o úmero de elemetos da população que verfcam A. T Y R P µ Y P é etão a méda da varável Y a população; $p será etão a méda da amostra observada. Para estudar a efcêca do estmador Pˆ, estamos de ovo a stuação de cosderar as propredades da méda de uma amostra para estmar a méda da população. (4) Cosderemos etão a amostra aleatóra Y, Y,...,, cua méda é Y Y Y R$ P$, (5) sedo a verdadera proporção, P, correspodete ao valor médo da varável Y Y P µ Y R (6) com varâca ( Y µ Y ) Y µ ' Y P P P( P) σy. (7) Portato E[ P] [ ] E Y $ P P logo $ P é um estmador cetrado. Var[ P $ ] ( P P f ) σy f ( ) ( ) ( ) P( P). (8) Porém, mas uma vez estamos a stuação de ter as defções aterores parâmetros descohecdos, sto é, P é descohecdo, e por sso ão é possível calcular 6
σ'. Etão terá que ser estmado, usado o estmador cetrado de σ', S, cua estmatva é s Y ( y y) pq ˆ ˆ /( ) (9) Dode, um estmador cetrado de Var[ P $ ] é S ( Pˆ) ( f ) PQ ˆ ˆ /( ) (30) É de referr que este estmador ão resulta da substtução dos valores da amostra, a expressão da varâca da população, que vmos ser Var [ Pˆ ] P( P), como se podera pesar, embora a dfereça sea muto pequea. Se f é desprezável, tem-se S ( Pˆ) PQ ˆ ˆ /( ). (3) que acotece em partcular quado estamos a amostrar uma população fta. Itervalos de cofaça para P Ao recolher atrbutos ou característcas para estmar P, sabemos mas acerca da dstrbução de amostragem de P $ do que as stuações correspodetes para estmar µ ou T. De facto a dstrbução exacta de P $ é cohecda. O úmero R de elemetos da amostra que possuem aquele atrbuto, tem dstrbução hpergeométrca,.e., R R r r P[ haver r elemetos ] ; max(0, R + ) r m( R, ) Porém, a prátca, o cohecmeto da dstrbução exacta do úmero de elemetos da amostra possudo aquela cararcterístca ão é muto mportate, em face dos cálculos pesados que esta dstrbução evolve. É portato útl procurar aproxmações para a dstrbução do estmador, agora um espírto mas pragmátco do que teórco. Uma possbldade cosste em usar a dstrbução bomal como uma aproxmação da hpergeométrca -- se é pequeo relatvamete a R e a (-R), a "falta de reposção" pode ser "gorada", dode 7
Rˆ B(, P) Embora possamos usar esta dstrbução bomal para costrur tervalos de cofaça para P, também esta evolve cálculos pesados (excepto se é pequeo). a maora das aplcações acha-se coveete usar a aproxmação pela ormal, sto é, PQ P ˆ ~ Ν P,( f ) (3) A aproxmação à ormal é razoável desde que: -- ão sea muto grade relatvamete a R e a -R. -- o meor dos valores P e Q ão sea muto pequeo, m (P,Q)>30 é uma regra empírca habtualmete cosderada. -- se P está próxmo de /, etão os valores pequeos de P e Q são assegurados pelos seus estmadores cetrados P$ e Q$. Sedo assm um tervalo de cofaça para P será ( f ) pq ˆ ˆ ( f ) pq ˆ ˆ pˆ z ˆ / < P < p + z / (33) resultate da substtução de var( P $ ) pelo seu estmador cetrado ˆ ˆ PQ S ( Pˆ) ( f ). (34) Escolha do tamaho da amostra para estmar uma proporção $ Como vmos um estmador para P é P$ R com E P$ P Var P$ e A Var[ P ˆ ] atge o seu máxmo para PQ/. PQ. Quado se pretede determar o tamaho da amostra para obter uma dada precsão a estmação de P, o que é que se pretede? 8
a) o valor absoluto do erro ser feror a um dado valor, ou b) o valor relatvo do erro? a) Se pretedemos fxar um valor máxmo para o erro absoluto, etão PQ s. e. [ P$ ] d (supodo grade, portato ( f ) ) b) Se pretedemos fxar um valor máxmo para o erro relatvo, etão [ ˆ Q P] / P (supodo grade, portato ( f ) ) s. e. ε P Observe-se que o erro relatvo ão é mas do que o coefcete de varação, por sso a codção expressa atrás é equvalete a dzer que pretedemos o coefcete de varação ão superor a ε. Sedo assm, escolher o tamaho da amostra de modo a assegurar certos lmtes ao erro padrão ou ao coefcete de varação é o mesmo que assegurar que { $ } ou { $ } P P P > d P P P > ξp ou sea, cosderado a aproxmação pela ormal, vra [ ˆ PQ d.. ] ou..[ ˆ Q ξ s e P s e P] / P. z P z / / Aqu, a determação de (dmesão da amostra), temos uma facldade que ão thamos o caso da estmação de µ ou T, porque depedetemete do valor que P possa assumr, podemos ter sempre um lmte superor. Para a prmera desgualdade tem-se PQ z d /, mas PQ tem como valor máxmo /4, quado P/, etão z / 4d satsfaz a desgualdade pretedda. o que respeta à seguda desgualdade á ão é possível maorá-la. 9
0 Os resultados apresetados até aqu cosderavam f desprezável. Mas se f ão é desprezável, terá que cosderar-se a fórmula exacta para [ ] PQ P Var ˆ, dode z PQ d PQ d z PQ d z PQ d z PQ z d PQ z d / / / / / / + + Podemos tomar como prmera aproxmação PQ d 0 z / (35) porém se 0 é grade, deve cosderar-se 0 0 0 +. Veamos o caso de se preteder uma precsão proporcoal a P: Ora sabe - se que e pretede - se que Var P PQ ( $ ). ) ( ) ( ) ( / / / / / / / + + + ξ ξ ξ ξ ξ ξ ξ P Q z z P Q Q z P Q z P PQ z P z P PQ P PQ z Como prmera aproxmação pode cosderar-se Q P 0 z / ξ. (37) De ovo se 0 é grade, deve cosderar-se 0 0 0 +.
Estmação de uma razão Cosderemos a amostra aleatóra costtuída por pares de valores (, Y ) obtda por amostragem aleatóra smples. Supohamos que pretedemos estmar a razão R T Y µ T µ Y. (38) Para sso dspomos etão de uma amostra com os valores ( x, y )...( x, y ) sea etão o estmador de R, R * Y. (39) e Prova-se que o caso de grades amostras R * é asstotcamete ormal com valor médo e varâca asstótcos assm defdos: * E R R µ µ Y ; f * ( RY ) f Var R σ' Rσ' Y + R σ ' Y (40) y y Uma estmatva de Var R * s' R * é * f ( x r y ), (4) y com r * x y. Para grades amostras um tervalo a (-)00% de cofaça para R é * * * *. R z s'( R ) < R < R + z s'( R ) Acotece por vezes que ao estudarmos duas característcas para cada udade de amostragem, para uma delas é cohecdo o total dos valores dessa característca. Sea etão R T Y T µ µ Y e supohamos que Y T é cohecdo. este caso é possível estmar o valor médo µ, µ Rµ Y, usado o estmador da razão, assm defdo µ R * µ (4) Y R Y Y
O estmador R é asstotcamete cetrado e para grades amostras tem-se Var R f RY f R Y R Y ( ) + σ' σ' σ '. Uma vez costruído o estmador da razão, coloca-se uma perguta atural: --Em que crcustâcas será o estmador da razão preferível ao estmador habtual da méda? Será R mas ou meos efcete do que? Isto é, em que codções Var R < Var? Ora tem-se f σ' σ' + σ' < f σ' Rρσ' σ' > R σ' [ R R ] Y Y Y Y R σ' Y ρ > ρ > σ' CV CV Y, ode CV desga coefcete de varação.
Amostragem Estratfcada Supohamos que temos a população dvdda em subpopulações ou estratos. (Esta dvsão regra geral é feta com base uma varável dta de estratfcação). São váras as razões que levam a estratfcar a população: -- oferece maor garata de represetatvdade; -- permte obter estmatvas com uma dada precsão para a varável de teresse em cada estrato; -- permte resolver os problemas eretes a cada estrato e que podem dferr de estrato para estrato; -- a estratfcação permte um aumeto de precsão as estmatvas; essa precsão é tato maor quato mas homogéeos forem os estratos; -- coveêcas admstratvas de orgazação do trabalho de recolha da formação. Supohamos etão que dspomos de uma população fta com dvíduos (ote que são as ossas udades de amostragem) e seam a,..., a os valores de uma dada característca para aqueles dvíduos. Supohamos que a população é dvdda em grupos ou estratos de dmesões cohecdas:,..., ( ), assm caracterzados: Estrato dmesão elemetos valor médo varâca ' µ σ ' µ σ S a a La S a a La M M M M M ' µ σ S a a La Valor médo µ µ W µ Varâca da σ + σ ' ( µ µ ) ( ) população (43) (44) ode W é o peso em cada estrato. 3
De facto tem-se ( a ) ( a ) ( a + ) ' σ µ µ µ µ µ, ( + ) + ( ) ( ) a µ ) ( µ µ µ µ a µ 4 43 0 ' ( ) σ + ( µ µ ). Para cada estrato tem-se ( a ) ' µ a e σ µ (45) A amostragem aleatóra estratfcada cosste em trar de cada estrato uma amostra aleatóra de tamaho pré-fxado: tedo como elemetos em cada estrato,,..., x, x,..., x A méda e a varâca do -ésmo estrato são: x ' x e s ( x x ) A f chama-se fracção de amostragem em cada estrato. Há dos problemas que se colocam este tpo de amostragem: - Como se dvde a população em estratos. - Qual o úmero de elemetos a escolher em cada estrato? É sto que ós desgaremos por afectação. 4
Destes dos problemas o mas smples é o segudo e é esse que começaremos a tratar. Fxada a dmesão da amostra a recolher, sea, um dos modos que à prmera vsta parece mas razoável cosste em seleccoar em cada estrato um úmero de elemetos proporcoal à dmesão do estrato,.e., Verfca-se portato que dode f (46) É habtual desgar esta afectação por afectação proporcoal. Estmação do valor médo O estmador do valor médo é a méda empírca estratfcada assm defda W st. (47) Observe-se que, a méda empírca estratfcada ão é o mesmo que a méda artmétca, assm defda (48) pos o prmero é um estmador cetrado, equato o segudo ão é. Veamos E [ ] [ st W µ µ E ] só será estmador cetrado se proporcoal. equato µ µ, ou sea, o caso da afectação ser Veamos agora pos Var [ ] W st ( f ) σ ' / Var W Var ( ), vsto que a amostragem estratfcada os st dferetes estratos as médas ão estão correlacoadas, logo Cov(, ) 0. 5
Observação: Vmos que o caso proporcoal st e cocdam, o etato estes dos estmadores ão apresetam a mesma varâca. Efectvamete ' Var[ ] ( f ) σ. Como exercíco sugere-se a obteção de expressões para a varâca, em certos casos partculares:. Se f. Se w for desprezável Var[ st ] W σ / ; -- caso proporcoal Var[ ] ' f st W σ ; ' ' ' 3. Se a amostragem é proporcoal e a varâca é costate,.e., σ σ, f ' Var st σ. etão [ ] Estmação do Total da População Um estmador cetrado para o total T da população é T st. (49) Faclmete se verfca que se trata de um estmador cetrado, sedo a sua varâca dada por ' [ T ] ( f ) Var σ /. (50) Itervalos de Cofaça Um tervalo de cofaça para µ a (-)00% é xst z / s'( xst ) < µ < xst + z / s'( xst ) (5) e um tervalo de cofaça para T a (-)00% é 6
xst z / s'( xst ) < T < xst + z / s'( xst ) (5) Se em cada estrato são recolhdas poucas observações o procedmeto usual cosste em cosderar t / em vez de z /, sedo o úmero de graus de lberdade dado por gs' 4 g s' ( ) com g ( ) Observação: Veamos em que codções a amostragem estratfcada é preferível à amostragem aleatóra smples,.e, em que codções Ora veamos: Como sabemos Var[ ] Var Var [ st ] <Var ' σ ( f ) e ' σ W ( f ). [ st ] uma prmera fase cosderemos que estamos o caso de afectação proporcoal, f f ( f ) ' Var[ st ] σ f [ ] Var[ ] st σ σ Var vmos porém que σ Se o tamaho dos estratos é grade ( ) σ + ( µ µ ) (53) 7
8 ( ) + dode µ µ σ σ [ ] [ ] ( ) ( ) 0 > st W f f Var Var µ µ µ µ excepto se µ todos guas. Coclusão: o estmador da méda a amostragem estratfcada será sempre mas efcete do que o estmador da méda a amostragem aleatóra smples, ou melhor, tato mas efcete quato maor for a varação as médas dos estratos. Porém, se acotece que os estratos ão são sufcetemete grades que permtam que se verfque (53), deve cosderar-se ( ) [ ] [ ] ( ) ( ) + st f Var Var ) ( ) ( σ µ µ µ µ σ σ Sedo assm, podemos dzer que st é mas efcete do que se ( ) ( ) > σ µ µ. (54) Iformalmete pode dzer-se que quato maor for a varabldade etre os estratos e meor for a varabldade detro de cada estrato, maor será o gaho potecal ao cosderar a amostra estratfcada para estmar a méda populacoal. Escolha óptma do tamaho da amostra a recolher em cada estrato esta questão há dos potos a ter em cota. Pretede-se saber como escolher a dmesão da amostra de modo a satsfazer uma certa precsão ou questões de custo. Cosderemos a stuação de o processo de amostragem haver: C 0 --- custo base da amostragem; c --- custo de cada observação dvdual o estrato. Sedo assm, o custo total C T é dado por C C c T + 0.
Que valores escolher para,,..., de modo a: a) mmzar Var ( st ), para um custo total C T ; b) mmzar o custo total, para um dado valor de Var ( st ). a) Varâca míma para custo fxo. Pretedemos determar,,..., que mmze σ Var W W σ sueto a c C c [ st ] T Usado o método dos multplcadores de Lagrage, temos a Lagrageaa assm defda σ L W W c C c σ λ T + 0 Para se mmzar esta fução teremos L σ W - λ c 0 L c C + c0 0 λ 0 Da prmera equação tem-se σ W + λ c 0, ode para cada parcela se tem W λ σ c, que multplcado por c, dá c λ c W σ e efectuado a soma ao logo de todas os estratos: ( C c ) λ c W σ λ e dado que c W T 0 CT c0 W σ c λ tem-se ( CT c0 ) W σ / c W σ c sedo a dmesão total da amostra a recolher σ, (55) 9
( C c ) Wσ / c T 0 W σ c (56) Esta é a dmesão óptma da amostra a recolher em cada estrato para um custo total fxo. Observe-se que podemos resumr as segutes observações: -- As dmesões das amostras em cada estrato devem ser proporcoas ao tamaho do estrato; ao desvo padrão do estrato e versamete proporcoas à raíz quadrado do preço utáro de amostragem em cada estrato. Caso partcular Se os custos c são os mesmos para todos os estratos tem-se CT c0 + c ode c é o custo utáro de amostragem (costate), dode W σ CT c0 com (57) c W σ esta é a dmesão óptma, para fxo. Chama-se a esta afectação, afectação de eyma ou afectação óptma, tedo etão como varâca míma Var m [ ] st W ' σ Wσ. (58) Custo mímo para varâca fxa Cosderemos Var V st e para este valor pretedemos saber qual a dmesão da amostra a recolher em cada estrato de modo a termos um custo mímo. Do que vmos atrás sabemos que Var [ st ] é mmzada quado os são escolhdos proporcoalmete a Wσ / c. Sedo assm, para um dado V deverá haver um custo mímo para o qual a afectação permtrá obter V como a varâca míma. Sedo assm a escolha dos será aquela que satsfazedo a proporcoaldade acma referda, mmze o custo total, para um dado valor de Var, sto é, [ ] st 30
W σ c ode deve ser escolhdo de modo a assegurar que Var Sedo assm deve tomar-se σ [ st ] W W σ V. W σ W σ / V + Wσ c c. (59) a expressão (56) ecotramos a dmesão total de amostra a recolher o caso de afectação óptma. E o caso de pretedermos uma afectação proporcoal, sto é, se, que valor de se deve cosderar? algus casos é pre-fxado; caso cotráro, sedo d, o erro absoluto, cosdera-se 4 W σ 0 se 0.05 d caso a população sea fta, deve cosderar-se a correcção. 0 + 0 / Estmação de Proporções 3
Sea P a proporção dos dvíduos a população, verfcado uma dada característca, A. Defdo, como fzemos a amostragem aleatóra smples, a varáves aleatóras Y como Y se o elemeto verfca A 0 se o elemeto ão verfca A Sea Y Y dode P T Y (60) Como estmador de P tem setdo cosderar Y Y st W P $ P $ st, ode Y P $ desga a proporção de dvduos o estrato, cludos a amostra e verfcado A. O estmador de P é tal que E [ Pˆ st ] P [ Pˆ st ] Var W P ( P ) (6) Um estmador desta varâca é : tem- se W S' [ P$ st ] P$ ( P$ ). Se grade tem-se Var[ P$ W st ] ( f ) P ( P ). Se estarmos uma stuação de afectação proporcoal, sto é, se Var P$ W f st P ( P ) W P ( P ). Se cosderarmos a afectação de eyma, com fxo gorado custos tem-se 3
W P Q. (6) W P Q o caso de CT c0 + c, tem-se a dmesão da amostra a recolher em cada estrato ( CT c0 ) W PQ / c. (63) W PQ c 33