TÉCNICAS DE AMOSTRAGEM

Documentos relacionados
TÉCNICAS DE AMOSTRAGEM

TÉCNICAS DE AMOSTRAGEM

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Amostra Aleatória Simples

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

TÉCNICAS DE AMOSTRAGEM

Capítulo 4 Inferência Estatística

Métodos Estatísticos

Técnicas de Amostragem

Sistema de Informações e Pesquisa de Marketing Aula 12 24/10/17

Cap. 4 - Estimação por Intervalo

Técnicas de Amostragem

Bioestatística Aula 4

MAE0229 Introdução à Probabilidade e Estatística II

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Universidade Federal de Lavras

Estimação de valores. Luiz Carlos Terra

AMOSTRAGEM. É a parte da Teoria Estatística que define os procedimentos para os planejamentos amostrais e as técnicas de estimação utilizadas.

AULA 03 Estimativas e tamanhos amostrais

5 TORIA ELEMENTAR DA AMOSTRAGEM

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

Bioestatística e Computação I

Intervalos de Confiança

BIOESTATÍSTICA AULA 4. Anderson Castro Soares de Oliveira Jose Nilton da Cruz. Departamento de Estatística/ICET/UFMT

Análise de Regressão Linear Simples e

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Estimativas e Tamanhos de Amostras

Exemplo 7.0 Numa linha de produção, os pesos de pacotes de pó de café embalados por uma máquina têm distribuição Normal, com média

Professora Ana Hermínia Andrade. Período

Ralph S. Silva

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Aula 9 Intervalo de confiança para a média da N(μ; σ 2 ), σ 2 desconhecida

Inventário Florestal. Amostragem

Em várias ocasiões há de se proceder à coleta de dados diretamente na origem, isto é, dos sujeitos com quem pretendemos realizar determinado estudo.

Estatística Aplicada

META Estudar características de populações com base nas informações colhidas por amostras de dados selecionados aleatoriamente nestas populações.

CONHECIMENTOS ESPECÍFICOS

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Métodos Estatísticos

TIPOS DE AMOSTRAGEM Amostragem Probabilística e Não-Probabilística. Amostragem PROBABILÍSTICA: Amostragem Aleatória Simples: VANTAGENS:

Método de amostragem por conglomerados em dois estágios para estimativa de população canina/felina domiciliada.

ESTATÍSTICA COMPUTACIONAL

Bioestatística e Computação I

Intervalos Estatísticos para uma única Amostra - parte I

Em várias ocasiões há de se proceder à coleta de dados diretamente na origem, isto é, dos sujeitos com quem pretendemos realizar determinado estudo.

Cap. 9 Comparação entre tratamentos

Inferência Estatística: Conceitos Básicos II

Les Estatística Aplicada II AMOSTRA E POPULAÇÃO

AULA 4: DISTRIBUIÇÕES DE PROBABILIDADES AMOSTRAIS. Gleici Castro Perdoná

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

Inferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva

Inferência Estatística

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

TAMANHO AMOSTRAL. Lucas Santana da Cunha 31 de julho de Universidade Estadual de Londrina. Tamanho da Amostra

Métodos Quantitativos

Modelos de Regressão Linear Simples - parte I

Amostras, amostragem e tamanho da amostra

Noções de Amostragem. Universidade Estadual de Santa Cruz Gustavo Fragoso

Estatística Inferencial

Distribuições Amostrais e Estimação Pontual de Parâmetros

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

AULA 05 Teste de Hipótese

Probabilidade e Estatística

Introdução a Estatística

Teorema central do limite e es/mação da proporção populacional p

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

Estatística II Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

Distribuições Amostrais

Intervalos de confiança

Intervalos de Confiança

MAB-515 Avaliação e Desempenho (DCC/UFRJ)

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Amostragem: Planejamento e Processos. Cap. 12 e 13 Introdução a Pesquisa de Marketing Naresh K. Malhotra

Estatística. Disciplina de Estatística 2012/2 Curso de Administração em Gestão Pública Profª. Ms. Valéria Espíndola Lessa

Análise de regressão linear simples. Diagrama de dispersão

Planejamento e Otimização de Experimentos

CONHECIMENTOS ESPECÍFICOS

CE008 Introdução à Bioestatística INFERÊNCIA ESTATÍSTICA

Distribuições Amostrais e Estimação Pontual de Parâmetros

Inferência Estatística:

Fernando de Pol Mayer

CONHECIMENTOS ESPECÍFICOS

Contabilometria. Prof.: Patricia Maria Bortolon, D. Sc.

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Bioestatística INFERÊNCIA ESTATÍSTICA. Silvia Shimakura

Esse material foi extraído de Barbetta (2007 cap 13)

Y i : Quantidade de interesse. X i : Variável auxiliar. Estimadores do tipo razâo. População de U de N unidades. Unidade i: (X i, Y i )

Introdução à Bioestatística Turma Nutrição

Modelo de Regressão Múltipla

Universidade Federal Fluminense INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DEPARTAMENTO DE ESTATÍSTICA

1 Inferência Estatística - Teoria da Estimação

Prof. Lorí Viali, Dr.

III AMOSTRAGEM E INTERVALO DE CONFIANÇA Conceito de Amostragem AMOSTRA ALEATÓRIA

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Planejamento e Otimização de Experimentos

Erro e Tamanho Amostral

Intervalo de confiança4

Transcrição:

TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro

Sumário

Amostragem estratificada Divisão da população em grupos chamados de estratos, motivada por: melhora da precisão das estimativas; estimativas independentes para estratos além da população como um todo; questões administrativas, estratos naturais Motivação técnica: Var AAS (y) = (1 f ) S2 n ; Erro diminui quando amostra cresce, mas cresce quando a variabilidade é grande; Uma alternativa é dividir a população em grupos (estratos) o mais homogêneos possíveis

Exemplo: Seja uma população P 8 sendo que se conhece as variáveis renda domiciliar (y) e bairro de moradia (x) como na tabela abaixo: i 1 2 3 4 5 6 7 8 Y i 13 17 6 5 10 12 19 6 X i B A B B B A A B Y = 11; σ 2 = 24; S 2 = 27, 43 Estrato A Estrato B i 2 6 7 1 3 4 5 8 Y i 17 12 19 13 6 5 10 6 X i A A A B B B B B Y A = 16 σa 2 = 8, 67 SA 2 = 13 Y B = 8 σb 2 = 9, 2 SB 2 = 11, 5

Vamos selecionar amostras de tamanho 4 das seguintes maneiras: AAS na população P N ; AAS de tamanho 2 no estrato A e AAS de tamanho 2 no estrato B Então, pode-se calcular: Var AAS (y) = (1 f ) S2 n Var AAS (y A ) = (1 f A ) S2 A n A Var AAS (y B ) = (1 f B ) S2 B n B Pode-se calcular a média da população como uma média ponderada das médias dos grupos A e B Propomos como estimador da média populacional a seguinte estatística: y ae = N A N y A + N B N y B

Portanto, Var(y ae ) = [ ] 2 NA Var(y N A ) + O efeito da estratificação é dado por: EPA = Var(y ae ) Var(y) [ ] 2 NB Var(y N B ) Escolha do método de amostragem: melhor método é o que tem menor variância para o estimador

Nem tudo são flores! Vamos supor que ao invés de usar a variável bairro para estratificar, fosse usada outra variável tal que: Estrato A Estrato B i 1 2 3 4 5 6 7 8 Y i 13 17 6 5 10 12 19 6 X i B A B B B A A B Y A = 10, 25 σa 2 = 24, 69 SA 2 = 32, 92 Y B = 11, 75 σb 2 = 22, 19 SB 2 = 29, 58 Será isto razoável? Qual será o valor EPA?

Formalização Seja a população P N = {U 1, U 2,, U N } Dividida em H estratos: P N1 = {U 11, U 12,, U 1N1 } P N2 = {U 21, U 22,, U 2N1 } P NH = {U H1, U H2,, U HNH }, sendo que P N = H P Nh e H P Nh =

Pode-se representar uma população estratificada por: Estrato Total Média Variância 1 τ 1 µ 1 = Y 1 σ1 2 ou S1 2 2 τ 2 µ 2 = Y 2 σ2 2 ou S2 2 h τ h µ h = Y h σh 2 ou Sh 2 H τ H µ H = Y H σh 2 ou SH 2 População τ µ = Y σ 2 ou S 2

Notação da população Tamanho do estrato h: N h ; Total do estrato h: τ h = Y h = N h i=1 Y hi; Média do estrato h: µ h = Y h = 1 N h Nh Variância do estrato h: S 2 h = 1 N h 1 Peso do estrato h: W h = N h N i=1 Y hi; Nh i=1 (Y hi Y h ) 2 ; tal que H W h = 1; Tamanho da população: N = H N h; Total da população: τ = H τ h ou Y = H Y h; Média da população: µ = Y = 1 N H Nh Variância populacional: S 2 = 1 N 1 H i=1 Y hi = H W hy h ; Nh i=1 (Y hi µ) 2

Notação da amostra Considere y ih como a i-ésima observação do estrato h Tamanho da amostra do estrato h: n h ; Média amostral do estrato h: y h = 1 n h nh Variância amostral do estrato h: s 2 h = 1 n h 1 Fração amostral do estrato h: f h = n h N h ; Tamanho da amostra: n = H n h; i=1 y hi; nh i=1 (y hi y h ) 2 ;

Resultados Temos que σ 2 = σ 2 d + σ 2 e A variância pode ser vista como uma soma das variâncias dentro dos grupos (estratos) mais uma medida da variância entre os grupos, sendo: tal que σ 2 d = W h σh 2 e σe 2 = σ 2 = σ 2 d + σ 2 e = De forma análoga, tem-se S 2 = W h (Y h Y ) 2 W h σh 2 + W h (Y h Y ) 2 N h 1 N 1 S2 h + N h N 1 (Y h Y ) 2

Estimação O estimador da média populacional (média global) é dado por: y ae = 1 N N h y h = W h y h, sendo y h o estimador da média no estrato h Se todos os y h são estimadores não tendenciosos, tem-se que: E(y ae ) = Y Em particular, isso ocorre se os estimadores de cada média de estrato for a correspondente média amostral

Exemplo Uma vila foi dividida (estratificada) em três conjuntos de domicílios segundo suas características: 1-região onde moram trabalhadores da indústria, 2-moradores mais antigos, 3-área rural Foi selecionada uma amostra em cada estrato e investigado o número de horas em que se assiste televisão por semana em cada domicílio Estimar a média de horas por semana em cada estrato e na população; Existe evidência que o número de horas difere em cada estrato? Estrato 1 Estrato 2 Estrato 3 35 28 26 41 27 4 49 10 8 15 21 7 43 29 32 37 15 41 25 30 14 30 20 11 36 25 29 31 12 32 34 24 39 38 40 45 28 27 35 34 N 1 = 155 N 2 = 62 N 3 = 93 n 1 = 20 n 2 = 8 n 3 = 12

Exemplo (continuação) y ae = y 1 = 33, 900 s1 2 = 33, 35789 y 2 = 25, 125 s2 2 = 232, 4107 y 3 = 19, 000 s2 2 = 87, 63636 1 [155 33, 9 + 62 25, 125 + 93 19, 0] = 27, 675 155 + 62 + 93 Ao nível de significância de 5%, tem-se: ic 95% (Y 1 ) = (31, 47; 36, 33) ic 95% (Y 2 ) = (15, 27; 34, 98) ic 95% (Y 3 ) = (14, 05; 30, 07) Portanto, existe diferença entre o número médio de horas em cada estrato

Importante O estimador sugerido para a média populacional na amostragem estratificada não é a média amostral A média amostral é dada por: y = 1 n = 1 n = n h y hi i=1 n h y h w h y h com w h = n h, h = 1, 2,, H n Então, y = y ae se w h = W h para todo h = 1, 2,, H

Estimação Um estimador para o total populacional é dado por: Ŷ ae = Ŷ h = N h y h = Ny ae com Ŷh = N h y h Variância dos estimadores: média: Var AE (y ae ) = Wh 2 Var(y h ) total: Var AE (Ŷae) = H N2 Wh 2 Var(y h ) = Nh 2 Var(y n ) E se em todos os estratos tivermos AAS?

Alocação da amostra Um problema na amostragem estratificada é determinar como dividir as n unidades da amostra total em cada estrato de modo que: n = n h Chama-se este problema de alocação da amostra Os três tipos principais de alocação são: Alocação proporcional; Igual; Ótima ou de Neyman

Alocação proporcional Nesse tipo de alocação o número de unidades na amostra em cada estrato é proporcional ao tamanho do estrato: Portanto: n h = nw h = n N h, para todo h = 1, 2,, H N f h = n h = n, para todo h = 1, 2,, H N h N Alocação igual Tem-se que n h = n H, para todo h = 1, 2,, H Pode-se adaptar adequadamente as fórmulas das variâncias dos estimadores para cada alocação

Exemplo Uma região possui 60 municípios e deseja fazer uma amostragem para atualizar a estimativa do total de sua população Para isso foi decidido pesquisar 20 cidades e deseja-se saber qual seria o mais eficiente para o caso: uma amostra aleatória simples (AAS), uma amostra aleatória estratificada (AAE) com alocação proporcional ou uma AAE com alocação igual As cidades foram agrupadas em dois estratos segundo a população apurada no último Censo (cidades grandes: mais de 300 mil habitantes; e cidades pequenas: menos de 300 mil habitantes) A tabela mostra essa estratificação e as populações, no censo, em milhares de habitantes Estrato 1 776 622 583 502 468 468 438 437 419 416 404 382 370 346 318 Estrato 2 297 295 294 292 290 285 270 255 250 250 244 241 238 236 234 231 220 218 215 211 204 202 201 192 190 190 188 178 178 171 167 166 163 162 157 145 141 141 139 125 122 118 112 111 110 Estrato 1 Estrato 2 Total 6949 9039 Soma de Quadrado 3417311 1954179

Alocação ótima de Neyman Sabe-se que populações (ou estratos) grandes precisam de amostras grandes Sabe-se que fenômenos com grande variabilidade também precisam de amostras grandes Suponha que o custo para pesquisar uma unidade amostral possa variar para cada estrato A alocação ótima de Neyman leva tudo isso em conta: n h = n O custo da pesquisa será suposto linear, ou seja: C = c 0 + N h S h / c h H N hs h / c h (1) n h c h, (2) sendo c 0 o custo de escritório que não depende de h e c h o custo de pesquisar uma unidade do estrato h

Alocação ótima de Neyman Tendo o custo fixo, pode-se calcular o tamanho da amostra, substituindo (1) em (2), por: n = (C c 0) H N hs h / c h H N hs h ch Fixando a variância desejada para estimar a média como V, ou seja, V = Var AE (y ae ) = Wh 2 Var(y h ) = W 2 h (1 f h ) S2 h n h = e substituindo (1) em V, tem-se: ( H W hs h / ) ( H c h W ) hs h ch n = V + 1 H N W hsh 2 Wh 2 Sh 2 1 n h N W h Sh, 2

Para o caso em que os custos para coleta dos dados independem do estrato tem-se N h S h W h S h n h = n H N = n H hs h W hs h A alocação acima é a que minimiza a variância quando o tamanho total da amostra, n, é dado Utiliza-se também essa fórmula quando não se tem nenhuma ideia sobre o custo de coleta nos estratos

Dado um tipo de alocação, pode-se adaptar as fórmulas das variâncias dos estimadores: Alocação proporcional: Var(y es:prop ) = 1 f nn N h Sh 2 Alocação igual ou uniforme: Var(y es:igual ) = 1 N 2 [ H n ] Nh 2 Sh 2 N h Sh 2 Alocação ótima ou Neyman: ( Var(y es:otima ) = 1 1 H ) 2 N N 2 h S h N h Sh 2 n

Tamanho da amostra estratificada - caso geral Seja V a variância mínima desejada para estimar a média da população Seja uma alocação qualquer n h = na h, sendo a h a constante que define a alocação no estrato h Pela fórmula da variância da média temos ( V = Wh 2 1 na ) h S 2 h = 1 N h na h n Logo, W 2 h Sh 2 1 a h N W h Sh 2 n = H W 2 h S 2 h a h V + 1 N H W hs 2 h Portanto, os a h s vão depender da alocação escolhida Proporcional: a h = W h Igual: a h = 1 H Ótima: a h = W h S h / c h H W hs h / c h

Pode-se usar a mesma estratégia do cálculo do tamanho da amostra na AAS, calculando n 0 e depois n, sendo: n 0 = 1 V W 2 h S 2 h a h, n = 1 + 1 NV n 0 W h Sh 2 Fixando o erro, d, ao invés da variância V : [ ] 2 d V = z 1 α/2

Intervalos de confiança Intervalos de confiança para a média e total, supondo AAS dentro dos estratos Seja a variância amostral em cada estrato: s 2 h = 1 n h 1 n h i=1 (y hi y h ) 2 Um estimador não tendencioso para variância da estimativa da média é: v(y ae ) = W 2 h s 2 h n h W h s 2 h N Intervalos de confiança podem ser calculados por: ) ic (1 α)100% (Y ) = (y ae z 1 α/2 v(y ae ), y ae + z 1 α/2 v(y ae ) ( ) ic (1 α)100% (Y ) = Ny ae z 1 α/2 N v(y ae ), Ny ae + z 1 α/2 N v(y ae )

Intervalos de confiança Quando as amostras nos estratos são muito pequenas aconselha-se substituir a aproximação Normal pela t-student com ν graus de liberdade Os graus de liberdade são dados por ν = H [ H ] 2 g hsh 2 [ g 2 h sh 4(n h 1) ] com g 2 h = N h(n h n h ) n h O grau de liberdade ν pode ser arredondado para um inteiro positivo

Estrato com tamanho unitário Suponha que os estrato certo é h = 1 Então, o estimador da média da população é y ae = W h y h = W 1 Y 1 + W h y h, com variância dada por Var AE (y ae ) = W 2 1 Var AE (Y 1 ) + h=2 Wh 2 Var AE (y h ) = h=2 pois Var AE (Y 1 ) = 0 Para o total populacional, tem-se: Ŷ ae = N 1 Y 1 + N h y h, Var AE (Ŷae) = H h=2 h=2 e N 2 h Var AE (y h ) Wh 2 Var AE (y h ), h=2

Amostragem estratificada: proporções Em uma população com H estratos: P h = N ch N h, sendo N ch o número de unidades no estrato h com a característica A variância de y no estrato h é dada por: S 2 h = N hp h Q h N h 1 Estima-se a proporção na população por: p ae = 1 N N h p h = W h p h, com p h = y ae = 1 n h n h i=1 y hi Sua variância é dada por Var AE (p ae) = Wh 2 Var AE (p h ) = W 2 h [ ] Nh n h Ph Q h N h 1 n h

Tamanho da amostragem Alocação proporcional: n h = nw h Fixando a variância V : V = W 2 h [ ] Nh nw h Ph Q h = N N h 1 nw h n W 2 h H P h Q h N h 1 W 2 h P h Q h N h 1 n = N H W 2 h P h Q h N h 1 V + H W h 2 P h Q h N h 1 Supondo N h grande : = n 0 1 + n 0 N com n 0 = N H W 2 h V P h Q h N h 1 H n = W hp h Q h V + 1 = n 0 H N W hp h Q h 1 + n 0 N H com n 0 = W hp h Q h V