Mesa redonda: Pesquisas Agropecuárias por Amostragem Probabilística UFPE Cristiano Ferraz Departamento de Estatística Universidade Federal de Pernambuco
Pesquisas agropecuárias por amostragem probabilística: Importância Flexibilidade de abordagem; Suplemento ao censo agropecuário; Desafios Limitações de cadastros; Necessidade de inferência em diversos níveis: nacional, estadual e municipal; Pesquisa de múltiplos propósitos; Foco da exposição Possibilidades de abordagem teórica do problema;
Pesquisas agropecuárias por amostragem probabilística: Duas classes de cadastros e suas limitações: LISTAGENS ESPECÍFICAS list-frame CADASTRO DE ÁREAS area-frame
Pesquisas agropecuárias por amostragem probabilística: Duas classes de cadastros e suas limitações: LISTAGENS ESPECÍFICAS list-frame CADASTRO DE ÁREAS area-frame Vantagem: Baixo custo operacional comparado a cadastros de áreas
Pesquisas agropecuárias por amostragem probabilística: Duas classes de cadastros e suas limitações: LISTAGENS ESPECÍFICAS list-frame CADASTRO DE ÁREAS area-frame Desvantagens: Limitações de cobertura Não é propício a pesquisas de múltiplos propósitos Possíveis problemas de atualização
Pesquisas agropecuárias por amostragem probabilística: Duas classes de cadastros e suas limitações: LISTAGENS ESPECÍFICAS list-frame CADASTRO DE ÁREAS area-frame Vantagens: Cobertura completa Propício a pesquisas de múltiplos propósitos
Pesquisas agropecuárias por amostragem probabilística: Duas classes de cadastros e suas limitações: LISTAGENS ESPECÍFICAS list-frame CADASTRO DE ÁREAS area-frame Desvantagens: Alto custo operacional Sensibilidade a outliers Sujeito a altas taxas de não-resposta quando a coleta de dados é feita por entrevista
Pesquisas agropecuárias por amostragem probabilística: Alternativas às limitações de cadastro: Construção de um cadastro único à partir de várias listagens específias;
Pesquisas agropecuárias por amostragem probabilística: Alternativas às limitações de cadastro: Construção de um cadastro único à partir de várias listagens específias; Possíveis problemas: Custo de implementação Limitações de cobertura Qualidade das informações Duplicatas
Pesquisas agropecuárias por amostragem probabilística: Alternativas às limitações de cadastro: Utilização de uma abordagem de duplo cadastro combinando informações de uma listagem específica com as de um cadastro de área Dual frame design
Pesquisas agropecuárias por amostragem probabilística: Alternativas às limitações de cadastro: Utilização de uma abordagem de duplo cadastro combinando informações de uma listagem específica com as de um cadastro de área Dual frame design Existem exemplos bem sucedidos de aplicação da abordagem: NASS (Estados Unidos) Crops survey Fruits and vegetables chemical use survey
Representação Esquemática Geral de uma Abordagem Dual Frame
Representação Esquemática de uma Abordagem Dual Frame para Pesquisa Agropecuária
Condições necessárias para aplicação da abordagem de dual frame: Todos os elementos da população alvo devem ser identificados por ao menos um dos cadastros; Deve ser possível identificar, para cada elemento selecionado da amostra, via um cadastro A, se ele está listado ou não no cadastro B.
Estimação em Dual Frame Considere dois cadastros disponíveis: A e B; Denote por U o conjunto de elementos da população, de tamanho N e defina ainda a seguinte notação: U A Conjunto de elementos da população-alvo, de tamanho N A, identificados através do cadastro A U B Conjunto de elementos da população-alvo, de tamanho N B, identificados através do cadastro B Dessa forma, temos então que U = U A U B
Estimação em Dual Frame U a Conjunto de elementos da população-alvo, de tamanho N a, identificáveis apenas através do cadastro A. U a = U A (U B ) c U b Conjunto de elementos da população-alvo, de tamanho N b, identificáveis apenas através do cadastro B. U b = (U A ) c U B U ab Conjunto de elementos da população-alvo, de tamanho N ab, identificáveis tanto pelo cadastro A quanto pelo cadastro B. U ab = U A U B
Estimação em Dual Frame Note que N A = N a +N ab N B = N b +N ab N = N a +N b +N ab = N A +N b = N B +N a É possível estender a abordagem para o caso em que temos disponíveis cadastros disponíveis. Com isso, teremos então 2 1 domínios.
Estimação em Dual Frame Tipo de Informação disponível 1 2 Cenários 3 4 Tamanho dos domínios e cadastros Tamanho dos domínios e cadastros conhecidos Tamanho dos domínios e cadastros conhecidos Apenas o tamanho dos cadastros é conhecido Apenas a magnitude dos cadastros é conhecida Possibilidade de alocação da amostra Alocação de amostra aos domínios (estratificação) Alocação de amostra aos cadastros Alocação de amostra aos cadastros Alocação de amostra aos cadastros
Denote por Y o valor do elemento na população e defina ainda as seguintes quantidades de interesse: Considere ainda a variável y *, definida da seguinte forma: onde p e q são constantes tais que p + q = 1. = = = = ab b a U ab U b U a U Y Y Y Y Y Y Y Y ; = B cadastro U se qy A cadastro U se py U U se Y y ab ab b a,,,,, *
Através de y * é possível expressar o total populacional como segue: Y = = = Y Y a a U + + y Y * b py + + ( p + ab + A U B Y b y q) Y * + ab qy ab Dessa forma, o total populacional é expresso como a soma de totais das variáveis y * para cada cadastro e é possível construir um estimador que seja uma função linear de estimadores para os domínios considerados.
Estimador de Hartley Considere o problema de estimar Y, com disponibilidade de informação referente ao cenário 2, sob um plano de Amostragem Aleatória Simples utilizado nos dois cadastros, A e B. Sejam n A e n B os tamanhos das amostras obtidas de A e B respectivamente. Nessas condições, o estimador proposto por Hartley (1962) assume a seguinte forma: Y ˆ = N y + N y + N ( py ' + H a a b b ab ab qy '' ab )
Estimador de Hartley aplicável a pesquisas agropecuárias Sendo A o cadastro de área e B o cadastro de lista, temos a situação particular em que U B U A. Nessas condições, a forma do estimador de Hartley é dada por: ˆ ( ' '' Y = N y + N py + qy ), H a a ab ab ab pois: N, ab = N B N b = 0 Em diversas aplicações, o valor de p é nulo, resultando num estimador chamado de screening.
Custos da abordagem Hartley (1962) apresentou cálculos comparando o desempenho entra a abordagem de dual frame com U B U A e o caso de uma pesquisa realizada apenas com o cadastro A. Considere a seguinte função custo: onde C representa o custo total C = n c + c A é o custo de seleção de um elemento do cadastro A c B é o custo de seleção de um elemento do cadastro B A A n B c B
O efeito da abordagem dual frame foi medido através da razão γ = Var Var * * ( Yˆ ( Yˆ H S ) ) onde Var*(.) denota a variância sob o contexto U B U A e Y ˆ = N y + S a a N ab y ' ab é o estimador do total no caso em que uma amostra aleatória simples é selecionada apenas do cadastro A. Os valores de γ foram calculados considerando diversas situações.
Necessidades específicas da abordagem A abordagem de dual frame tem se demonstrado bastante promissora em várias aplicações e pode representar incremento de precisão de estimativas; PORÉM: Adotar a abordagem de dual frame não depende apenas de critérios estatísticos. Requer estudos de viabilidade da abordagem. Ezzati et al(1995); Ferraz (2001).
Necessidades específicas da abordagem Avaliação do nível de cobertura dos cadastros disponíveis e da qualidade de suas informações; Identificação de um plano amostral adequado para cada cadastro (estimadores do tipo Horvitz-Thompson podem ser utilizados); Os custos de manutenção dos cadastros; Possível ter custo zero em alguns casos; Alocação de amostras a cada cadastro.
Algumas questões adicionais Sobre a natureza de múltiplos propósitos de pesquisas agropecuárias: Dual frame contempla um cadastro de área; Experiência do NASS com MPPS; Sobre a natureza subjetiva da coleta de dados de algumas pesquisas: Importância do caráter probabilístico da amostragem; Estimação assistida por modelos;
Estimação assistida por modelos Forma de melhorar estimativas introduzindo informações auxiliares úteis no processo de estimação O que são informações auxiliares úteis? Informações disponíveis no cadastro e que tem correlação linear com a variável de interesse
Estimação assistida por modelos Exemplo didático: Objetivo: estimar a produção em Kg de goiabas de uma plantação com 50 goiabeiras Disponíveis estimativas subjetivas para todos os pés Disponíveis os valores de produção (em Kg) de uma amostra probabilística de 10 goiabeiras
Relação entre estimativa subjetiva e objetiva Modelo: Y = B X + e; E(e)=0; V(e)= S X;
Estimação assistida por modelos Forma geral de um estimador do tipo regressão: Estimador usual + b (Xbar xbar) Questões práticas: Disponibilidade de informações auxiliares? Incorporação da abordagem de estimação ao cenário de duplo cadastro; Possibilidade de adoção de planos amostrais complexos: amostragem em duas fases.
Considerações finais Disponibilidade de abordagens já conhecidas Necessidade de estudar a melhor forma de implementação de pesquisas agropecuárias por amostragem probabilística no país Produzir métodos específicos quando necessário Importância de parcerias/cooperação científica com universidades