4 Informação auxiliar

Documentos relacionados
Atualmente, em prazos cada vez mais limitados, as tomadas de decisões. exigem a maior quantidade de informação possível. Usadas com este objetivo,

Estimação de Variáveis Instrumentais e Mínimos Quadrados de Dois Estágios. Wooldridge, Cápítulo 15

2 Revisão da literatura sobre emparelhamento estatístico

AULA 13 Análise de Regressão Múltipla: MQO Assimptótico

Ralph S. Silva

A Metodologia de Box & Jenkins

Aula 2 Uma breve revisão sobre modelos lineares

COKRIGAGEM. Aplicação da cokrigagem

Variáveis Instrumentais

Modelo de Regressão Múltipla

Modelos de Regressão Linear Simples - parte III

BOOTSTRAP. - APLICAÇÃO DO MB: podem ser aplicados quando existe, ou não, um modelo probabilístico bem definido para os dados.

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Análise de Dados Longitudinais Aula

Correlação e Regressão

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

Análise de Dados Categóricos Modelos log-lineares

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

Análise de Dados e Simulação

Econometria Lista 1 Regressão Linear Simples

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Análise de Regressão Linear Simples e

Ficha de Trabalho 08 Transformações Lineares. (Aulas 19 a 22).

Distribuições Amostrais e Estimação Pontual de Parâmetros

O que acontece com as propriedades dos estimadores de MQO quando incluímos regressores endógenos ao modelo de regressão de interesse?

Figura 3.1 Esquema do Processo Bootstrap Fonte: Adaptado de SOUZA (1997)

2 A questão da restrição na aleatorização e a utilização de Modelos mistos

ESTATÍSTICA COMPUTACIONAL

Análise Multivariada Aplicada à Contabilidade

Análise de Regressão Linear Múltipla IX

Notas de Aulas Econometria I ** Eduardo P. Ribeiro, 2010 PARTE II

Análise Multivariada Aplicada à Contabilidade

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares

Análise de Regressão Linear Múltipla III

Modelos de regressão para dados correlacionados. Cibele Russo

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

Multicolinariedade e Autocorrelação

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

1. as equações paramétricas da reta que contém o ponto A e é perpendicular ao plano de equação x 2y + 3z = 17;

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

Técnicas computacionais em probabilidade e estatística II

Universidade Tecnológica Federal do Paraná. APS Cálculo 2

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

AULAS 21 E 22 Análise de Regressão Múltipla: Estimação

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Planejamento de Experimentos

Aula Orientação do espaço. Observação 1

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Gabarito e resolução da prova de seleção PPGE FURG Estatística

PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES

Variáveis Instrumentais

Nota de aula 7 - Estado Triaxial de Tensões - Resistência dos Materiais II

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

(A1) As operações + e são comutativas, ou seja, para todo x e y em A, x + y = y + x e x y = y x

CONHECIMENTOS ESPECÍFICOS

Gabarito - Lista 5 - Questões de Revisão

4 Modelos de Regressão Dinâmica

Análise de regressão linear simples. Diagrama de dispersão

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

MAT Cálculo II - IQ Prof. Oswaldo Rio Branco de Oliveira 2 ō semestre de 2008 Prova Substitutiva

Inferência Estatistica

Transformações e Ponderação para corrigir violações do modelo

Correlação e Regressão Linear

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Lista 6: transformações lineares.

AULA 9 - MQO em regressão múltipla: Propriedades Estatísticas (Valor Esperado)

Econometria - Lista 6

O método Jackknife. Fundamentos e aplicações. Prof. Walmes Zeviani.

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Monitoria Econometria II REC o Semestre 2015 Monitor(a):Victória Mazás Martinez 3 a Lista de exercícios - Dados em painel

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Teste de Homocedasticidade.

Econometria II. Equações simultâneas

Integral Triplo. Seja M um subconjunto limitado de 3.

AULAS 25 E 26 VARIÁVEIS INSTRUMENTAIS

Modelos de Regressão

O uso de algoritmos de emparelhamento - matching

3 ā Prova de MAT Cálculo II - Química 2 ō Semestre - 11/12/2009 Prof. Oswaldo Rio Branco de Oliveira. Boa Sorte!

P4 de Cálculo a Várias Variáveis I MAT Data: 02 de julho

L I S TA 6 - D E R I VA D A S PA R C I A I S E D I R E C I O N A I S, P L A N O TA N G E N T E E P O L I N Ô M I O S D E TAY L O R

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

EXAME NACIONAL DE SELEÇÃO 2010

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados


Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Outras Técnicas que Utilizam o Escore de Propensão

Econometria I Lista 2: modelo de regressão linear clássico e regressão simples

Disciplina de Modelos Lineares Professora Ariane Ferreira

Econometria. Regressão Linear Simples Lista de Exercícios

Testes de Raiz Unitária para Dados em Painel

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Análise de Regressão EST036

Capítulo 3. O Modelo de Regressão Linear Simples: Especificação e Estimação

Teorema da Divergência e Teorema de Stokes

Transcrição:

89 4 Informação auxiliar para Segundo D Orazio et al., 2006, p. 11, o conjunto de modelos identificáveis A B é pequeno e pode ser inapropriado para o fenômeno em estudo. Para resolver esse problema, conforme citado na seção 1.5, usa-se uma informação auxiliar, além de A B. A informação auxiliar, que será descrita a seguir, pode ser paramétrica, ou seja, existe o conhecimento dos valores de alguns dos parâmetros do modelo para (X, Y, Z), ou uma amostra adicional, C que informa sobre a relação de (Y, Z) ou de (X, Y, Z). 4.1. Diferentes tipos de informação auxiliar Conforme antecipado, na seção 1.5, a suposição de independência condicional entre Y e Z, dado X não pode ser testada nos arquivos A e B. A CIA é uma suposição implícita, e freqüentemente não é um pressuposto correto, para evitar tal pressuposto usa-se a informação auxiliar. Muitos autores descrevem os efeitos da suposição da CIA; dentre esses Sims (1972), Kadane (1978), Cassel (1983), Rodgers (1984), Paass(1986), Barry (1988), Cohen (1991) e Singh et al. (1993). É fácil entender que estimar a distribuição conjunta de (X, Y, Z) é muito diferente de gerar a distribuição real. Ao discutir esse problema, alguns autores falam do viés dos procedimentos estatísticos devido a CIA. Na verdade, os procedimentos de emparelhamento estatístico são não viesados, caso a CIA seja válida. O problema é a especificação errada do modelo que sempre induz a estimativas viesadas.

90 Quando a CIA não é válida, os parâmetros da relação estatística entre Y e Z não podem ser estimados a partir dos arquivos A e B. No capítulo 3, uma distribuição normal multivariada foi relatada sob o pressuposto da CIA. Em caso de falha do pressuposto da CIA a solução dada para os parâmetros não estimáveis é: i. um terceiro arquivo C observados conjuntamente; onde ( X, Y, Z ) ou ( Y, Z ) foram ii. valores plausíveis dos parâmetros não estimáveis de ( Y, Z X) ou (Y, Z). Por exemplo, no caso de dados normais o coeficiente de correlação parcial ou alguma informação sobre uma categorização de (X, Y, Z), no caso de (X, Y, Z) ser contínua. Alternativamente, Kadane (1978) propõe o uso de informação auxiliar para evitar o pressuposto da CIA. Usualmente, uma informação auxiliar paramétrica pode ser obtida de uma das duas formas: (1) uma amostra prévia realizada, arquivos ou coleção de dados; (2) uma proxy de variáveis. Em ambos os casos, apesar de não ser perfeita, supõe-se que essa informação paramétrica é válida para o modelo que gerou as amostras A e B. A informação paramétrica externa tem um papel importante no contexto de emparelhar estatisticamente, sendo usada para restringir o conjunto de parâmetros possíveis, vide D orazio et al., 2006, p. 71. No nosso caso uma proxy de variáveis será usada.

91 4.2. O caso da normal multivariada No caso da normal multivariada, em uma abordagem paramétrica usando (ii), a distribuição conjunta de (X, Y, Z ) é caracterizada pelos parâmetros: µ X = ( µ, ) = µ Y, µ Z XX YX ZX XY YY ZY XZ θ (4.2.1) Nesse caso, é suficiente obter informação sobre os parâmetros não YZ ZZ estimáveis, isto é, a informação que descreva o relacionamento entre, as variáveis nunca observadas conjuntamente Y e Z. Podem-se considerar duas possíveis restrições: I. os coeficientes na matriz de correlação parcial ρ YZ X II. na matriz de covariância marginal entre Y e Z, YZ Coeficientes parciais de correlação conhecidos De forma geral, esse parâmetro é o mais importante do emparelhamento estatístico. De fato, a distribuição de (4.2.1), pode ser fatorada como: f ( X YZ X YZ X x, y, z, θ ) = f ( x; θ) f ( y, z x; θ ) (4.2.2) No caso da normal multivariada, θ YZ X é a correlação parcial entre Y e Z dado X, o único parâmetro de (4.2.1) que não pode ser estimado para A B.

92 D Orazio et al., 2006, p.72, provam que o EMV θˆ de θ é aquele e só aquele compatível com os seguintes EMV: θˆ X, calculado em A B ; ˆ Y / θ, calculado em A ; X ˆ Z / θ, calculado em B. X Este resultado e a restrição (I) podem conduzir a passos para obter estimativas dos parâmetros de regressão. De acordo com Seber (1977) e Cox e Wermuth (1996) é possível obter as estimativas dos parâmetros de regressão de Z dado X e Y usando estimativas EMV. Observe que a informação auxiliar paramétrica dos coeficientes de correlação parcial de Y e Z dado X tem sido usado por Rubin (1986) e Rässler (2002) com pequenas diferenças entre si. Ver detalhes em D orazio et al., 2006, p.74. Covariâncias marginais conhecidas Suponha que YZ é conhecido e fixo em um valor YZ. Dado que as propriedades dos EMV irrestritos dos coeficientes de 4.2.1 são coerentes com as estimativas sob CIA, existem duas possibilidades: (i) As estimativas dos parâmetros estimáveis (4.2.1) obtidas usando os passos MV citados anteriormente são coerentes com as restrições impostas, em outras palavras a matriz de covariância: ˆ ˆ ˆ XX YX ZX ˆ ˆ ˆ XY YY ZY ˆ ˆ ˆ XZ YZ ZZ (4.2.3)

93 É semi-definida positiva. Note que essa solução é para as estimativas MV irrestritas. (ii) A matriz (4.2.3) é definida negativa. Isso significa que o YZ imposto não é compatível com a CIA. Nesse caso, as soluções MV restritas não são válidas mas transformações adequadas do algoritmo EM para levar em conta essa restrição pode ser feita para que se obtenha uma solução. Ressalte-se que essa restrição tem sido aplicada na estrutura geral dos trabalhos de Moriarity e Scheuren (2001, 2003, 2004), seguindo as idéias de Kadane (1978), com objetivo micro. Note que Kadane (1978) sugere o uso de estimadores consistentes para obter os parâmetros estimáveis. Moriarity e Scheuren (2001) adotam estimadores consistentes, mas diferentes dos estimadores MV. A diferença foi sugerir que ao computar a matriz de covariância residual ˆ ZZ XY para a regressão de Z em Y e X, essa fosse usada para imputar, somando, o ruído residual nos valores da regressão, antes do emparelhamento, conforme formalizado na seção 2.5.

94 4.3.Procedimento micro não-paramétrico usando informação auxiliar A exploração de informação auxiliar de um terceiro arquivo C que possui registros a nível individual em (X, Y, Z) ou ( Y, Z ) com os métodos hot deck pode ser representada como um procedimento de dois passos 14. Seja A o arquivo receptor e B o arquivo doador (i) para cada a = 1,......,n, um valor observado A Z c em C, é imputado no a ésimo registro de A usando um dos procedimentos hot deck descritos na seção 3.2. Note que, quando o distance hot deck é usado, os seguintes procedimentos são aplicados: (a) quando C contém informações nas variáveis (X, Y, Z) a distância é computada em relação a (X, Y ); (b) quando C contém a informação nas variáveis ( Y, Z), a distancia é computada usando somente Y. (ii) para cada observado a = 1,......,n, é imputado o valor final A Z b, correspondente ao vizinho mais próximo b em B, com respeito à distância que também considera os valores intermediários d(( xa, zc ),( xb, zb )) previamente determinados. 14 Note que este procedimento difere do hot deck sob a hipótese de CIA.

95 Essa técnica foi proposta por Singh et al. (1993) apud D orazio et al., 2006, p. 84, e uma técnica mais geral foi introduzida por Paass (1986) envolvendo técnicas não-paramétricas baseadas nos métodos knn. Essa forma de usar a informação auxiliar explora o relacionamento entre X, Y e Z observado nesse terceiro arquivo C.

96 4.4. Métodos mistos Quando existe informação auxiliar disponível, a maioria das técnicas é baseada, essencialmente, nos métodos mistos que possuem dois passos principais, conforme citado em 1.3.1. Passo 1 : estimação de parâmetros de um modelo; Passo 2 : uso de técnicas hot deck condicionadas ao primeiro passo. As diferenças entre as técnicas de hot deck dependem da natureza da informação auxiliar. A informação auxiliar pode ser: a nível micro, isto é, um arquivo externo C ; na forma paramétrica para os parâmetros chave do modelo sob estudo; na forma paramétrica mas considerando a informação sobre outros parâmetros que não os chave. Nesse trabalho, na seção 5.1 introduz-se um procedimento que utiliza informação auxiliar na forma não-paramétrica. A informação é baseada em alguma teoria estabelecida sobre a distribuição de ( X, Y, Z) mais precisamente sobre a relação dos percentis de Y e de Z, claramente não é um dos parâmetros chaves da distribuição de ( X, Y, Z). No nosso caso esta informação auxiliar é oriunda da teoria econômica.