Métodos Quantitativos para Avaliação de Políticas Públicas

Documentos relacionados
RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos

Aula 2 Tópicos em Econometria I. Porque estudar econometria? Causalidade! Modelo de RLM Hipóteses

AULAS 21 E 22 Análise de Regressão Múltipla: Estimação

AULAS 28 E 29 Análise de Regressão Múltipla com Informações Qualitativas

Aula 2 Uma breve revisão sobre modelos lineares

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Regressão linear simples

AULA 09 Análise de regressão múltipla com informações qualitativas

Correlação e Regressão

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

AULA 9 - MQO em regressão múltipla: Propriedades Estatísticas (Valor Esperado)

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

Análise Multivariada Aplicada à Contabilidade

Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy)

Análise da Regressão. Prof. Dr. Alberto Franke (48)

AULAS 17 E 18 Análise de regressão múltipla: estimação

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 03 Análise de regressão múltipla: estimação

Regressão múltipla: Unidades de medida. Unidades de medida. Unidades de medida salário em dólares (*1000) Unidades de medida

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Quiz Econometria I versão 1

Métodos Quantitativos Aplicados

LES0773 Estatística Aplicada III

Análise de regressão linear simples. Diagrama de dispersão

Regressão múltipla: problemas adicionais. Unidades de medida. Unidades de medida. Unidades de medida salário em dólares (*1000) Unidades de medida

4 Modelos de Regressão Dinâmica

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

AULA 07 Regressão. Ernesto F. L. Amaral. 05 de outubro de 2013

ECONOMETRIA. Prof. Danilo Monte-Mor

AULAS 14 E 15 Modelo de regressão simples

AULA 8 - MQO em regressão múltipla:

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

CONHECIMENTOS ESPECÍFICOS

Modelos de Regressão Linear Simples parte I

Análise de Regressão Múltipla: Mínimos Quadrados Ordinários

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE CIÊNCIAS CONTÁBEIS PROGRAMA DE PÓS GRADUAÇÃO EM CIÊNCIAS CONTÁBEIS - PPGCC FICHA DE DISCIPLINA

Análise de Regressão Linear Simples e

Princípios em Planejamento e Análise de Dados Ecológicos. Regressão linear. Camila de Toledo Castanho

Introdução ao modelo de Regressão Linear

Análise de Regressão EST036

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

AULA 11 Heteroscedasticidade

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Aula inaugural do curso Análise de Regressão

REGRESSÃO E CORRELAÇÃO

Análise de Resíduos. investiga características que comprometem a validade do MRLS:

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

Métodos Estatísticos Avançados em Epidemiologia

Delineamento e Análise Experimental Aula 3

Modelos de Regressão Linear Simples - parte I

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

Análise de Resíduos. investigar características que comprometem a validade do MRLS:

Análise de Regressão Linear Múltipla III

AULAS 14 E 15 Modelo de regressão simples

Correlação e Regressão Linear

PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES

Mais Informações sobre Itens do Relatório

AULA 07 Inferência a Partir de Duas Amostras

Monitoria Econometria II REC o Semestre 2015 Monitor(a):Victória Mazás Martinez 3 a Lista de exercícios - Dados em painel

Econometria em Finanças e Atuária

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

ESTATÍSTICA. Ana Paula Fernandes - FAMAT/UFU

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Homocedasticidade? Exemplo: consumo vs peso de automóveis

Multicolinariedade e Autocorrelação

Delineamento e Análise Experimental Aula 4

Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas

AULA 7 - Inferência em MQO: ICs e Testes de

Ralph S. Silva

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

AULA 4 - MQO Simples: Propriedades algébricas e Estatísticas

Renda x Vulnerabilidade Ambiental

Modelo de Regressão Múltipla

Modelos de Regressão Linear Simples - parte III

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

Análise espacial da incidência de Dengue no município de São Paulo

LES0773 Estatística Aplicada III

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino

Regressão Linear Simples

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Análise de Regressão - parte I

Nota de Aula: Uma Primeira Forma para se Desenvolver o Teste de F para Hipóteses sobre Combinações Linear dos Coeficientes da Regressão

AULA 07 Análise de Regressão Múltipla: Problemas Adicionais

Econometria - Lista 5

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Prova de Estatística

Esse material foi extraído de Barbetta (2007 cap 13)

AULA 19 E 20 Análise de Regressão Múltipla: Problemas Adicionais

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Estatística 1. Resumo Teórico

Transcrição:

ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Organização 1 Regressão com variáveis qualitativas 2 Análise de Resíduos Homocedasticidade Normalidade Independência Alexandre Leichsenring ACH3657 Aula 11 2 / 26

Regressão com variáveis qualitativas Até agora, as variáveis dependente e independentes nos nossos modelos tinham significado quantitativo (salário, anos de educação, taxa de aprovação, etc) Em trabalhos empíricos precisamos incorporar fatores qualitativos aos modelos de regressão: Sexo ou raça de um indivíduo, região geográfica, tipo de escola (pública, privada), etc Variáveis qualitativas podem ser facilmente incorporadas aos modelos de regressão Discutiremos a introdução de variáveis qualitativas através de um tipo específico: variáveis binárias. A generalização é direta e os softwares de análise estatística possibilitam seu uso. Alexandre Leichsenring ACH3657 Aula 11 3 / 26

Fatores qualitativas frequentemente aparecem na forma de informação binária: Masculino x Feminino Tem x não tem computador Firma tem plano de saúde x não tem Etc Em todos esses exemplos a informação relevante pode ser capturada através da definição de uma variável binária, ou uma variável zero-um. No contexto da análise de regressão, as variáveis binárias são chamadas de variáveis dummy Alexandre Leichsenring ACH3657 Aula 11 4 / 26

Ao definir uma variável dummy, é preciso decidir a qual categoria será atribuído o valor 1 e qual será atribuído o valor 0 Por exemplo: { 1, mulher 0, homem ou { 1, homem? 0, mulher A maneira como definimos não é importante... a mesma informação será capturada em qualquer das duas formulações Mas é importante que o nome dado à variável reflita a formulação (no primeiro caso, devemos chamar a variável de algo como sexo feminino, enquanto no segundo caso, sexo masculino) Por que usamos os valores zero e um para descrever informação qualitativa? Num certo sentido, esses valores são arbitrários: qualquer par de valores diferentes serviria A formulação acima resultam em modelos cujos parâmetros relacionados têm interpretações naturais Alexandre Leichsenring ACH3657 Aula 11 5 / 26

Uma única variável dummy Como incorporamos informações binárias nos modelos de regressão? No caso mais simples, com uma única variável dummy, a adicionamos diretamente como variável explicativa na equação. Ex: considere a equação de determinação de salário: salario = β 0 + δ 0feminino + β 1educ + u Usamos δ 0 para ressaltar o seu papel de variável binária (depois podemos usar a representação padrão) No modelo acima, apenas dois fatores afetam o salário: sexo e escolaridade Como: feminino = { 1, se mulher 0, se homem o parâmetro δ 0 terá a seguinte interpretação: δ 0 é a diferença de salário entre mulheres e homens, dada a mesma escolaridade (e o mesmo termo de erro u) O coeficiente δ 0 determina uma possível existência de discriminação contra mulheres: Se δ < 0, então, para outros fatores no mesmo nível, a mulher ganha menos do que o homem em média Alexandre Leichsenring ACH3657 Aula 11 6 / 26

Assumindo a hipótese de média condicional zero: δ 0 = E(salario feminino = 1, educ) E(salario feminino = 0, educ) = E(salario mulher, educ) E(salario homem, educ) A escolaridade é a mesma δ 0 é devido apenas ao sexo Alexandre Leichsenring ACH3657 Aula 11 7 / 26

No modelo acima, escolhemos sexo = masculino como categoria de referência (a comparação é feita contra esse grupo) δ 0 é a diferença dos interceptos de mulheres e homens Poderíamos escolher as mulheres como categoria de referência: e nesse caso salario = α 0 + γ 0masculino + β 1educ + u α0 será o intercepto para mulheres e α 0 + γ 0 o intercepto para homens. Não importa como escolhemos a categoria de referência, apenas devemos ter isso em mente qual é ela Nada muda muito quando incluímos outras variáveis explicativas. Por exemplo: salario = β 0 + δ 0feminino + β 1educ + β 2exper + β 3permanencia + u Se educ, exper e permanencia são características relevantes de produtividade, a hipótese nula de não-diferença entre homens e mulheres é: H 0 : δ 0 = 0 e a hipótese alternativa: H 1 : δ 0 < 0 Alexandre Leichsenring ACH3657 Aula 11 8 / 26

Exemplo Usando os dados de wage1.sav, estimamos o modelo acima proposto. Por hora, usamos salario ao invés de log(salario) como variável dependente: ˆ salario = 1, 57 1, 81 feminino + 0, 572 educ + 0, 25 exper + 0, 141 permanencia O intercepto negativo nesse caso não tem muito significado (pois ninguém tem valor zero para todos as variáveis educ, exper e permanencia na amostra O coeficiente de feminino é interessante, pois mede a diferença média dos salários horários entre homens e mulheres que têm os mesmos níveis de educ, exper e permanencia. Se pegamos uma mulher e um homem com os mesmos níveis de escolaridade, experiência e permanência, a mulher ganha em média $1, 81 a menos do que o homem Alexandre Leichsenring ACH3657 Aula 11 9 / 26

Análise de Resíduos Outras questões estão em jogo na avaliação da qualidade do ajuste além de R 2 : Como saber se o modelo é adequados aos dados? Função de regressão é linear? Resíduos têm distribuição normal? As hipóteses RLM.1 a RLM.5 assumidas estão satisfeitas? Uma ou mais características do modelo podem não ser apropriadas para um conjunto de dados. Vamos apresentar alguns métodos para a análise das hipóteses que envolvem os termos de erro. Alexandre Leichsenring ACH3657 Aula 11 10 / 26

As hipóteses Hipótese RLM.1 (Linear nos parâmetros) No modelo populacional, a variável dependente y está relacionada à variável independente x e ao erro (ou perturbação) u como y = β 0 + β 1x 1 + β 2x 2 +... + β k x k + u Hipótese RLM.2 (Amostragem Aleatória) Temos uma amostra aleatória de n observações {(x i1, x i2,..., x ik, y i) : 1 = 1, 2,..., n} proveniente do modelo populacional descrito na Hipótese RLM.1 Hipótese RLM.3 (Média condicional zero) O erro u tem um valor esperado igual a zero, dados quaisquer valores das variáveis independentes: E(u x 1, x 2,....x k ) = 0 Alexandre Leichsenring ACH3657 Aula 11 11 / 26

As hipóteses Hipótese RLM.4 (Colinearidade não perfeita) Na amostra (e, portanto, na população), nenhuma das variáveis independentes é constante, e não há relações lineares exatas entre as variáveis independentes. Hipótese RLM.5 (Homocedasticidade) Var(u x 1, x 2,..., x k ) = σ 2 Alexandre Leichsenring ACH3657 Aula 11 12 / 26

Ideia Fazer uma análise dos resíduos gerados pelo ajuste do modelo de regressão, isto é, uma análise dos û i. Vamos recordar as suposições sobre os termos de erro u i: u i N(0, σ 2 ), independentes, de maneira que Cov(u i, u j) = 0, i j Cov(u i, X i) = 0 Alexandre Leichsenring ACH3657 Aula 11 13 / 26

Algumas Propriedades dos Estimadores de Mínimos Quadrados. A soma, e portanto a média amostral dos resíduos resultantes do método MQ, é zero. n û i = 0 i=1 A covariância entre os regressores e os resíduos do método MQ é zero, isto é Cov(X i, û i) = 0, ou n X iû i = 0 resta verificar as suposições referentes à heterocedasticidade (variâncias constantes), à independência e à normalidade dos resíduos. i=1 Alexandre Leichsenring ACH3657 Aula 11 14 / 26

Lembramos que os resíduos û i observados na amostra são dados por û i = Y i Ŷi. Após estimarmos o modelo de regressão, temos então n observações de û i. Os testes sobre a validade dessas suposições são baseados nessa amostra. A maioria dos testes são baseados em medidas descritivas e/ou representação gráfica dos resíduos. Alexandre Leichsenring ACH3657 Aula 11 15 / 26

Homocedasticidade Quando assumimos que u i N(0, σ 2 ), estamos implicitamente assumindo que a variância de Y X i não depende de um particular valor X i. Em outros termos V ar(u X i) = σ 2 X i A homocedasticidade diz respeito à constância da variância dos resíduos. Teste: Gráfico de dispersão dos resíduos. Tendência nos resíduos. Dispersão nos resíduos. Resíduo 10 Resíduo 5 5 1 2 3 4 X 1 2 3 4 X Alexandre Leichsenring ACH3657 Aula 11 16 / 26

Normalidade O modelo de regressão simples sob homocedasticidade Alexandre Leichsenring ACH3657 Aula 11 17 / 26

Normalidade Variância do salário crescente com escolaridade Alexandre Leichsenring ACH3657 Aula 11 18 / 26

Análise da distribuição de freqüências dos resíduos. Histograma Informações sobre a forma da função densidade dos resíduos Gráfico de probabilidade normal Ferramenta gráfica que compara os quantis observados com os quantis esperados de uma distribuição normal. No caso de resíduos normalmente distribuídos esperamos que os pares (quantis observados, quantis esperados) estejam alinhados em uma linha reta. Assim, comparamos os resíduos com os quantis de uma normal com média 0 e variância dada pelo valor estimado para a variância u, isto é: n ˆσ 2 i=1 = û2 i n 2. Alternativamente, pode-se comparar os resíduos padronizados (i.e., ẽ i = ûi ˆσ ) com os quantis correspondentes da normal padrão. Alexandre Leichsenring ACH3657 Aula 11 19 / 26

Evidências de Normalidade Afastamento da Normalidade Alexandre Leichsenring ACH3657 Aula 11 20 / 26

Exemplo Vamos fazer a análise dos resíduos gerados pelo modelo ajustado para os dados de desempenho em matemática (mate10) do arquivo meap93.sav. Queremos: Gráfico de dispersão dos resíduos por X i (ou valores ajustados para Y i ) Gráfico de dispersão dos resíduos ordenados pela ordem de observação (particularmente importantes em observações coletadas através do tempo) Histograma dos resíduos Gráfico de probabilidade normal Alexandre Leichsenring ACH3657 Aula 11 21 / 26

Independência Os dados coletados ao longo de períodos de tempo algumas vezes exibem um efeito de autocorrelação entre observações sucessivas. Nestes casos, existe uma relação entre resíduos consecutivos. Teste: - Gráfico de dispersão dos resíduos ordenados pelo período de tempo em que foram coletados. - Gráfico de resíduos contra resíduos defasados: û i û i 1. Resíduos ordenados: Dependência linear, quadrática e independência Resíduos Resíduos Resíduos Observaç s s Alexandre Leichsenring ACH3657 Aula 11 22 / 26

Análise de Resíduos no R - função plot() Alexandre Leichsenring ACH3657 Aula 11 23 / 26

Análise de Resíduos no R 1 Residuals vs Fitted. Usado para checar a suposição de relações lineares Uma linha aproximadamente horizontal, sem padrão definido indica 2 Normal Q Q Usado para examinar se os resíduos têm distribuição Normal Quando normalmente distribuídos, pontos acompanham a linha 3 Scale-Location Usado para checar homoscedasticidade (variância constante) Linha vermelha deve se apresentar aproximadamente horizontal 4 Residuals vs Leverage Usado para identificar casos influentes, ou seja, valores extremos que podem influenciar a regressão conforme forem incluídos ou excluídos da análise Alexandre Leichsenring ACH3657 Aula 11 24 / 26

Alertas na construção do modelo de regressão A ampla disponibilidade de softwares de estatística e de planilhas removeu a difícil barreira dos cálculos Acesso às técnicas avançadas nem sempre foi acompanhado por um entendimento claro sobre como utilizar a análise de regressão de forma apropriada. Dificuldades envolvidas na análise de regressão: 1 Falta de atenção às suposições do modelo de regressão (homocedasticidade, normalidade e independência). 2 Saber quais alternativas utilizar na regressão linear quando as suposições são violadas. 3 Utilizar um modelo de regressão sem conhecimento do assunto. Alexandre Leichsenring ACH3657 Aula 11 25 / 26

Passos recomendados: 1 Sempre iniciar com gráfico de dispersão para observar a possível relação entre as variáveis explicativas x i e a resposta y. 2 Verificar se as suposições do modelo de regressão (homoscedasticidade, normalidade e independência) estão satisfeitas, antes de prosseguir e utilizar seus resultados. 3 Se as suposições em (2) forem violadas deve-se utilizar métodos alternativos para remediar as violações, como por exemplo transformações nas variáveis explicativas ou respostas. 4 Se as suposições forem satisfeitas, deve-se realizar testes em relação aos coeficientes de regressão e construir intervalos de confiança e previsão. Alexandre Leichsenring ACH3657 Aula 11 26 / 26