Gabarito - Lista 5 - Questões de Revisão Monitores: Camila Steffens e Matheus Rosso Parte I - Teoria assintótica 1. Enuncie a lei dos grandes números e o teorema central do limite. A LGN em sua expressão tradicional indica a convergência da frequência relativa para a probabilidade. Em uma configuração de distribuição binomial, onde X i Bin(p), f A = i X i/n, A é um evento de referência e p = P (A), a desigualdade de Tchebycheff implica em: Com n, encontra-se que f A p p. P ( f A p < ɛ) 1 p(1 p) n.ɛ 2 Analogamente, também usando da desigualdade de Tchebycheff, tem-se a convergência em probabilidade da média amostral: dada a V.A. em que consiste a média amostral: Com n, encontra-se que X p µ. P ( X µ < ɛ) 1 σ2 n.ɛ 2 Teorema central do limite: dada uma sequência de variáveis aleatórias independentes, {X 1,..., X n }, o TCL implica: i X i i E(X i) i V ar(x N(0, 1) i) Caso a sequência {X 1,..., X n } seja i.i.d., com E(X i ) = µ e V ar(x i ) = σ 2 para i {1,..., n}, então: n X µ σ d N(0, 1) 1
Conforme n. 2. Entregar. 3. Entregar. Parte II - Variáveis dummy 1. Defina uma variável dummy e indique distinções com relação às variáveis convencionais. Na sequência, dê exemplos de variáveis binárias e aponte aplicações possíveis. Uma variável d é definida com uma variável dummy se d {0, 1}, isto é, caso se trate de uma variável binária. As variáveis convencionais em Econometria são variáveis contínuas, isto é, assumem um valor em um dado intervalo ([a, b], (a, b], [a, b), ou (a, b)) ou mesmo no conjunto dos números reais, R. Por sua vez, as variáveis dummy são discretas, de modo que assumem um valor em um conjunto enumerável (finito ou infinito), mais especificamente, em um conjunto enumerável binário. Dessa forma, são capazes de descrever características qualitativas de uma unidade de observação. Daí as principais aplicações de variáveis dummy indicando o gênero, a raça, o status matrimonial, etc. de indivíduos, bem como o setor da economia, o porte, o regime fiscal, etc. de empresas. A partir de variáveis deste tipo, é possível verificar se, para cada possível subgrupo da amostra (homem e mulher, empresa do setor industrial e não industrial, etc.), a média da variável dependente de interesse é distinta, ou então se o efeito de uma variável contínua sobre a variável dependente é distinto dependendo do subgrupo considerado. 2. Seja T {0, 1} uma variável que indica a sujeição a um tratamento. Em Economia, um tratamento pode consistir na participação de uma unidade de observação i em algum programa do governo (Bolsa Família, qualificação profissional, etc.). Seja y uma variável de resultado de interesse. Definem-se y 1 como o resultado com tratamento e y 0 como o resultado sem tratamento para uma mesma unidade de observação. Naturalmente, observa-se apenas y 1 ou y 0, o que é transcrito por: y = T y 1 + (1 T )y 0 (1) 2
Se T = 1, y 0 é o contrafactual para y = y 1 ; se T = 0, y 1 é o contrafactual para y = y 0. Definem-se E(y 1 y 0 ) como o efeito de tratamento médio e E(y 1 y 0 T = 1) como o efeito de tratamento médio sobre os tratados. Ambas são as grandezas de maior interesse neste contexto. a) Demonstre que a independência entre o tratamento e os resultados potenciais (y 0 e y 1 ) implica em: E(y T = 1) E(y T = 0) = E(y 1 T = 1) E(y 0 T = 1) = E(y 1 ) E(y 0 ) Da expressão em (1): E(y T = 1) = E(y 1 T = 1) e E(y T = 0) = E(y 0 T = 0) Se (y 0, y 1 ) é independente de T, então: E(y 1 T = 1) = E(y 1 T = 0) = E(y 1 ) e E(y 0 T = 1) = E(y 0 T = 0) = E(y 0 ) Logo: E(y T = 1) E(y T = 0) = E(y 1 T = 1) E(y 0 T = 0) = E(y 1 T = 1) E(y 0 T = 1) = E(y 1 ) E(y 0 ) b) Justifique, a partir da equação (1), a validade da seguinte expressão: E(y T = 1) E(y T = 0) = E(y 0 T = 1) E(y 0 T = 0) + E(y 1 y 0 T = 1) (2) Da expressão (1): E(y T = 1) = E(y 1 T = 1) e E(y T = 0) = E(y 0 T = 0) Logo: E(y T = 1) E(y T = 0) = E(y 1 T = 1) E(y 0 T = 0) = E(y 1 T = 1) E(y 0 T = 0) + E(y 0 T = 1) E(y 0 T = 1) = E(y 0 T = 1) E(y 0 T = 0) + E(y 1 y 0 T = 1) c) Utilizando de (2), observa-se que a diferença de médias observáveis (observa-se tanto y quanto T ) é equivalente ao efeito de tratamento médio sobre os tratados se E(y 0 T = 1) = E(y 0 T = 0). Considerando que T = 1 se refira a participar do Bolsa Família e que y 0 é a renda de uma pessoa sem o auxílio e que y 1 é a renda da mesma pessoa com o auxílio, justifique a razão pela qual se espera E(y 0 T = 1) > E(y 0 T = 0). Obs.: em tal caso, (2) indica: 3
E(y T = 1) E(y T = 0) > E(y 1 y 0 T = 1) O que demonstra um viés positivo da diferença de médias observadas. Trata-se de um caso específico do viés de seleção, ou ainda denominado auto-seleção. Como y 0 é a renda do indivíduo sem o benefício, considerar um tratamento hipotético a esta pessoa (T = 1) deve ampliar a sua renda média, uma vez que se trata de uma pessoa que necessita do auxílio para que sua renda média seja maior. 3. Entregar. 4. Entregar. 5. Dadas uma variável binária D {0, 1} e uma variável de resultado y, discuta uma forma de testar a diferença entre as médias condicionais E(y D = 1) e E(y D = 0) utilizando de uma regressão. É preferível controlar por outras variáveis, isto é, testar a diferença entre E(y x, D = 1) e E(y x, D = 0), onde x é um vetor de covariadas? Explique utilizando de exemplos. Testa-se a diferença entre as médias condicionais E(y D = 1) e E(y D = 0) ao se regredir y contra uma constante e a variável binária D, de forma que se estima y = β 0 + δd + ɛ. Uma vez estimados os parâmetros β 0 e δ, testa-se a hipótese H 0 : δ = 0. Rejeitando-se esta hipótese, conclui-se que as médias de y para D = 1 e para D = 0 são distintas β 0 representa, então, a média de y para d = 0, enquanto que β 0 + δ representa a média de y para d = 1. Na medida em que haja correlação entre a característica descrita por D e outras variáveis x que também afetem o valor médio de y, obtém-se uma estimativa mais correta da diferença de médias δ. Portanto, estima-se y = β 0 + δd + xβ + ɛ, onde x é um vetor de variáveis explicativas (sem uma constante), e, novamente, testa-se a hipótese H 0 : δ = 0. Por exemplo, caso se queira verificar a discriminação salarial motivada por questões raciais, a diferença entre E(y x, D = 1) e E(y x, D = 0), onde D = 1, caso a pessoa seja negra e D = 0, caso contrário, pode ser mais convenientemente estimada com a consideração de um vetor de covariadas x que incluam fatores como a educação e a experiência; dessa forma, reconhece-se que a educação e a experiência afetam o 4
salário médio e, ao mesmo tempo, podem estar correlacionadas com a pessoa ser negra ou não (sem um sistema de cotas, pode se constatar que uma pequena proporção de pessoas negras acessem o ensino superior, ou então, havendo discriminação racial na seleção de candidatos a um emprego, é possível que pessoas negras acumulem menos experiência). Assim, é possível obter uma estimação mais acurada da diferença de médias δ, ao se tornar menos viesado o estimador do parâmetro da variável D. 6. Seja o seguinte modelo, y = β 0 + β 1 x + δ 1 d + δ 2 dx + ɛ, onde d {0, 1}. Defina o efeito parcial de x sobre E(y x, d). Como testar se o efeito parcial é único ou segmentado? Tomando a derivada parcial de E(y x, d) em termos de x: E(y x, d) x = β 1 + δ 2 Caso se queira verificar se o efeito parcial de x sobre o valor esperado de y é distinto para d = 1 com relação a d = 0, então deve ser testada a hipótese H 0 : δ 2 = 0. Caso se rejeite esta hipótese, conclui-se pela diferença dos efeitos parciais para os dois segmentos da amostra, d = 1 e d = 0. 7. Entregar 8. Entregar 9. Exercício de Stata: entregar. Parte III - Heterocedasticidade 1. Defina o problema da heterocedasticidade e indique as suas consequências. Há heterocedasticidade quando V ar(ɛ i x i ) = σ i, o que também pode ser expresso por V ar(ɛ i x i ) = h(x i ), onde h(.) é uma função h : R K R tendo por argumento o vetor de variáveis explicativas x. Portanto, com heterocedasticidade, a variância condicional do termo de erro não é constante entre as unidades de observação. Dessa forma, é inválida a expressão convencional para a variância do vetor de estimadores de MQO: V ar( ˆβ) = (σ 2 /N)[E(x T i x i)] 1 5
É igualmente inválida a expressão para o estimador desta variância: V ar( ˆβ) = ˆσ 2 (X T X) 1 Consequentemente, a inferência padrão que utiliza das estatísticas t e F não mais se aplica. Outra consequência é a invalidade do teorema de Gauss-Markov, ou seja, as estimativas de MQO não consistem, sob heterocedasticidade, nos estimadores de menor variância na classe dos estimadores lineares não viesados. Caso se queira calcular um estimador para β que seja mais eficiente (em comparação ao estimador de MQO sem homocedasticidade) e que seja um estimador ao qual se apliquem as estatísticas usuais de inferência (t e F ), é possível modelar a heterocedasticidade ao se definir a função h(.) e, então, proceder à estimação de mínimos quadrados ponderados. Caso se queira apenas realizar inferência a partir das estimativas de MQO desconsiderando a hipótese de homocedasticidade, deve-se calcular uma matriz de variância V ar( ˆβ) robusta à heterocedasticidade, com o que se constroem estatísticas de teste heterocedasticas-robustas. 2. Entregar. 3. Entregar. Parte IV - Questões de revisão 1. Uma vez terminado o conteúdo do curso, enuncie as propriedades de estimadores que você aprendeu e indique as hipóteses suficientes para a validade de cada uma delas no contexto do modelo de regressão linear clássico. Seja o modelo de regressão linear y i = x i β + ɛ i = β 0 + β 1 x i1 +... + β K x ik + ɛ i : i) Ausência de viés: o estimador de MQO ˆβ é não viesado, ou seja, vale que E( ˆβ x) = β se E(ɛ x) = 0. ii) Eficiência (teorema de Gauss-Markov): o estimador de MQO ˆβ é eficiente na classe dos estimadores lineares não viesados, ou seja, tem a menor variância 6
nesta classe de estimadores se V ar(ɛ x) = σ 2, isto é, se valer a homocedasticidade (além disso, supõe-se E(ɛ x) = 0 para a ausência de viés). iii) Consistência: o estimador de MQO é consistente, ou seja, lim N P ( ˆβ β > δ) = 0 para todo δ > 0 se os regressores forem não correlacionados com o termo de erro, Cov(x, ɛ) = 0, ou ainda E(xɛ) = 0, uma vez que x contemple a constante. 2. Para a estimação do modelo de regressão linear clássico, quais são as dificuldades que a heterocedasticidade impõe? A estimação é inviabilizada? Incorre-se em viés? A eficiência é comprometida? Os estimadores serão inconsistentes? A inferência estatística deve ser modificada, partindo-se do framework de homocedasticidade? A heterocedasticidade não afeta a estimação, permanecendo os resultados quanto à ausência de viés e à consistência. Apenas a precisão da estimação é afetada, na medida em que os estimadores de MQO não mais são eficientes. Além disso, a inferência estatística usual (estatísticas t e F ) não são mais válidas, de forma que se devem ser construídas estatísticas heterocedásticas-robustas, a partir da matriz de variância de ˆβ robusta à heterocedasticidade. 3. Comente a assertiva: no contexto do modelo de regressão linear clássico, é válido afirmar que a consistência de ˆβ é uma propriedade de mais fácil vigência em comparação à propriedade de ausência de viés de ˆβ. Partindo-se do modelo de regressão linear y i = x i β +ɛ i, para a ausência de viés de ˆβ, é preciso que E(ɛ x) = 0; para a consistência de ˆβ, requer-se que E(xɛ) = 0. Como visto ao longo do curso, a lei das expectativas iteradas implica que, supondo E(ɛ x) = 0: E(xɛ) = E[E(xɛ x)] = E[xE(ɛ x)] = E(x.0) = 0 Portanto, uma vez que a condição para a inexistência de viés do estimador de MQO (E(ɛ x) = 0) implica na condição para a sua consistência, percebe-se que esta última sempre valerá quando a primeira se aplica, além de casos em que E(xɛ) = 0, mas em que E(ɛ x) 0. Portanto, a consistência é uma propriedade mais fraca em comparação à ausência de viés. 4. (ANPEC - 2010) Responda se verdadeiro ou falso: 7
(1) O Teorema Central do Limite justifica a afirmação: Seja T uma variável aleatória, tal que T t k 1, em que t representa uma distribuição t de Student, com k 1 graus de liberdade, em que k é fixo. Então T converge em distribuição para uma Normal Padrão. (2) Sejam s 2 1 = i (x i x) 2 /n e s 2 2 = i (x i x) 2 /(n 1). Ambos estimadores podem ser demonstrados consistentes para σ 2, supondo uma amostra aleatória de X N(µ, σ 2 ). 5. (ANPEC - 2010) Responda se verdadeiro ou falso: (0) Considere dois estimadores não tendenciosos, ˆθ 1 e ˆθ 2, de um parâmetro θ. ˆθ1 é eficiente relativamente a ˆθ 2 se V ar(ˆθ 1 ) < V ar(ˆθ 2 ). (1) Um estimador ˆθ de um parâmetro θ é consistente se ˆθ converge em probabilidade para θ. (2) Um estimador ˆθ de um parâmetro θ é consistente se, e somente se, ˆθ é não viesado e a variância de ˆθ converge a 0 à medida que o tamanho da amostra tende ao infinito. (4) Supondo que X 1, X 2,..., X n sejam variáveis aleatórias independentes e identicamente distribuídas e que X i P oisson(λ). Seja X = i X i/n. À medida que n, (X λ)/ λ/n aproxima-se de uma distribuição normal padrão. 6. (ANPEC - 2012) Usando uma base de dados que têm informação de 65.535 trabalhadores, queremos verificar se existe desigualdade salarial entre os setores da economia. Consideremos que a economia está dividida em 4 setores: indústria, comércio, serviços e construção. Cada um dos trabalhadores está em um dos quatro setores e eles são mutuamente exclusivos. Seja o salário mensal do trabalhador i e definimos para cada setor uma variável binária que é igual a 1 se o trabalhador está em determinado setor e 0 caso contrário. Estimando um modelo linear de regressão, obtemos o seguinte resultado: Ŷ i = 4, 00 + 0, 12educ i + 0, 03idade i + 0, 40Homem i 0, 05DI i 0, 15DC i 0, 25DCons i 8
(0, 02)(0, 008)(0, 0001)(0, 0005)(0, 001)(0, 003)(0, 005) R 2 = 0, 83 em que educ representa o número de anos de estudos de cada trabalhador, idade é medida em anos, Homem é uma variável binária que assume valor igual a 1 se i é homem e 0 caso contrário, DI representa a dummy para indústria, DC para o comércio e DCons para o setor de construção. Entre parênteses encontra-se o erro padrão. (Para a resolução desta questão talvez lhe seja útil saber que se Z tem distribuição normal padrão, então P ( Z > 1, 645) = 0, 10 e P ( Z > 1, 96) = 0, 05.) Baseado nas informações acima julgue as seguintes afirmativas: (0) Com base nos resultados acima, é possível rejeitar ao nível de 5% de significância a hipótese nula de que o salário do setor da indústria é igual ao salário do setor de serviços para trabalhadores com o mesmo nível educacional, a mesma idade e do mesmo sexo. A hipótese alternativa é que os salários nestes setores sejam diferentes. (1) Com base nos resultados acima, é possível rejeitar ao nível de 5% de significância a hipótese nula de que o salário no setor de construção é igual ao salário no setor de comércio, mantendo educação, idade e sexo fixos. A hipótese alternativa é que os salários nestes setores sejam diferentes. (2) Com base nos resultados acima, é possível rejeitar ao nível de 5% de significância a hipótese nula de que o salário nos 4 setores da economia são iguais, mantendo constante educação, idade e sexo. (3) Os resultados do modelo acima permitem testar a hipótese de que o retorno salarial entre homem e mulher é diferente para cada nível educacional, ao nível de 5% de significância. (4) Com base nos resultados acima, podemos testar a hipótese de que o intercepto do modelo linear de salário em função da educação, idade e setor para homem é diferente do intercepto do mesmo modelo linear de salário para mulher. 9
7. (ANPEC - 2015) Considere o modelo de regressão linear simples: y i = β 0 + β 1 x i + u i, i = 1,..., n em que E[u i x i ] = 0 e V ar[u i x i ] = σ 2. Considere os seguintes estimadores de β 1 : n i=1 ˆβ 1 = (x i x)(y i ) n i=1 (x i x)x i e β n i=1 1 = x iy i, em que x = n 1 n i=1 x i. n i=1 x2 i É correto afirmar que: (1) Se β 0 = 0, β1 é um estimador consistente de β 1 ; (2) Se β 0 = 0, ˆβ1 não é um estimador consistente de β 1 ; 8. (ANPEC - 2015) O governo gostaria de estimar o efeito do Programa Saúde da Família sobre a taxa de internação por difteria das crianças entre 0 e 4 anos de idade. Para isso, ele gostaria de estimar o seguinte modelo de regressão: Y i = β 0 + β 1 X i + ɛ i no qual Y i é a taxa de internação do município i, X i é uma variável binária que é igual a 1, se o município i participa do programa, e 0, caso contrário. Usando os dados para o Brasil em 2013, temos os seguintes resultados: Y 1 = 85, Y 0 = 65. Neste caso, Y 1 é a média da taxa de internação para os municípios que participaram do Programa e Y 0 é a média da taxa de internação para os municípios que não participaram do Programa. Além disso, 70% dos municípios brasileiros participam do Programa Saúde da Família. Você estima o modelo acima por Mínimos Quadrados Ordinários. Qual o valor obtido para o coeficiente associado a X i? Resposta: 20. 10
9. (ANPEC - 2017) Sejam X 1, X 2,..., X n variáveis aleatórias independentes com distribuição Normal (µ,σ 2 ), em que µ e σ 2 são desconhecidos e σ 2 > 0. Podemos definir também X = 1 n n i=1 X i e S 2 = 1 n 1 n i=1 (X i X) 2. Podemos afirmar: (0) S 2 é um estimador não tendencioso de σ 2 ; (1) A variância de X é igual a σ2 n ; (2) S 2 é um estimador não tendencioso para a variância de X; (3) S 2 é um estimador consistente de σ 2 ; (4) X é um estimador consistente de µ. 10. (ANPEC - 2017) Considere o modelo de regressão linear: y i = β 0 + β 1 x 1i + β 2 x 2i + u i, i = 1,..., n, em que E(u i x 1i, x 2i ) = 0. (0) A hipótese E(u i x 1i, x 2i ) = 0 não é necessária para que o estimador de Mínimos Quadrados Ordinários (MQO) de β 1 seja consistente. (1) Se V ar(u i x 1i, x 2i ) = σ 2, o estimador de MQO de β 1 tem distribuição normal. (2) Se V ar(u i x 1i, x 2i ) = x 1i σ 2, o estimador de MQO de β 1 é tendencioso. (3) Se a correlação entre x 1i e x 2i é igual a 0,95, o estimador de MQO de β 1 não é eficiente. (4) Suponha que os parâmetros do modelo tenham sido estimados por MQO. Se V ar(u i x 1i, x 2i ) = x 1i σ 2, a estatística t não é válida para testar a significância dos parâmetros do modelo. 11