Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy) 1
Como descrever informações qualitativas? Fatores qualitativos podem ser incorporados a modelos de regressão. Neste caso, classificamos os dados conforme algumas características qualitativas. Exemplos: ser homem ou ser mulher; ser branco ou negro; morar no Rio ou em Niterói... etc. Estas variáveis qualitativas podem ser regressores ou variáveis dependentes. Existem formas de incorporá-las ao modelo econométrico. 2
Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de uma variável binária (variável zero-um) Definição de uma dummy: identificar o evento que assumirá o valor um e o evento que assumirá o valor zero. É sempre bom denominar a variável pelo evento que é igual a um: Ser homem é igual a 1 chamar a variável de homem 3
Variáveis binárias ou dummy Como fica o banco de dados? 4
Exemplo: com uma variável binária Somente dois fatores afetam os salários: gênero e escolaridade Qual a diferença entre o salário hora do homem e da mulher, dado o mesmo nível educacional? 5
6
Exemplo 2: Se educação, experiência e permanência foram características relevantes para a produtividade, a hipótese nula para não existência de diferença entre homens e mulheres seria: H o : δ = 0 0 A alternativa seria que existe discriminação contra mulheres: H o : δ0 < 0 7
Banco de dados: wage1.gdt Rode o modelo acima Quanto a mulher ganha, em média, a menos que o homem? Rode o mesmo modelo acima, mas excluindo todos controles com exceção da dummy feminino. Qual o salário hora médio dos homens? O que é o intercepto? Teste de comparação das médias 8
Banco de dados: GPA1.gdt Efeitos de se possuir computadores na avaliação de cursos superiores PC = 1 se o aluno tem computador em casa. hsgpa: nota no final do ensino médio ACT: nota do exame vestibular Qual o efeito sobre a nota média final prevista no curso superior? O que acontece com o efeito se retirar hsgpa e ACT? Interprete o significado do coeficiente de PC. Defina uma variável sempc e inclua acima excluindo PC. O que acontece com o intercepto na equação estimada? Qual o coeficiente de sempc? 9
Avaliação de políticas Qual efeito de um programa econômico ou social sobre os indivíduos, empresas, etc... Dois grupos de estudo: Grupo de controle: não participa do programa Grupo de tratamento: participa do programa Escolha dos grupos de controle e tratamento não é aleatória. 10
Avaliação de políticas Definição do grupo de controle e tratamento: Grupo de Tratamento: pessoas (do público- alvo) que serão atendidas pelo projeto. Grupo de Controle: pessoas com características similares, mas que não serão atendidas pelo projeto. 11
Banco de dados. JTRAIN.GDT Efeitos da concessão de subsídios sobre as horas de treinamento Dados de 1988 indústrias de Michigan hrsemp: horas de treinamento por empregado no nível da empresa. Subs = 1 se a indústria recebeu subsídio 12
Variável dependente na forma log Regressão dos preços dos imóveis Banco de dados Hprice1.gdt Dummy colonial: igual a 1 se o imóvel tiver estilo colonial. Qual a sua interpretação? 13
Reestimar o exemplo 2 Use log(salário hora) Inclua termos quadráticos para experiência e tempo de permanência. Quanto as mulheres ganham a menos que os homens? Qual a diferença percentual exata entre homens e mulheres? 14
15
Reestimar o exemplo 2 0,297) exp( / 0,297) exp( )) / exp(log( 0,297 ) / log( 0,297 ) log( ) log( = = = = salarioh salariom salarioh salariom salarioh salariom salarioh salariom 16 0,257 1 0,297) exp( 1 0,297) exp( / = = = = salarioh salarioh salariom salarioh salariom salarioh salarioh salariom salarioh salariom
Dummies para múltiplas categorias Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário, secundário e terciário da economia. Para compará-los, inclua 2 variáveis dummies: prim = 1 se a pessoa trabalha no setor primário e = 0 caso contrário; e sec = 1 se ela trabalha no setor secundário e = 0 caso contrário. 17
Dummies para múltiplas categorias Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário, secundário e terciário da economia. Para compará-los, inclua 2 variáveis dummies: prim = 1 se a pessoa trabalha no setor primário e = 0 caso contrário; e sec = 1 se ela trabalha no setor secundário e = 0 caso contrário. 18
Categorias múltiplas (cont.) Qualquer variável expressa em categorias pode ser transformada em uma variável dummy. Como o caso base é representado pelo intercepto, se há n categorias, devem haver n 1 dummies. Se há muitas categorias, pode-se agrupar algumas delas. 19
Exemplo: Equação do log salário hora Modelo que considere as diferenças salariais entre quatro grupos: Homens casados (marrmale) Homens solteiros (grupo base) Mulheres casadas (marrfem) Mulheres solteiras (singfem) O prêmio por ser casado não é o mesmo para homens e mulheres!!! 20
Exemplo: Equação do log salário hora Lembre do grupo base!!!! As estimativas das três variáveis medem a diferença proporcional nos salários relativamente aos homens solteiros. 21
Exemplo: Equação do log salário hora Os homens casados ganham cerca de 21,3% mais que os homens solteiros. Uma mulher casada deve ganhar 19,8% a menos que um homem solteiro. Diferença proporcional estimada entre as mulheres solteiras e as casadas é (-0,110-(-0,198)) = 0,088. Mulheres solteiras ganham 8,8% a mais que as mulheres casadas. 22
Interação entre dummies Interagir dummies é como subdividir o grupo. Exemplo: ter dummies para homens assim como para prim e sec. Adicione homem*prim e homem*sec, para um total de 5 dummies e 6 categorias. O caso base é: mulher no terciário. prim é para mulheres no setor primário e sec é para mulheres no setor secundário. As interações refletem homens no primário e homens no secundário. 23
Mais sobre dummies de interação Formalmente, o modelo é y = β 0 + δ 1 homem + δ 2 prim + δ 3 sec + δ 4 homem*prim + δ 5 homem*sec + β 1 x + u. Então, por exemplo: Se homem = 0, prim = 0 e sec = 0: y = β 0 + β 1 x + u Se homem = 0, prim = 1 e sec = 0: y = β 0 + δ 2 prim + β 1 x + u Se homem = 1, prim = 0 e sec = 1: y = β 0 + δ 1 homem + δ 3 prim + δ 5 homem*sec + β 1 x + u 24
Exemplo: Outra forma de encontramos diferencias de salário entre homens casados, homens solteiros, mulheres casadas e mulheres solteiras. 25
Outras interações com dummies Podemos também interagir uma dummy, d, com uma variável contínua, x: y = β 0 + δ 1 d + β 1 x + δ 2 d*x + u. Se d = 0, então y = β 0 + β 1 x + u. Se d = 1, então y = (β 0 + δ 1 ) + (β 1 + δ 2 ) x + u. Temos uma mudança na inclinação. 26
Exemplo de δ 0 > 0 e δ 1 < 0 y y = β 0 +β 1 x d = 0 d = 1 y = (β 0 + δ 0 ) + (β 1 + δ 1 ) x x 27
Exemplo: Queremos verificar se o retorno da educação é o mesmo para homens e mulheres: δ o mede a diferença nos interceptos entre homens e mulheres δ 1 mede a diferença no retorno da educação entre homens e mulheres. interação 28
29
O retorno estimado da educação dos homens é 8,2%. Para as mulheres, o retorno é 0,082-0,0056 = 0,0764 (7,6%). Esta diferença de retorno é pouco significativa. Logo, não podemos rejeitar a hipótese nula de que o retorno para homens e mulheres é igual. 30
Teste para diferenças entre grupos Testar se uma função de regressão é diferente para um grupo em relação a outro pode ser pensado simplesmente como um teste para a significância conjunta da dummy e suas interações com todas as outras variáveis x. A hipótese nula é que os modelos não são diferentes para os grupos. Então, estimam-se os modelos com e sem todas as interações e calcula-se a estatística F. Mas quando há muitas interações, há um procedimento mais fácil. 31
Teste para diferenças entre grupos Suponha que temos dois grupos e queremos testar se interceptos e inclinações são diferentes para estes dois grupos: y = β g, 0 + β g,1. x1 + β g,2. x2 + β g,3. x3 +... + β g, k. xk + u Temos k+1 restrições. 32
O teste de Chow É possível calcular a estatística F sem estimarmos o modelo irrestrito completo. Estima-se o SQR do modelo irrestrito, estimando o modelo para cada grupo: obtenha a SQR 1 ; depois, faça o mesmo para o outro grupo e obtenha a SQR 2: Estima-se o modelo restrito considerando todos os grupos juntos e obtenha a SQR. Então: F = [ SQR ( SQR + SQR )] [ n 2( k + 1) ] SQR 1 + 1 SQR 2 2 k + 1 33
O teste de Chow (cont.) O teste de Chow é apenas um teste F usual de exclusão de variáveis, se você observar que SQR ir = SQR 1 + SQR 2. Observe que há k + 1 restrições (cada uma das inclinações e o intercepto). Observe que o modelo irrestrito estimaria dois diferentes interceptos e duas inclinações diferentes, logo temos n 2k 2 graus de liberdade no denominador. 34
Modelo de Probabilidade Linear Regressão múltipla para explicar um evento qualitativo. y é 0 ou 1. 35