CE071 - Análise de Regressão Linear

Documentos relacionados
MRLM COM COVARIÁVEIS CATEGÓRICAS. criar uma variável dummy para representar uma categoria da variável. variável dummy: assume só dois valores: 0 ou 1

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

Quiz Econometria I versão 1

Análise Multivariada Aplicada à Contabilidade

Métodos Quantitativos para Avaliação de Políticas Públicas

REGRESSÃO E CORRELAÇÃO

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ) Cinthia Zamin Cavassola (GRR ) Luiza Hoffelder da Costa (GRR )

Introdução ao modelo de Regressão Linear

Análise de Dados Longitudinais Aula

Atitudes: Valoração da importância da representação gráfica na resolução de problemas em situações geométricas.

Métodos Numéricos - Notas de Aula

Multicolinariedade e Autocorrelação

CÁLCULO I. 1 Número Reais. Objetivos da Aula

Modelos de Regressão Linear Simples - parte I

Comparando equações de regressão em dados de saúde

AULAS 14 E 15 Modelo de regressão simples

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Aula 2 Tópicos em Econometria I. Porque estudar econometria? Causalidade! Modelo de RLM Hipóteses

Ralph S. Silva

Disciplina de Modelos Lineares

Agenda do Dia Aula 14 (19/10/15) Sistemas Lineares: Introdução Classificação

Notações e revisão de álgebra linear

Análise de Regressão EST036

CE071 - Análise de Regressão Linear

Aula Prática 1. Uso do R com exemplos Adaptação: Flávia Landim/UFRJ

ESPAÇO VETORIAL REAL. b) Em relação à multiplicação: (ab) v = a(bv) (a + b) v = av + bv a (u + v ) = au + av 1u = u, para u, v V e a, b R

Princípios em Planejamento e Análise de Dados Ecológicos. Regressão linear. Camila de Toledo Castanho

AULAS 28 E 29 Análise de Regressão Múltipla com Informações Qualitativas

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

AULA 8 - MQO em regressão múltipla:

Com o auxílio do software vamos verificar se os pontos A(4, 7) e B(3, 5) pertencem à reta r do exemplo acima. Procedimentos para o uso do Winplot:

Renato Martins Assunção

Planejamento de Experimentos

Correlação e Regressão

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

Modelos de Regressão Linear Simples - parte II

Análise de Dados Categóricos

Álgebra Linear e Geometria Analítica Bacharelados e Engenharias Parte I - Matrizes

AULA 17 - Variáveis binárias

a 11 a a 1n a 21 a a 2n A = a m1 a m2... a mn

Correlação e Regressão

Estatística Aplicada ao Serviço Social

Aula 25 - Espaços Vetoriais

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Disciplina de Modelos Lineares Professora Ariane Ferreira

Material Teórico - Sistemas Lineares e Geometria Anaĺıtica. Sistemas com três variáveis - Parte 1. Terceiro Ano do Ensino Médio

AULA 09 Análise de regressão múltipla com informações qualitativas

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Análise de Regressão - parte I

(x 1, y 1 ) (x 2, y 2 ) = (x 1 x 2, y 1 y 2 ); e α (x, y) = (x α, y α ), α R.

CAPíTULO 1. Vetores e tensores Notação indicial

GABARITO PSUB Questão Resposta 1 A 2 A 3 E 4 D 5 A 6 B 7 A 8 A 9 C 10 E 11 C 12 C 13 B 14 C 15 A 16 D

Estudar a relação entre duas variáveis quantitativas.

EXERCÍCIOS DE RECORDAÇÃO DE ALGORITMOS

Formação Continuada Nova EJA. Plano de Ação das unidades 29 e 30 (Módulo 3)

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Seleção de Variáveis e Construindo o Modelo

Modelos de Regressão Múltipla - Parte VIII

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Álgebra Linear I - Aula 10. Roteiro

P2 de Álgebra Linear I Data: 10 de outubro de Gabarito

Geometria Analítica e Álgebra Linear

GEOMETRIA ANALI TICA PONTO MEDIANA E BARICENTRO PLANO CARTESIANO DISTÂNCIA ENTRE DOIS PONTOS CONDIÇÃO DE ALINHAMENTO DE TRÊS PONTOS

ALGEBRA LINEAR 1 RESUMO E EXERCÍCIOS* P1

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

AULAS 14 E 15 Modelo de regressão simples

Planejamento de Experimentos

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) EXPERIMENTOS COM DOIS FATORES E O PLANEJAMENTO FATORIAL

Métodos iterativos para sistemas lineares.

Álgebra Linear I - Aula 9. Roteiro

i j i i Y X X X i j i i i

MAT 112 Vetores e Geometria. Prova SUB C

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Determinante de uma matriz quadrada

SISTEMAS LINEARES PROF. EDÉZIO

ÁLGEBRA LINEAR SISTEMAS DE EQUAÇÕES LINEARES

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

PARECER DOS RECURSOS

Aula 5 - Produto Vetorial

1. Conhecendo-se somente os produtos AB e AC, calcule A = X 2 = 2X. 3. Mostre que se A e B são matrizes que comutam com a matriz M = 1 0

Modelos de Regressão Linear Simples parte I

Transcrição:

CE071 - Análise de Regressão Linear Cesar Augusto Taconeli 30 de maio, 2018 Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 1 / 21

Aula 7 - Regressão linear com covariáveis categóricas Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 2 / 21

Introdução Neste módulo vamos tratar da inclusão de covariáveis categóricas (fatores) em modelos de regressão. Alguns exemplos de covariáveis categóricas: Sexo (masculino ou feminino); Estação do ano (primavera, verão, outono ou inverno); Categoria de cliente de banco (platinum, gold, silver,... ); Escolaridade (sem escolaridade, ensino primário, ensino secundário,... ). A forma usual de incorporar covariáveis categóricas a um modelo de regressão é através de variáveis indicadoras (variáveis dummy). Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 3 / 21

Regressão linear com covariáveis categóricas Considere uma covariável categórica (fator) com dois níveis, A e B; A inclusão dessa covariável ao modelo de regressão requer a incorporação de uma única variável indicadora: x = { 0 se categoria A 1, se categoria B (1) Supondo que essa seja a unica covariável na análise, o modelo de regressão linear ficaria dado por: y = β 0 + β 1 x + ɛ (2) Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 4 / 21

Regressão linear com covariáveis categóricas Sob as suposições de uma regressão linear temos que: { β0 se categoria A E(y x) = β 0 + β 1 se categoria B (3) Desta forma, β 0 corresponde à média de y para indivíduos da categoria A; Ainda, β 1 corresponde à diferença na média de y dos indivíduos da categoria B para os indivíduos da categoria A. Se no modelo houver outras covariáveis (categóricas ou numéricas), então β 0 será a média de y quando todas as variáveis do modelo forem zero e a interpretação de β 1 se mantém, mas mantendo fixos os valores das demais covariáveis. Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 5 / 21

Regressão linear com covariáveis categóricas Por que não adicionar ao modelo uma variável indicadora para cada categoria da covariável? Seja x 1 a variável indicadora referente à categoria A e x 2 a variável indicadora referente a B; A matriz do modelo ficaria da seguinte forma: 1 1 0 1 1 0 1 1 0 X =... 1 0 1 1 0 1 1 0 1 (4) Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 6 / 21

Regressão linear com covariáveis categóricas Ao inserir uma variável indicadora para cada categoria da covariável, a soma da segunda e da terceira coluna de X seria igual à primeira coluna (vetor de uns); Desta forma a matriz X não teria rank completo, de forma que haveria infinitas soluções para as equações de mínimos quadrados (os parâmetros do modelo não seriam identificáveis); Como a matriz do modelo não tem rank completo, a solução seria excluir uma de suas colunas (o intercepto ou uma das indicadoras das categorias de x). Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 7 / 21

Regressão linear com covariáveis categóricas Considere agora que a covariável categórica (fator) tenha k níveis (A 1, A 2,..., A k ). Se incluíssemos no modelo k variáveis indicadoras, então novamente a soma dessas variáveis resultaria num vetor de uns (dependência linear, matriz X de rank incompleto); x 1 = Uma solução seria excluir da matriz do modelo uma das variáveis indicadoras (a categoria correspondente fica sendo a categoria de referência); Sejam: { { { 1 se categoria A2 1 se categoria A3 1 se categoria Ak, x 0 se outra 2 =,..., x 0 se outra k 1 = 0 se outra Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 8 / 21

Regressão linear com covariáveis categóricas Considerando que não haja outras covariáveis no modelo: E(y x) = β 0 se categoria A 1 β 0 + β 1 se categoria A 2 β 0 + β 2 se categoria A 3. β 0 + β k 1 se categoria A k (5) Neste caso β 0 é a média de y para a categoria de referência (A 1 ); β j é a diferença na média de y da categoria A j+1 para a categoria A 1, para j = 1, 2,..., k 1; β j β l é a diferença na média de y da categoria A j para a categoria A l (j, l {1, 2,..., k 1}; j l). Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 9 / 21

Regressão linear com covariáveis categóricas Se o modelo tiver ainda outras covariáveis, então: β 0 é a média de y quando todas as variáveis do modelo forem zero; Os demais β s associados a essa covariável correspondem à diferença na média de y da categoria A j para a categoria A 1, para j 1, considerando fixos os valores das demais variáveis; β j β l é a diferença na média de y em duas categorias da covariável (digamos A j e A l (j, l {1, 2,..., k 1}; j l) considerando fixos os valores das demais variáveis. Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 10 / 21

Regressão linear com covariáveis categóricas A categoria A 1 a ser designada como referência fica a critério do analista; Independente da escolha, o modelo ajustado é o mesmo, apenas as interpretações dos parâmetros mudam; No R, se você não especificar a categoria de referência, por default ele utiliza o primeiro nível do fator; Há outras formas de incorporar variáveis categóricas a modelos de regressão. Cuidado ao usar outros softwares, consulte sempre a documentação! Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 11 / 21

Regressão linear com covariáveis categóricas e quantitativas Vamos considerar um modelo de regressão com uma variável quantitativa (x) e uma variável categórica com k níveis. Para simplificar a notação, vamos considerar D 2, D 3,..., D k as variáveis indicadoras para os níveis 2, 3,..., k da variável categórica. Um primeiro modelo a ser considerado é o de efeitos aditivos (sem interação), em que: y i = β 0 + β 1 x i1 + β 2 d i2 + β 3 d i3 +... + β k d ik + ɛ i, (6) em que d ij = 1, se o indivíduo pertence à categoria j, e d ij = 0, caso contrário. Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 12 / 21

Regressão linear com covariáveis categóricas e quantitativas Para modelos com variáveis categóricas e quantitativas é sempre útil escrever a equação do modelo para cada nível da variável categórica. O modelo de regressão com efeitos aditivos pode ser expresso, para cada nível da covariável categórica, por: β 0 + β 1 x 1 se categoria A 1 (β 0 + β 2 ) + β 1 x 1 se categoria A 2 E(y x) = (β 0 + β 3 ) + β 1 x 1 se categoria A 3. (β 0 + β k ) + β 1 x 1 se categoria A k (7) Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 13 / 21

Regressão linear com covariáveis categóricas e quantitativas Observe que para o modelo aditivo, as retas de regressão para os k níveis da variável categórica apresentam somente interceptos diferentes. As inclinações são as mesmas. Para o modelo com efeitos aditivos, β j corresponde à diferença na média de y da categoria j para a categoria 1 (referência) da covariável categórica, fixado o valor de x 1. Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 14 / 21

Regressão linear com covariáveis categóricas e quantitativas O modelo com efeitos multiplicativos (com interação), por sua vez, é definido por: y i = β 0 + β 1 x i1 + β 2 d i2 +... + β k d ik + β k+1 d i2 x i1 +... + β p d ik x i1 + ɛ i, podendo se expresso, para cada nível da covariável categórica, por: β 0 + β 1 x 1 se categoria A 1 (β 0 + β 2 ) + (β 1 + β k+1 )x 1 se categoria A 2 E(y x) = (β 0 + β 3 ) + (β 1 + β k+2 )x 1 se categoria A 3. (β 0 + β k ) + (β 1 + β p )x 1 se categoria A k (8) Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 15 / 21

Regressão linear com covariáveis categóricas e quantitativas Observe que para o modelo com efeitos multiplicativos as retas de regressão têm interceptos e inclinações diferentes para cada nível da variável categórica. Para o modelo com efeitos multiplicativos, β 2, β 3,..., β k expressam as diferenças de intercepto das retas de regressão para os níveis 2, 3,.., k da variável categórica em relação ao intercepto para o nível de referência; Já β k+1, β k+2,..., β p expressam as diferenças das inclinações das retas de regressão para os níveis 2, 3,.., k da variável categórica em relação à inclinação para o nível de referência. Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 16 / 21

Regressão linear com covariáveis categóricas e quantitativas Outra forma de explorar os efeitos das covariáveis em modelos contendo covariáveis categóricas e quantitativas é através de gráficos de efeitos; Para avaliar o efeito de uma covariável quantitativa x 1, plota-se o gráfico da estimativa de E(y x) ao longo de x 1, separado para cada nível da covariável categórica; Se houver mais covariáveis no modelo, elas podem ser fixadas em valores típicos (por exemplo em suas médias). Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 17 / 21

Regressão linear com covariáveis categóricas e quantitativas A seleção de modelos quando se tem efeito de interação deve obedecer ao princípio hierárquico; Basicamente, para um modelo ajustado com preditor x1 + x2 + x1:x2, em que x1:x2 representa o termo de interação, não se deve remover os termos de menor ordem (x1 e x2) na presença do termo de maior ordem x1:x2; Vamos considerar novamente que x 1 é uma covariável quantitativa e x 2 uma covariável categórica com k níveis; Pode-se proceder a seleção de modelos com base na seguinte sequência de modelos encaixados: Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 18 / 21

Regressão linear com covariáveis categóricas e quantitativas Modelo nulo: sem efeito de covariáveis (y ~ 1); Modelo de retas coincidentes: sem efeito da covariável categórica (y ~ x1); Modelo de retas paralelas: modelo de efeitos aditivos, sem interação (y ~ x1 + x2); Modelo de retas concorrentes: modelo de efeitos multiplicativos, com interação (y ~ x1 * x2). Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 19 / 21

Regressão linear com covariáveis categóricas e quantitativas 2 0 2 0.00 0.25 0.50 0.75 1.00 x y A B Não efeito 1.0 0.5 0.0 0.5 1.0 1.5 0.00 0.25 0.50 0.75 1.00 x y Retas coincidentes 0 1 2 3 4 0.00 0.25 0.50 0.75 1.00 x y Retas paralelas 0 1 2 3 0.00 0.25 0.50 0.75 1.00 x y Retas concorrentes Figura 1: Ilustração para os cenários correspondentes aos quatro modelos incluindo uma covariável quantitativa e outra categórica Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 20 / 21

Regressão linear com covariáveis categóricas e quantitativas Como os quatro modelos sugeridos são encaixados, podemos compará-los, sequencialmente, usando o teste F baseado na variação da soma de quadrados de resíduos; Caso se disponha de mais covariáveis para análise, pode-se aplicar algum algoritmo de seleção de covariáveis. Além disso, interações entre outras covariáveis podem ser consideradas; Outra possibilidade é avaliar modelos em que as retas de regressão são paralelas ou coincidentes apenas para algum subconjunto dos níveis da variável categórica; Como exemplo poderíamos ter retas de mesma inclinação descrevendo a relação entre índice de massa corporal e consumo calórico para adultos e idosos, mas de menor inclinação para a população de crianças. Cesar Augusto Taconeli CE071 - Análise de Regressão Linear 30 de maio, 2018 21 / 21