Transformações e Ponderação para corrigir violações do modelo

Documentos relacionados
Aula 2 Uma breve revisão sobre modelos lineares

TRANSFORMAÇÕES. 1 Tornar comparáveis descritores medidos em diferentes unidades

Modelo de Regressão Múltipla

Modelos de Regressão Múltipla - Parte VI

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Correlação e Regressão

Modelos de Análise de Variância

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Associação entre duas variáveis

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Introdução aos Modelos Lineares em Ecologia

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Análise de Regressão Linear Simples e

Análise de regressão linear simples. Diagrama de dispersão

Instituto Federal Goiano

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

Modelos Lineares Generalizados - Introdução

Modelos Lineares Generalizados - Introdução

Análise Multivariada Aplicada à Contabilidade

Análise de dados em Geociências

Noções sobre Regressão

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Modelos de Regressão Linear Simples - parte II

CONHECIMENTOS ESPECÍFICOS

Modelos de Regressão Linear Simples - parte III

Métodos Quantitativos Aplicados

Gráficos de Controle para Variáveis

AULA 11 Heteroscedasticidade

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

Métodos Quantitativos para Avaliação de Políticas Públicas

Técnicas computacionais em probabilidade e estatística II

Teste de Homocedasticidade.

Análise de Regressão EST036

Correlação e Regressão

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Introdução Regressão linear Regressão de dados independentes Regressão não linear. Regressão. Susana Barbosa

AULAS 14 E 15 Modelo de regressão simples

CONHECIMENTOS ESPECÍFICOS

Regressão Linear Simples

Análise de Regressão Linear Múltipla III

Regressão linear simples

Estudar a relação entre duas variáveis quantitativas.

PROCEDIMENTO PARA A ESCOLHA DE UMA DISTRIBUIÇÃO

Multicolinariedade e Autocorrelação

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

Inferência para CS Tópico 10 - Princípios de Estimação Pontual

AULAS 25 E 26 Heteroscedasticidade

AULAS 14 E 15 Modelo de regressão simples

9 Regressão linear simples

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Aula 2 Tópicos em Econometria I. Porque estudar econometria? Causalidade! Modelo de RLM Hipóteses

Seleção de Variáveis e Construindo o Modelo

Coeficiente de determinação R 2 no modelo de regressão linear normal

A Metodologia de Box & Jenkins

Análise de Dados Categóricos

CAPÍTULO 10 REGRESSÃO LINEAR MÚLTIPLA REGRESSÃO LINEAR MÚLTIPLA PPGEP

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Regressões: Simples e MúltiplaM. Prof. Dr. Luiz Paulo Fávero 1

Metodologia de Box-Jenkins. Metodologia de Box-Jenkins. Metodologia de Box-Jenkins

Regressão Linear - Parte I

p( y θ ) depende de um parâmetro desconhecido θ.

Modelos Lineares Generalizados - Análise de Resíduos

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Associação entre duas variáveis

Exercícios Selecionados de Econometria para Concursos Públicos

Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear

CONHECIMENTOS ESPECÍFICOS

Análise de Dados Longitudinais Aula

Define-se o regressor,ϕ,como. e o vector de parâmetros a estimar, θ,como. O modelo escreve-se:

CONHECIMENTOS ESPECÍFICOS

4 Modelos Lineares Generalizados

Correlação Serial e Heterocedasticidade em Regressões de Séries Temporais. Wooldridge, Cap. 12

Revisão do MRLM - Análise "Cross-Section"

Modelos de Regressão Múltipla - Parte I

Modelos de Regressão Múltipla - Parte VIII

CONHECIMENTOS ESPECÍFICOS

Homocedasticidade? Exemplo: consumo vs peso de automóveis

Modelos Lineares Generalizados - Análise de Resíduos

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ

ANÁLISE DE VARIÂNCIA. y j = µ + τ i + e i j = µ i + e i j

Correlação e Regressão Linear

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

INTRODUÇÃO A MODELOS MISTOS

M l u t l i t c i oli l n i e n arid i a d de

UNIVERSIDADE DE SÃO PAULO ESCOLA SUPERIOR DE AGRICULTURA LUIZ DE QUEIROZ DEPARTAMENTO DE CIÊNCIAS EXATAS

Modelos de Regressão Múltipla - Parte VII

Interpolação. Interpolação. Padrões de amostragem. Autocorrelação. Padrões de amostragem. Padrões de amostragem

Ralph S. Silva

ANÁLISE DISCRIMINANTE

Análise de Resíduos. investiga características que comprometem a validade do MRLS:

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA GRR DENNIS LEÃO GRR LUAN FIORENTIN GRR

Prof. Lorí Viali, Dr.

Econometria em Finanças e Atuária

Transcrição:

Transformações e Ponderação para corrigir violações do modelo

Diagnóstico na análise de regressão Relembrando suposições Os erros do modelo tem média zero e variância constante. Os erros do modelo tem distribuição normal. A forma paramétrica estabelecida para o modelo está correta.

Algumas medidas para contornar problemas do modelo de regressão Modelo de regressão linear simples não é adequado Usar um modelo apropriado Usar transformações Não linearidade do modelo de regressão Mudar o modelo E( Y ) E( Y ) = β β 0 E( Y ) = Usar transformação = Variâncias heterogêneas β β0 + β exp( β X 0 + β X X (Exponencial) (logístico) 2 i ) + β X Usar o método de mínimos quadrados ponderados para estimar os parâmetros Usar transformação 2 2

Algumas medidas para contornar problemas do modelo de regressão Falta de normalidade A falta de normalidade geralmente vem junto com falta de homogeneidade de variâncias. Frequentemente, a mesma transformação estabiliza a variância e aproxima para normalidade, portanto, primeiro usar uma transformação para estabilizar a variância (será visto na próxima seção). Omissão de variável preditora importante Modificar o modelo de regressão múltipla Outliers Usar procedimentos de estimação robustos (método dos mínimos quadrados reponderados iterativamente), pois os métodos de mínimos quadrados e máxima verossimilhança produzem estimativas distorcidas.

Transformações para linearizar o modelo Ocasionalmente dectecta-se a suposição de linearidade é violada. Como: diagramas de dispersão gráfico dos resíduos (gráfico de regressão parcial) experiência a priori (não usual). No caso de experência a priori, a função não linear pode ser linearizada. Esses modelos são chamados de intrisicamente linear.

Transformações para linearizar Transformação da variável Y ou da variável preditora X, ou de ambas, frequentemente é suficiente para tornar o modelo de regressão linear simples apropriado para os dados transformados. Padrões de relação entre X e Y Modelo Transformação y = β 0 + β log x x = log x y y = β e 0 = ln y β x Forma linear y = β + 0 0 β x y = ln β + β x 0

Exemplo: Transformação nos regressores Uma pesquisadora estava interessada em estudar o comportamento do ph de tomates Chronos (Y), inteiros minimamente processados, submetidos ao tratamento vácuo, durante 22 dias de estocagem (X), a uma temperatura média de 8 o C e umidade relativa de 62,78%. Condições aproximadamente satisfeitas: Diagrama de dispersão dos dados de tomates Chronos: ph (Y) e dias (X) Normalidade 6,0 Independência e variância constante 5,6 PH 5,2 4,8 4,4 4,0-2 2 6 0 4 8 22 26 DIAS O diagrama de dispersão indica uma relação curvilínea. A variabilidade nos diferentes níveis de X parece constante. Vamos considerar a transformação X =/X.

Exemplo Dados transformados (/X) 6,0 5,6 5,2 PH 4,8 4,4 4,0-0, 0, 0,3 0,5 0,7 0,9, /DIAS Os dados continuam mostrando um comportamento curvilíneo. A variabilidade nos diferentes níveis de X continua constante.

Exemplo A transformação log 0 (dias) linearizou a função de regressão. A variabilidade permanece constante. Outra transformação muito usada é potência de x.

Transformações para estabilizar variância Variâncias heterogêneas e não normalidade dos erros frequentemente aparecem juntas. Necessita-se fazer uma transformação em Y, pois a forma e a dispersão em Y precisam ser modificadas. A transformação em Y pode também eliminar o problema de não linearidade do modelo. Outras vezes uma transformação também em X é necessária para manter ou obter uma relação linear. A figura ilustra algumas formas de relacionamento onde a assimetria e as variâncias aumentam com a reposta média E(Y). Transformações sobre Y: Seleciona-se empiricamente Y Y Y = = Y log 0 = / Y Y Nota: uma transformação em X pode ser útil ou necessário. Fazer análise de resíduos

Exemplo objetivo: estimar o volume da árvore em pé a partir de medidas mais facilmente obtidas. Y=volume da árvore em pés cúbicos; X=diâmetro da árvore em polegadas a 4 pés e 6 polegadas acima do solo; X2=altura da árvore em pés. Observamos maior variabilidade para valores maiores de altura. A relação entre volume e altura é linear.

Exemplo Transformação: valores inverso de Y (/Y). 0,2 Diagrama de dispersão: altura versus /volume /volume (transformação) 0,0 0,08 0,06 0,04 0,02 Note que a transformação tornou a variância razoavelmente constante para os diferentes níveis de X. 0,00 60 66 72 78 84 90 Altura das árvores O modelo de regressão linear simples ajustado aos dados com a transformação Y =/Y é dado por: ˆ Y = 0,22386 0, 002377 X

Exemplo Raw residuals vs. ALTURA Raw residuals 0,05 0,04 0,03 0,02 0,0 0,00-0,0-0,02-0,03-0,04 60 66 72 78 84 90 ALTURA Indica que o modelo é apropriado para os dados transformados Se desejamos estimar os valores de Y, na unidade original, fazemos: Yˆ = 0,22386 0,002377X

Método analítico de seleção da melhor Transformação Transformação Box-Cox (Box and Cox (964)) A transformação Box-Cox automaticamente identifica uma transformação a partir de uma família de transformações potência de Y. A família de transformações potência é dada por: Y = Y Onde λ é um parâmetro a ser determinado a partir dos dados da amostra. Esta família inclui, por exemplo, λ λ = 0 Y λ = 2 Y λ = 0,5 Y λ = 0,5 Y = log e = Y λ = -,0 Y 2 = Y = Y Y (por definição) = Y

Método analítico de seleção da melhor Transformação O modelo de regressão com erros normais com a variável resposta pertencente a família de transformação potência fica: onde Y ( λ ) i = β0 + βx i + ε i ( λ ) Y i λ y, λ y& = λ λ y& ln y, λ = 0 0 y& = ln n n i = ln yi Seleciona-se diferentes valores para λ. Ajusta-se os modelos usando y (λ) e seleciona a transformação (λ) tal que a soma de quadrados de resíduos SS R émínima. Usualmente 0 a 20 valores de λ são suficientes. Usar diferenças pequenas.

Exemplo Continuamos com o exemplo das árvores (X=altura e Y=volume). Vamos tomar os seguintes valores para lambda λ = λ = -0,3 λ = 0,2 λ = -0, λ = 0 λ = 0, λ = 0,2 λ = 0,3 λ = λ, 00-0,30 0, 2 0, 0 0, 00 0, 0 0, 20 0, 30, 00 SQR 420,9 3324,5 330,3 339,8 3352,9 3409,7 3490,5 3596,3 5204,9 Observe na tabela acima que a transformação Box-Cox indica λ próximo de -0,20. Entretanto, a SQR é aproximadamente estável na faixa de -0,30 a 0,00, portanto, vamos usar a transformação logarítmica por ser a preferida dos pesquisadores (é uma transformação que os pesquisadores entendem melhor). A transformação Box-Cox dá um direção no sentido da escolha da melhor transformação. Observe que a transformação usada anteriormente, /Y, não foi razoável de acordo com transformação de Box-Cox. (compare os dois gráficos de resíduos). Quando a transformação Box-Cox produz um λ próximo de, não é necessário transformar os dados.

Exemplo Raw residuals vs. ALTURA 0,8 0,6 Raw residuals 0,4 0,2 0,0-0,2-0,4 Indica a adequação do modelo de regressão para os dados transformados (transformação logarítmica) -0,6-0,8 60 66 72 78 84 90 Altura

Estabilizar variância: Mínimos quadrados generalizados. Uso: Observações y são correlacionadas e variâncias desiguais. y = Xβ + Modelo E( ε ) = 0 ε 2 Var( ε) = σ V V deve ser não singular e definida positiva. Então existe uma matriz simétrica K tal que T K K = V Tipicamente σ 2 é desconhecido. Nesse caso, V é assumida como a matriz de variâncias covariâncias entre os erros a menos de uma constante. K é a matriz raiz quadrada de V.

Estabilizar variância: Mínimos quadrados generalizados. Novas variáveis. z = K B = K g = K y X ε Modelo original Novo Modelo K - y y - = K X + K z = Xβ + ε = Bβ + g ε Após uma algebra: βˆ = ( X T V X ) X T V y Estimador de mínimos quadrados generalizados

Estabilizar variância: Mínimos quadrados ponderado Uso: Observações y independentes e variâncias desiguais. Var( ε) = σ 2 V / w 2 = σ 0 0 /w n As observações com grandes variâncias tem peso menores. Seja W=V -, após uma algebra βˆ = ( X WX ) T X T Wy Estimador de mínimos quadrados ponderados.

Estabilizar variância: Mínimos quadrados ponderado Estimativas de Mínimos quadrados ponderados podem ser facilmente obtidos pelos Mínimos quadrados ordinários. Pode-se reescrever o estimador dos coeficientes da seguinte forma: z B B B β T T ) ( ˆ = onde: = n p n n p p w x w x w w x w x w w x w x w 2 2 2......... B =... z y n w n w y w y 2 2

Como estimar V. Ordene as obeservações em y. 2. Encontre clusters de valores de x na ordem obtida. 3. Dentro de cada cluster calcule a média de x e para os correspondentes valores de y calcule a variância. 4. Os valores da variância de y devem aumentar ou diminuir quando os valores médios de x aumentam. 5. Construa uma regressão para a variância de y usando a média de x como regressor. 6. Para cada valor de x do conjunto encontre o valor da estimativa da média da variancia de y. 7. Calule os pesos como o inverso dos valores obtidos no passo 6. 8. Obtenha B e z. 9. Ajuste o modelo: βˆ = ( B B) T B T z