Modelos Lineares Generalizados - Análise de Resíduos

Documentos relacionados
Modelos Lineares Generalizados - Análise de Resíduos

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos de Regressão Múltipla - Parte VIII

Modelos de Regressão Linear Simples - parte III

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

Aula 2 Uma breve revisão sobre modelos lineares

Modelos Lineares Generalizados - Regressão Logística

3.33pt. AIC Introdução

Transformações e Ponderação para corrigir violações do modelo

Análise de Regressão Linear Simples e

Modelos de Regressão Múltipla - Parte VI

Modelos de Regressão Linear Simples - parte II

Modelos de Regressão para Dados de Contagem

ME613 - Análise de Regressão

Análise de Resíduos. investiga características que comprometem a validade do MRLS:

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelo de Regressão Múltipla

Ralph S. Silva

Exemplos Modelos Binomiais de Dose-Resposta

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Introdução ao modelo de Regressão Linear

Análise de Resíduos. investigar características que comprometem a validade do MRLS:

AULA 9 - MQO em regressão múltipla: Propriedades Estatísticas (Valor Esperado)

Exemplo Multicolinearidade

Modelos Lineares Generalizados - Componentes do Modelo

1 z 1 1 z 2. Z =. 1 z n

Análise de regressão linear simples. Diagrama de dispersão

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos Lineares Generalizados - Introdução

Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016

Renda x Vulnerabilidade Ambiental

Coeficiente de determinação R 2 no modelo de regressão linear normal

Análise de Dados Categóricos

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Correlação e Regressão

Análise de Regressão Linear Múltipla III

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Modelos Lineares Generalizados - Introdução

4 Modelos Lineares Generalizados

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Modelos de Regressão Múltipla - Parte I

AULA 8 - MQO em regressão múltipla:

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

MAE Planejamento e Pesquisa II

Multicolinariedade e Autocorrelação

Exemplos Regressão Dados Binários

Modelos Lineares Generalizados - Métodos de Estimação

Regression and Clinical prediction models

Regressão Linear - Parte I

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

INSTRUÇÕES. O tempo disponível para a realização das duas provas e o preenchimento da Folha de Respostas é de 5 (cinco) horas no total.

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

INTRODUÇÃO A ECONOMETRIA

Exemplos Regressão Dados de Contagem

Analise de sobreviventes em acidentes de carros

IBMEC SÃO PAULO Faculdade de Economia e Administração. Thomas Osborn Mahfuz MODELAGEM DO NÚMERO DE GOLS MARCADOS USANDO A REGRESSÃO DE POISSON

Exemplo Abastecimento de Refrigerantes

Exemplo Regressão Robusta

MLG. 16 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates

AULA 2 - Regressão: Fundamentos Conceituais

MAE Modelos Lineares Generalizados 2 o semestre 2017

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO

Regressão Linear Simples

Exemplo Vida Útil de Ferramentas

GAM. Ilka Afonso Reis

Prova de Estatística

ANÁLISE DE REGRESSÃO

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Exemplo Cupons com Desconto

Nota de Aula: Uma Primeira Forma para se Desenvolver o Teste de F para Hipóteses sobre Combinações Linear dos Coeficientes da Regressão

CONHECIMENTOS ESPECÍFICOS

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Regressão para Dados de Contagem - Segurança e privatização ferroviária na Grã-Bretanha

Modelos de Regressão Linear e Não Linear

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Métodos Quantitativos para Avaliação de Políticas Públicas

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

Modelos de Regressão Linear Simples parte I

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

Modelos de regressão para dados correlacionados. Cibele Russo

Métodos Quantitativos Aplicados

Modelo Linear Generalizado Exponencial Potência

Fundamentos Estatı sticos para Cie ncia dos Dados Ajuste de distribuic o es

AULAS 21 E 22 Análise de Regressão Múltipla: Estimação

Distribuição de Probabilidade de Poisson

Modelos de Regressão Linear Simples - parte I

Análise de Regressão EST036

Cap. 13 Correlação e Regressão

Exemplos Equações de Estimação Generalizadas

CONHECIMENTOS ESPECÍFICOS

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

A Metodologia de Box & Jenkins

Princípios em Planejamento e Análise de Dados Ecológicos. Regressão linear. Camila de Toledo Castanho

Modelos Lineares Generalizados - Família Exponencial

Verificando as pressuposições do modelo estatístico

Transcrição:

Modelos Lineares Generalizados - Análise de Resíduos Erica Castilho Rodrigues 15 de Maio de 2014

Tipos de Resíduos

3 Assim como em Regressão Linear, também precisamos fazer Análise de Resíduos para os MLG s. São semelhantes ao modelo clássico de regressão. Porém algumas adaptações são necessárias. Para verificar linearidade no modelo linear: usamos os vetores Y e Ŷ. Para os MLG s devemos usar: o valor estimado do preditor linear ˆη; a variável dependente ajustada z i = p k=1 ( ) x ik b (m 1) ηi k +(y i μ i ). μ i

A matriz H para os modelos de regressão é dada por H = X(X X) 1 X. Para os MLG s ela deve ser reponderada pela matriz W. Como W é definida? É uma matriz diagonal cujas entradas são dadas por [W] ii = 1 Var (Y i ) ( ) 2 μi. η i

5 Para os MLG s devemos substituir X por W 1/2 X. A matriz H fica H = W 1/2 X(X WX) 1 X W 1/2.

6 Tipos de Resíduos

Os resíduos são importantes para identificar observações aberrantes. O resíduo R i deve expressar: a distância entre a observação yi e seu valor ajustado ˆμ i. O resíduo é definido como R i = h i (y i, ˆμ i ) onde h i é uma função escolhida tal que facilite a interpretação; estabilize a variância; induza assimetria na distibuição de Ri.

8 Escolhas comuns da função h i () R i = (y i ˆμ i ) [Var (y i )] 1/2 R i = (y i ˆμ i ) [Var (y i ˆμ i )] 1/2 onde as variâncias são estimadas segundo o modelo sob pesquisa. A escolha da função depende do tipo de anomalia que se deseja detectar.

9 Anomalias que podem ser dectadas: uma falsa distribuição populacional para a variável resposta; uma ou mais observações não pertencendo hà distribuição proposta para os dados; algumas observações que se mostram dependentes ou exibindo alguma forma de correlação serial; um parâmetro importante que esteja sendo omitido no modelo. Temos diferentes tipos de resíduos que podem ser usados.

10 Resíduos ordinários São os tipos mais usados nos MLG s. Igual ao resíduo usado em Regressão Linear São definidos por r i = y i ŷ i.

Resíduo de Person É dado pelas conponentes da Estatísitca de Pearson Generalizada. É definido por r P i = y i ŷ i V (Y ˆ i ). Uma desvantagem desse tipo de resíduo é que ele é geralmente assimétrico para distribuições não normais.

Exemplos: Consider um modelo tal que Y i Poisson(λ i ) λ i = exp xt i β. O Resíduo de Pearson nesse caso é dado por r P i = y i ŷ i V (Y ˆ i ) = y i ŷ i. ŷ i

13 Componentes do Desvio Vimos que a função Deviance é dada por D = 2[l(b max ; y) l(b, y)] = 2 i [l(b max ; y i ) l(b, y i )]. As componentes do Desvio são dadas por r Di = sinal(y i ŷ i ) di onde d i =[l(b max ; y i ) l(b, y i )] são cada uma das componentes da Deviance e sinal(y i ŷ i ) retorna o sinal da diferença (y i ŷ i ).

O termo d i =[l(b max ; y i ) l(b, y i )] é chamado Deviance Residual. Se d i é grande, isso significa que: a observação i contribui em excesso para a Função Deviance; isso indica que alguma das hipóteses sobre o modelo está sendo violada. Se o modelo é bem ajustado, pode-se mostrar que Valores tais que d i 1. d i >> 1 indicam que a i-ésima observação está contribuindo para o mau ajuste do modelo.

15 Como D χ 2 n p, d i χ 2 (n p)/n. Temos então que distribuição aproximada de d i é di N(0, 1).

16 Exemplo: Considere uma amostra aleatória tal que Y i Bin(n i,π i ). Y 1, Y 2,...,Y m Vimos que a função Deviance é dada por [ D = 2 y i log i ( yi ŷ i ) y i log ( ni ŷ i n i y i ) ( ni ŷ i + n i log n i y i ) ]. O Desvio Residual fica ( ) ( yi ni ŷ i d i = y i log y i log ŷ i n i y i ) + n i log ( ) ni ŷ i n i y i.

Exemplo: (continuação) A Componente do Desvio fica r Di = sinal(y i ŷ i ) y i log ( yi ŷ i ) ( ) ( ) ni ŷ i ni ŷ i y i log + n i log n i y i n i y i

18 Podemos ainda usar uma forma padronizada das Componentes do Desvio. Esse tipo de resíduo é chamado Desvio Studentizado r D i = r Di 1 hii onde h ii é o termo da diagonal da matriz H. O R calcula os r Di automaticamente. Basta então encontrar a matriz H e padronizá-los.

19 O script a seguir calcula as Componentes do Desvio Padronizadas # Pega a matriz X X < - model.matrix(fit.model) # Defini a matriz W w < - fit.model$weights W < - diag(w)

20 # Calcula a matriz H H < - solve(t(x)%*%w%*%x) H < - sqrt(w)%*%x%*%h%*%t(x)%*%sqrt(w) # Pega somente os termos da diagonal h < - diag(h) # Retorna o desvio residual rd < - resid(fit.model, type= deviance ) # Padroniza as componentes do desvio td < - rd*sqrt(1/(1-h))

Para verificar se o modelo está bem ajustado podemos plotar os valores r D i. Esses valores, porém, não seguem uma distribuição específica. Uma solução: encontrar a distribuição empírica desses resíduos. Ajustamos o modelo. Encontramos as estimativas dos parâmetros.

Geramos observações do modelo ajustado. Temos então certeza que elas vieram do modelo ajustado. Ajustamos um modelo para essas variávei simuladas. Encontramos os Desvios Padronizados. Fazemos isso várias vezes. Teremos várias amostras de resíduos de modelos perfeitos (observações vêm de fato dele). Se os resíduos que observamos for muito discrepantes desses gerados, o nosso modelo não está bem ajustado. Vejamos o script que roda esse envelope. (Prof. Gilberto Paula)

23 Caso Binomial # Define a matriz X X <- model.matrix(fit.model) n <- nrow(x) p <- ncol(x) # Calcula a matriz W w <- fit.model$weights W <- diag(w) # Calcula a matriz H H <- solve(t(x)%*%w%*%x) H <- sqrt(w)%*%x%*%h%*%t(x)%*%sqrt(w) h <- diag(h) # Encontra as deviance padronizadas td <- resid(fit.model,type="deviance")/sqrt(1-h) # Essa matriz guarda os resíduos obtidos # dos modelos gerados

e <- matrix(0,n,100) # for(i in 1:100){ # Gera os valores da Binomial nresp <- rbinom(1, fitted(fit.model)) # Ajusta o modelo para os valores gerados fit <- glm(nresp ~ X, family=binomial) w <- fit$weights W <- diag(w) H <- solve(t(x)%*%w%*%x) H <- sqrt(w)%*%x%*%h%*%t(x)%*%sqrt(w) h <- diag(h) e[,i] <- sort(resid(fit,type="deviance")/sqrt(1-h)) # e1 <- numeric(n) e2 <- numeric(n) #

25 for(i in 1:n){ eo <- sort(e[i,]) e1[i] <- (eo[2]+eo[3])/2 e2[i] <- (eo[97]+eo[98])/2} # med <- apply(e,1,mean) faixa <- range(td,e1,e2) par(pty="s") qqnorm(td,xlab="percentil da N(0,1)", ylab="componente do Desvio", ylim=faixa, pch=16) # par(new=t) # qqnorm(e1,axes=f,xlab="",ylab="",type="l", ylim=faixa,lty=1) par(new=t) qqnorm(e2,axes=f,xlab="",ylab="", type="l",

26 ylim=faixa,lty=1) par(new=t) qqnorm(med,axes=f,xlab="", ylab="", type="l", ylim=faixa,lty=2)

Podemos fazer ainda gráficos semelhantes aos que eram feitos em Regressão Linear. São feitas algumas modificações. Resíduos versus alguma função dos valores ajustados Esse gráfico consiste em plotar: o desvio studentizado r D i ; e o valor ajustado do preditor linear ˆη i. Os resíduos devem ficar distribuídos aleatoriamente em torno de zero e com amplitude constante.

28 Resíduos versus varáveis explicativas não incluídas Igual ao gráfico de regressão linear. Serve para verificar se existe relação entre os resíduos e uma variável não incluída no modelo. Os resíduos devem ficar distribuidos aleatoriamente em torno de zero. Se esse gráfico apresentar algum padrão: significa que a variável deve ser incluída no modelo

29 Resíduos versus varáveis explicativas não incluídas Igual ao gráfico de regressão linear. Serve para verificar se existe relação entre os resíduos e uma variável não incluída no modelo. Os resíduos devem ficar distribuidos aleatoriamente em torno de zero. Se esse gráfico apresentar algum padrão: significa que a variável deve ser incluída no modelo

30 Resíduos versus varáveis explicativas incluídas Igual ao gráfico de regressão linear. Serve para verificar se existe relação entre os resíduos e uma variável incluída no modelo. Os resíduos devem ficar distribuidos aleatoriamente em torno de zero.