INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

Documentos relacionados
TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

Aula 2 Uma breve revisão sobre modelos lineares

Disciplina de Modelos Lineares Professora Ariane Ferreira

Hipóteses do modelo linear clássico (CLM) Análise da Regressão múltipla: Inferência. Hipóteses do CLM (cont.) O teste t. Distribuição normal amostral

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Capítulo 4 Inferência Estatística

Análise da Regressão múltipla: Inferência. Aula 4 6 de maio de 2013

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

5 Avaliação dos estimadores propostos

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ... ANÁLISE DE VARIÂNCIA. Departamento de Matemática ESTV.

Análise de Dados Categóricos

Modelos de Regressão Linear Simples - parte III

Especialização em Engenharia de Processos e de Sistemas de Produção

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Análise de Dados Longitudinais Aula

Ralph S. Silva

Esse material foi extraído de Barbetta (2007 cap 13)

9DOXHDW5LVNHUHWRUQRGHXPLQYHVWLPHQWR

Modelo de Regressão Múltipla

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o

Inferência Estatística

A Metodologia de Box & Jenkins

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

AULA 7 - Inferência em MQO: ICs e Testes de

Medidas de Dispersão ou variabilidade

PHD 5742 Estatística Aplicada ao Gerenciamento dos Recursos Hídricos

Gráficos de Controle para Variáveis

AULA 05 Teste de Hipótese

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

CAPÍTULO 10 REGRESSÃO LINEAR MÚLTIPLA REGRESSÃO LINEAR MÚLTIPLA PPGEP

Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

1 z 1 1 z 2. Z =. 1 z n

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

Exemplo 7.0 Numa linha de produção, os pesos de pacotes de pó de café embalados por uma máquina têm distribuição Normal, com média

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Análise Multivariada Aplicada à Contabilidade

4 Modelos Lineares Generalizados

AULA 07 Inferência a Partir de Duas Amostras

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

Estatística Aplicada II. } Regressão Linear

Introdução à Bioestatística Turma Nutrição

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

1 Probabilidade - Modelos Probabilísticos

Aula 9 Intervalo de confiança para a média da N(μ; σ 2 ), σ 2 desconhecida

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Correlação e Regressão

Regressão linear simples

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Análise de Dados Categóricos

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Universidade Federal de Lavras

Inferência a partir de duas amostras

CONHECIMENTOS ESPECÍFICOS

Probabilidades e Estatística MEEC, LEIC-A, LEGM

EXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO

Econometria II. Notas de bolso! Propriedades da E(.), Var(.) e Cov(.) Temos que (a,b) são constantes e (X,Y) são variáveis aleatórias.

Inferência Estatística:

CONHECIMENTOS ESPECÍFICOS

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

3 Modelos para o Cálculo de IBNR

Delineamento e Análise Experimental Aula 4

CONHECIMENTOS ESPECÍFICOS

Análise de Dados Categóricos Tabelas 2 2

CONHECIMENTOS ESPECÍFICOS

TESTE DE COMPARAÇÃO MÚLTIPLA

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

Intervalos Estatísticos para uma única Amostra - parte I

Testes de Hipóteses. Curso de Introdução à Econometria usando o R. Vítor Wilher. 1 de Dezembro de analisemacro.com.br

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Define-se o regressor,ϕ,como. e o vector de parâmetros a estimar, θ,como. O modelo escreve-se:

Prof. Lorí Viali, Dr.

Multicolinariedade e Autocorrelação

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas

Inferência para duas populações

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Ralph S. Silva

Mais Informações sobre Itens do Relatório

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Parte 8 Testes de hipóteses Comparação de dois grupos

Econometria em Finanças e Atuária

AULA 04 Teste de hipótese

Distribuições de probabilidade de variáveis aleatórias contínuas

3 Metodologia. resenha de VAN DIJK et al. (2002). 12 Para uma exposição extensiva do uso do modelo STR aplicado a séries macroeconômicas, ver a

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

b) Teste a hipótese de efeito significante do tamanho da população sobre a venda do produto, na presença de renda per capita

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Transcrição:

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

A análise de deviance é uma generalização, para modelos lineares generalizados, da análise de variância. No caso de modelos lineares, utiliza-se a chamada "etra soma de quadrados" para avaliar a significância de termos incluídos ao modelo; Em MLG, de forma semelhante, é de interesse testar a significância da inclusão de novos termos. Neste sentido, usaremos com frequência a epressão modelos encaiados; Dizemos que dois modelos são encaiados se um modelo é obtido a partir do outro impondo alguma restrição aos valores dos parâmetros (é usual assumir valor zero aos parâmetros, caso se desee investigar a hipótese de nulidade dos mesmos); Na sequência são apresentados os preditores lineares de diferentes modelos lineares generalizados para avaliarmos se configuram modelos encaiados.

3 o Caso : ( ) ( ) 3 3 0 4 4 3 3 0 g Modelo g Modelo µ µ = = - Modelos encaiados! A comparação dois modelos apresentados no par poderia fundamentar o teste da hipótese: 0 : 4 0 = = H, contra a alternativa que os parâmetros sob teste não são conuntamente nulos.

o Caso : Modelo Modelo g ( µ ) = g 0 ( µ ) = 0 3 4 4 3 3 4 4 - Modelos encaiados! A comparação dois modelos apresentados no par poderia fundamentar o teste da seguinte hipótese: H = ; = 0; =. 0 : 3 4

o Caso 3: Modelo Modelo g ( µ ) = 0 3 g( µ ) = 0 - Modelos encaiados! A comparação dois modelos apresentados no par 3 poderia fundamentar o teste da seguinte hipótese: H 0. 0 : 3 = Repare que, mediante este par de hipóteses, estaríamos testando a eistência de interação entre e. 5

o Caso 4: Modelo Modelo g ( µ ) = g 0 ( µ ) = 0 3 3 - Modelos encaiados! A comparação dois modelos apresentados no par 4 poderia fundamentar o teste da seguinte hipótese: H = 0, 0. 0 : 3 = Repare que, mediante este par de hipóteses, estaríamos testando a eistência de efeito cúbico ou quadrático de em y. Nota Note que em qualquer um dos quatro eemplos apresentados, a hipótese nula representa o modelo restrito e a hipótese alternativa o modelo não restrito. No conteto de teste de hipóteses, a reeição de H 0 corresponde à diferença dos austes dos dois modelos, sendo que se deve optar, nesses casos, pelo modelo não restrito (com mais parâmetros). 6

7 o Caso 5: ( ) ( ) 4 4 0 3 3 0 g Modelo g Modelo µ µ = = - Modelos não encaiados! o Caso 6: ( ) ( ) ( ) 0 3 3 0 ln g Modelo g Modelo µ µ = = - Modelos não encaiados!

Teste da razão de verossimilhanças (TRV) em MLG O teste da razão de verossimilhanças é amplamente utilizado em MLG para testar a nulidade conunta de (ou alguma outra restrição envolvendo) parâmetros de modelos lineares generalizados. Sea M p um MLG com p parâmetros e M q um modelo encaiado a M p, a partir de uma restrição a p q parâmetros, restando q < p parâmetros não fiados (irrestritos). Considere D p e D q, respectivamente, os desvios de M p e M q. A estatística é uma medida de diferença dos auste de M p e M q, que pode ser entendida como o ganho de auste decorrente da inclusão de p q parâmetros ao modelo mais simples. 8

A estatística do teste da razão de verossimilhanças para comparação dos dois modelos fica dada por: ( µ ˆ ) p; y ( ) µ ˆ ; y D q Dp L ξ RV = = φ { l( µ ˆ p; y) l( µ ˆ q; y) } = φ ln, φ L q que, sob a hipótese nula de que as restrições são válidas, tem assintoticamente distribuição χ p q. Caso a hipótese nula sea de nulidade de p q parâmetros e o resultado do teste indique a não reeição de H 0, isso pode ustificar a eliminação dos termos (covariáveis, fatores...) associados aos p q parâmetros nulos. 9

Nota O teste da razão de verossimilhanças pode ser aplicado a um único parâmetro (Eemplo: H 0 : k = 0 vs H : k 0), sendo que neste caso, sob H 0 ξ RV tem, assintoticamente, distribuição χ. Nota Podemos testar a significância do modelo austado considerando a hipótese nula H0 : = =... = p = (só com intercepto). 0, ou sea, comparando o auste do modelo com p parâmetros ao do modelo nulo No R: auste=glm(...)### Modelo maior auste=glm(...)### Modelo menor anova(auste,auste,test= Chisq ) 0

Procedimento geral para o teste da razão de verossimilhanças em Modelos Lineares Generalizados. Formular as hipóteses de interesse e estabelecer adequadamente os modelos restrito ( M q) e não restrito ( M p) correspondentes;. Austar os dois modelos aos dados e etrair os correspondentes desvios ( D q e D p); 3. Calcular a estatística do teste da razão de verossimilhanças ( ξ RV ); 4. Com base no valor de ξ RV, testar a hipótese nula de que a restrição considerada é válida. Por eemplo, para um nível de significância α, reeitamos H 0 se RV distribuição χ p q. ξ eceder o quantil ( α ) da

Teste F para o caso em que φ é desconhecido Para as distribuições em que o parâmetro de dispersão é desconhecido (Normal, Gama e Normal Inversa, por eemplo), pode-se utilizar uma estimativa e considerar como alternativa o uso do teste F, ao invés de χ. A estatística do teste F é definida por: ( D D ) ( p q) q ξ RV =, D p p ( n p) que, sob a hipótese nula de que as restrições impostas em H 0 são válidas, tem assintoticamente distribuição Fp q, n p.

Nota Pode-se substituir ( n p) φ. D p no denominador da estatística F por alguma estimativa consistente de No R: auste=glm(...)### Modelo maior auste=glm(...)### Modelo menor anova(auste,auste,test= F ) 3

Análise de deviance desvio (Tabela ANODEV) A análise de deviance configura uma etensão da análise de variância para os modelos lineares generalizados. Baseia-se na comparação das deviances avaliadas para modelos encaiados, permitindo testar o efeito de sucessivas inclusões inclusão (ou eclusões) de variáveis, fatores e interações a um modelo corrente. A Tabela Anodev é a representação de uma sequência de TRVs para um modelo linear generalizado, em que os termos do preditor linear são acrescentados sucessivamente ao modelo (começando pelo modelo nulo), e a significância de suas inclusões avaliadas via TRV. 4

A título de ilustração, considere um MLG qualquer, com quatro variáveis no preditor linear ( X, X, X 3, X 4 ). Então, na tabela Anodev serão apresentados os desvios, as diferenças de deviances, os correspondentes graus de liberdade e os testes de razão de verossimilhança para: o Inclusão de X ao modelo que contém apenas o intercepto; o Inclusão de X ao modelo que contém X ; o Inclusão de X 3 ao modelo que contém X e X ; o Inclusão de X 4 ao modelo que contém X, X e X 3. 5

Notas-. A ordem de inclusão das variáveis é determinada pelo usuário e, eceto em casos bem específicos, vai alterar a significância das variáveis;. A ordem de inclusão de termos ao modelo, quando na ocorrência de interações, deve obedecer ao principio hierárquico. Ou sea, se temos no modelo X, X e X X, primeiramente inserimos ao modelo X e X (na ordem que bem se entender) para depois inserir o termo correspondente à interação. O mesmo vale para modelos polinomiais, em que os termos de menor ordem são os primeiros a serem inseridos. No R: Comando anova. 6

Uma forma alternativa de se fazer a análise do desvio é avaliando a significância de uma variável quando inserida ao modelo que contém todas as demais variáveis, eceto a variável em questão. A título de ilustração, considere um MLG qualquer, com quatro variáveis no preditor linear ( X, X, X 3, X 4 ). Então, na tabela Anodev serão apresentados os desvios, as diferenças de deviances, os correspondentes graus de liberdade e os testes de razão de verossimilhança para: o Inclusão de X ao modelo que contém X, X 3 e X 4; o Inclusão de X ao modelo que contém X, X 3 e X 4; o Inclusão de X 3 ao modelo que contém X, X e X 4; o Inclusão de X 4 ao modelo que contém X, X e X 3. No R: Comando Anova, pacote car. 7

Teste de Wald O teste de Wald baseia-se na distribuição assintótica normal dos estimadores de máima verossimilhança dos parâmetros do modelo. Sea ˆ o estimador de máima verossimilhança de, um particular parâmetro de um MLG. Conforme discutido anteriormente, para n, (, Var ( ˆ ) ˆ ~ Normal, em que Var ( ˆ ) é estimada através do correspondente termo da diagonal da matriz de covariâncias ^ ^ Var ( ˆ ) = ( X Wˆ X) φˆ. Vamos denotar por ep( ˆ ) Var ( ˆ ) = o erro padrão de ˆ. 8

Embora possam ser aplicados ao teste de hipóteses de dois ou mais parâmetros, o uso mais frequente do teste de Wald contempla apenas um parâmetro por vez. Em situações envolvendo mais parâmetros, é mais usual aplicar o teste da razão de verossimilhanças. Considere então o seguinte par de hipóteses: H H 0 : = : ( 0) ( 0), em que ( 0) é algum valor postulado para (é comum tomarmos ( ) 0 = 0, a fim de testarmos a nulidade de ). Então, o teste de Wald baseia-se na seguinte estatística-teste: Z t ˆ ( 0) =, ep ( ˆ ) que, sob a hipótese nula, tem assintoticamente distribuição Normal padrão. 9

Para um nível de significância α, reeitaremos H 0 caso Z t > z α /, em z α / representa o quantil α / da distribuição Normal padrão. Nos casos em que φ é desconhecido, pode-se usar a distribuição t Student com n p graus de liberdade, reeitando H 0, para um nível de significância α, se Z t > t n p; α /. No R: A estatística e o teste de Wald são apresentados no próprio summary de um MLG. Nota A função waldtest, do pacote lmtest permite aplicar o teste de Wald para hipóteses envolvendo p parâmetros, baseado numa distribuição assintótica χ n p. 0

Intervalos de confiança Dentre os métodos disponíveis para obtenção de intervalos de confiança em Modelos Lineares Generalizados, serão destacados os intervalos baseados na razão de verossimilhanças e na estatística de Wald. Mais adiante discutiremos o uso de simulação (bootstrap) para a obtenção dos intervalos. Intervalos de confiança baseados na razão de verossimilhanças Um intervalo com nível de confiança assintótico α para, baseado na razão de verossimilhanças, contém todos os valores ( 0) para os quais a hipótese nula H ( 0) = não 0 : seria reeitada pelo TRV, ao nível de significância α.

Para fins de ilustração, considerando um nível de confiança (assintótico) de 95%, o intervalo de ( 0) confiança para conteria todo para o qual a hipótese H ( 0) = produzisse: 0 : ξ ( µ ˆ ; y) ( µ ˆ ; y) D0 D L = = φ ln χ0,95; = 3,84 φ L 0 RV, ( 0) sendo D 0 o desvio avaliado considerando = e D o desvio avaliado no modelo sem restrição para. No R: Função confint.

Intervalos de confiança baseados na estatística de Wald Uma vez que, assintoticamente: ˆ ep ( ˆ ) ~ Normal ( 0, ), pode-se determinar quantis z α / e z α / tais que: P z ˆ < < α α ˆ /, 0 < α <. ep ( ) α / z Isolando no centro da desigualdade, temos: ( ˆ z ep ( ˆ ) < < ˆ z ep ( ˆ )) α P α / α /. 3

Assim, um intervalo de confiança α (assintótico) para fica dado por: IC ( α ) = ( ˆ ± z ep( ˆ ) ; α /. No R: confint.default(auste). 4

Intervalo de confiança para a resposta média em = 0 A estimativa pontual da resposta média para um vetor de covariáveis = = (,, ) [ ] µ 0 = E y, baseada no auste de um modelo linear generalizado, é dada por: 0 0 0 0,..., 0 p, ( 0ˆ ) 0 = ˆ µ g, onde g é a função de ligação do modelo e ˆ a estimativa de máima verossimilhança de. Sea ˆ0 η = 0ˆ a estimativa do preditor linear calculada em 0. A variância assintótica de ˆ η 0 fica dada por: ( ) ( 0 ˆ ) 0 ( ˆ ˆ0 = Var = Var ) 0 Var η. 5

Como, ˆ ˆ0 η = é uma combinação linear dos ˆ s, temos que, assintoticamente: 0 (, Var( ˆ ) ) η ~ Normal. ˆ0 0 0 0 Assim, um intervalo de confiança α assintótico para η = 0 fica dado por: 0 ( Vaˆ ( ˆ ) ) IC η α ˆ, ( 0, ) = 0 ± zα / 0 r 0 sendo z α / o quantil α / da distribuição Normal padrão. Apenas para efeito de notação, vamos representar o intervalo de confiança para 0 η por ( ) η 0 L ;η0u. 6

Assim, um intervalo de confiança assintótico αpara µ 0 fica dado por: ( ) ( µ, α ) = g ( η ) g ( η ) IC 0 0L ; 0U, se g for estritamente crescente e ( ) ( µ, α ) = g ( η ) g ( η ) IC 0 0U ; 0L se g for estritamente decrescente. No R: p=predict(auste,type= link,newdata=0,se.fit=t) ### 0 é um dataframe com os dados para os quais se quer estimar a resposta. ### O argumento se.fit=t é para retornar os erros padrões das estimativas. estimat=p$fit errpad=p$se.fit ic=ep(estimatc(-.96,.96)*errpad) ### Vale se a ligação for logarítmica. Se for outra, basta trocar ep() pela inversa da ligação usada. 7