Modelo Linear Generalizado



Documentos relacionados
Valeska Andreozzi 2010

Regressão Logística. Daniel Araújo Melo - dam2@cin.ufpe.br. Graduação

Regressão Logística. Propriedades

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

5 Cap 8 Análise de Resíduos. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. Carvalho MS (2009) Sobrevida 1 / 22

XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009

Capítulo 3 Modelos Estatísticos

Principais tipos de resíduos utilizados na análise de diagnóstico em MLG com aplicações para os modelos: Poisson, ZIP e ZINB

Testes (Não) Paramétricos

Estimação bayesiana em modelos lineares generalizados mistos: MCMC versus INLA

UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA Programa de Graduação em Estatística. Samuel de Oliveira

Análise de Sobrevivência Aplicada à Saúde

Faculdade Sagrada Família

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

AULAS 02 E 03 Modelo de Regressão Simples

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

Sessão Saber profundo Contribuição dos xs (

Datas Importantes 2013/01

Potenciação no Conjunto dos Números Inteiros - Z

de Piracicaba-SP: uma abordagem comparativa por meio de modelos probabilísticos

Conceitos Básicos de Estatística Aula 2

Capítulo 5. Modelos de Confiabilidade. Gustavo Mello Reis José Ivo Ribeiro Júnior

Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição Teste Chi-Quadrado

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

Aula 4 Estatística Conceitos básicos

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais.

Revisão: Noções básicas de estatística aplicada a avaliações de imóveis

Equações Diferenciais Ordinárias

Exercícios Teóricos Resolvidos

Problemas de Valor Inicial para Equações Diferenciais Ordinárias

Análise de Regressão Linear Simples e Múltipla

Distribuição Gaussiana. Modelo Probabilístico para Variáveis Contínuas

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG APO

3 Planejamento de Experimentos

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

Modelos Pioneiros de Aprendizado

CAP5: Amostragem e Distribuição Amostral

O teste de McNemar. A tabela 2x2. Depois

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

MAE Séries Temporais

Capítulo 8 - Testes de hipóteses. 8.1 Introdução

Estatística descritiva. Também designada Análise exploratória de dados ou Análise preliminar de dados

Contabilometria. Aula 10 Grau de Ajustamento e Verificação das Premissas MQO

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Técnicas Multivariadas em Saúde. Comparações de Médias Multivariadas. Métodos Multivariados em Saúde Roteiro. Testes de Significância

Equações Diferenciais Ordinárias

PP 301 Engenharia de Reservatórios I 11/05/2011

AULAS 13, 14 E 15 Correlação e Regressão

REGRESSÃO NÃO PARAMÉTRICA

Processos Estocásticos

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

Um estudo sobre funções contínuas que não são diferenciáveis em nenhum ponto

Cláudio Tadeu Cristino 1. Julho, 2014

Matemática Básica Função Logarítmica

Resolução de sistemas lineares

Análise de Arredondamento em Ponto Flutuante

Análise e Processamento de Bio-Sinais. Mestrado Integrado em Engenharia Biomédica. Sinais e Sistemas. Licenciatura em Engenharia Física

ESTUDO DO TEMPO ATÉ APOSENTADORIA DOS SERVIDORES TÉCNICO-ADMINISTRATIVOS DA UFLA VIA MODELO DE COX

Distribuição de probabilidades

Variabilidade do processo

Variáveis aleatórias contínuas e distribuiçao Normal. Henrique Dantas Neder

Tipos de Modelos. Exemplos. Modelo determinístico. Exemplos. Modelo probabilístico. Causas Efeito. Determinístico. Sistema Real.

Somatórias e produtórias

Introdução aos Modelos Lineares em Ecologia

Universidade Federal de São João Del Rei - UFSJ

5 A Metodologia de Estudo de Eventos

36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase

Exercício de Revisao 1

CURSO de CIÊNCIAS ECONÔMICAS - Gabarito

OUTLIERS Conceitos básicos

4 Análise dos Resultados

Metodologia para seleção de amostras de contratos de obras públicas (jurisdicionados) utilizando a programação linear aplicativo Solver

A otimização é o processo de

PROBABILIDADE. Aula 5

MD Sequências e Indução Matemática 1

Estudaremos métodos numéricos para resolução de sistemas lineares com n equações e n incógnitas. Estes podem ser:

Prova de Admissão para o Mestrado em Matemática IME-USP

6 OS DETERMINANTES DO INVESTIMENTO NO BRASIL

Exemplo Demanda de TV a Cabo

Correlação e Regressão

Delineamento em Blocos ao Acaso

MÓDULO 1. I - Estatística Básica

EXCEL NA ANÁLISE DE REGRESSÃO

Introdução a Inferência Bayesiana. Ricardo S. Ehlers

Aula 3 CONSTRUÇÃO DE GRÁFICOS EM PAPEL DILOG. Menilton Menezes. META Expandir o estudo da utilização de gráficos em escala logarítmica.

Teste de Hipóteses e Intervalos de Confiança

Objetivos: Construção de tabelas e gráficos, escalas especiais para construção de gráficos e ajuste de curvas à dados experimentais.

Universidade Federal do Rio Grande do Norte. Centro De Ciências Exatas e da Terra. Departamento de Física Teórica e Experimental

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

Modelando a Variância

Exemplos de Testes de Hipóteses para Médias Populacionais

4 Aplicação: Modelo LOGIT para Avaliar o Risco de Crédito

MARCELO RIBEIRO DA LUZ MARCOS FABIANE KUFNER

por séries de potências

Universidade de São Paulo. Escola Politécnica

1 Propagação de Onda Livre ao Longo de um Guia de Ondas Estreito.

Métodos de Monte Carlo

Cap. 12 Testes Qui- Quadrados e Testes Não-Paramétricos. Statistics for Managers Using Microsoft Excel, 5e 2008 Prentice-Hall, Inc.

MAPEAMENTO DA INOVAÇÃO EM EMPRESAS SERGIPANAS: UMA APLICAÇÃO DE REGRESSÃO LOGÍSTICA

Transcrição:

Modelo Linear Generalizado Valeska Andreozzi 2012 Referências 2 Modelagem Estatística 7 Modelagem................................................................... 8 Objetivos.................................................................... 10 Construção do modelo........................................................... 12 MLG 14 Motivações.................................................................. 15 O modelo................................................................... 20 Distribuições................................................................. 27 Sumário.................................................................... 29 Exercício.................................................................... 34 Estimação 36 Máxima Verossimilhança......................................................... 37 Solução Anaĺıtica.............................................................. 41 Solução Gráfica R.............................................................. 42 MMV nos MLG............................................................... 46 Método iterativo NR............................................................ 49 Método iterativo IWLS.......................................................... 51 Estimação de φ............................................................... 52 Teste de Hipotéses 53 Introdução................................................................... 54 Teste de Wald................................................................ 55 Teste da RV.................................................................. 58 Int. Confiança................................................................ 60 Seleção de modelos 62 Modelo saturado............................................................... 63 Modelo nulo.................................................................. 65 Função desvio................................................................ 67 Seleção de Modelos............................................................. 78 Dicas de modelagem............................................................ 89 Diagnóstico 92 Introdução................................................................... 93 Tipos de resíduos.............................................................. 97 Variância constante............................................................ 101 Inclusão nova variável.......................................................... 104 Relação Linear............................................................... 106 Pontos Influentes............................................................. 111 Função de ligação............................................................. 114 1

Exemplo................................................................... 115 Adequação do modelo.......................................................... 119 Estatística Hosmer e Lemeshow................................................... 122 Erro de predição.............................................................. 124 AUC - Curvas ROC............................................................ 127 Cartão de Referência........................................................... 129 Miscelânias 1 130 Modelo binomial.............................................................. 131 Miscelânias 2 140 Quase-verossimilhança.......................................................... 141 2

Referências slide 2 Referências Krzanowski, W (1998). An Introduction to Statistical Modelling. Arnold Texts in Statistics. Harrel, F (2001). Regression Modeling Strategies. Springer-Verlag. Dobson, AJ (2001). An introduction to generalized linear models. Chapman & Hall/CRC Kleinbaum DG, Klein M (2002). Logistic Regression - A Self-Learning Text. Second Edition. Springer Hosmer DW, Lemeshow S (1989). Applied Logistic Regression. John Wiley e Sons. DEIO/CEAUL Valeska Andreozzi slide 3 Referências Fox, J (1997). Applied Regression Analysis, Linear Models, and Related Methods. Sage Fox, J (2008). Applied Regression Analysis and Generalized Linear Models. Sage. Second Edition McCullagh P, Nelder JA (1989). Generalized linear models. Second Edition. Chapman and Hall DEIO/CEAUL Valeska Andreozzi slide 4 3

Referências Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer Fox, J (2002). An R and S-Plus Companion to Applied Regression. Sage Publications. Faraway, J. Practical Regression and Anova using R (http://cran.r-project.org/doc/contrib/faraway-pra.pdf). Dados e scripts disponíveis em http://www.maths.bath.ac.uk/~jjf23/lmr/ Hardin J, Hilbe J (2001). Generalized Linear Models and Extensions. Stata Press. DEIO/CEAUL Valeska Andreozzi slide 5 Referências Material disponível online Amaral Turkman, MA e Silva, G (2000). Modelos Lineares Generalizados - da Teoria à Prática, Edições SPE, Lisboa http://docentes.deio.fc.ul.pt/maturkman/mlg.pdf Rodríguez, G (16/01/2010). Generalized Linear Models (notes). http://data.princeton.edu/wws509/notes/ Demétrio, CGB (16/01/2010). Modelos Lineares Generalizados em Experimentação Agronômica http://www.lce.esalq.usp.br/clarice/apostila.pdf Paula, G (16/01/2010). Modelos de regressão com apoio computacional http://www.ime.usp.br/~giapaula/livro.pdf DEIO/CEAUL Valeska Andreozzi slide 6 4

Modelagem Estatística slide 7 Modelagem Modelagem estatística é um processo de descobrimento. O que é um modelo estatístico? Modelo estatístico = modelo matemático (equação que descreve o processo) + incerteza (flutuações devido ao acaso) DEIO/CEAUL Valeska Andreozzi slide 8 Modelagem Modelo é uma versão simplificada de alguns aspectos do mundo real. Podemos dizer que modelo é uma representação em pequena escala de entidades físicas. A construção de modelos implica numa compreensão dos dados Dados disponíveis que são um subconjunto dos dados que poderiam ser coletados O modelo serve para obter inferências para um grupo maior ou para obter compreensão do mecanismo (sistema) gerador dos dados observados Os modelos variam de acordo com a acurácia da sua representação. O ponto chave da modelagem está nesta acurácia que varia de acordo com o objetivo da análise. DEIO/CEAUL Valeska Andreozzi slide 9 5

Objetivos de um modelo Modelo Explicativo ou Descritivo Estudar a associação entre fatores de risco e desfecho (outcome). Exemplos: Avaliar a magnitude de associação de uma exposição e um desfecho ajustada pelo efeitos de possíveis fatores de confundimento ou de interação Investigar fatores determinantes de uma doença, ie, avaliar o efeito de um determinado fator de risco na ocorrência de uma doença controlano por fatores de confundimento e considerando possíveis fatores modificadores de efeito da associação principal em questão Acurácia do modelo não precisa ser perfeita DEIO/CEAUL Valeska Andreozzi slide 10 Objetivos de um modelo Modelo Preditivo Modelo em que o objetivo central é fazer predição do desfecho. Exemplos: Predição de um defecho para ajudar na tomada de decisão de um tratamento Desenvolvimento de classificação de doença ou estagiamento (elaboração de um score) Identificação de fatores biológicos que podem ajudar elucidar a patologia da doença Acurácia do modelo é importante DEIO/CEAUL Valeska Andreozzi slide 11 6

Construção de um modelo Passos envolvidos na construção de um modelo estatístico 1. Formulação dos modelos Especificar uma expressão matemática para descrever o comportamento geral de acordo com as crenças do analista/investigador. Esta expressão também é conhecida como componente sistemático do modelo. Incorporar, na parte sistemática do modelo, uma certa quantidade de flutuações da variável resposta, denominada componente aleatório do modelo Especificar como combinar os componentes sistemático e aleatório DEIO/CEAUL Valeska Andreozzi slide 12 Construção de um modelo Passos envolvidos no desenvolvimento de um modelo estatístico 2. Inferência dos parâmetros do modelo (estimação e testes de hipóteses) 3. Avaliação dos modelos avaliar premissas dos modelos avaliar o ajuste global do modelo que poderá depender do objetivo do modelo 4. Reformulação (se necessário) DEIO/CEAUL Valeska Andreozzi slide 13 7

Modelo Linear Generalizado slide 14 Motivação 1 Objetivo do estudo: avaliar a resposta de uma droga de acordo com a dose Foi realizado um estudo experimental em que foi registrado a dose x i da droga e a resposta a droga y i para 26 ratinhos Variável resposta: Y i = 1 se o rato respondeu a droga e Y i = 0 caso contrário; Covariável: x i (contínua) resposta 0 ou 1 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 dose DEIO/CEAUL Valeska Andreozzi slide 15 Motivação 1 Modelo linear não é apropriado Vamos considerar que para cada dose x i, existe uma probabilidade µ i do rato responder a droga (P(Y i = 1)), logo Y i Bernoulli(µ i ) com E(Y i ) = µ i e Var(Y i ) = µ i (1 µ i ) Caso especial da Binomial(n,µ) com n = 1 Para modelarmos E(Y i ) = µ i precisamos utilizar uma função de ligação entre o µ i e x i de tal forma que valores do lado direito da equação possam ser assumidos no lado esquerdo. Uma opção é utilizar a função de ligação logit: ( ) µi logit(µ i ) = ln = a+bx i 1 µ i µ i = exp(a+bx i) 1+exp(a+bx i ) = 1 1+e (a+bxi) DEIO/CEAUL Valeska Andreozzi slide 16 8

Motivação 1 resposta 0 ou 1 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 dose DEIO/CEAUL Valeska Andreozzi slide 17 Motivação 2 Objetivo: estudar a tendência do número de mortes por Aids (y i ) na Austrália a cada três meses de 1983 a 1986 (t i ) Número de mortes por Aids 0 10 20 30 40 0 2 4 6 8 10 12 14 jan mar 1983 até abr jun 1986 Reta de regressão parece razoável mais fornece valores esperados negativos para os períodos 1 e 2. DEIO/CEAUL Valeska Andreozzi slide 18 9

Motivação 2 Modelo alternativo: Y i Poi(µ i ) E(Y i ) = Var(Y i ) = µ i ln(µ i ) = β 0 +β 1 t i Número de mortes por Aids 0 10 20 30 40 0 2 4 6 8 10 12 14 jan mar 1983 até abr jun 1986 DEIO/CEAUL Valeska Andreozzi slide 19 Modelo Linear Generalizado (MLG) Teoria unificada de modelos lineares para variáveis resposta contínua e discreta introduzida por Nelder e Wedderburn em 1972. Modela o valor esperado da variável resposta É considerado uma extensão do modelo linear clássico. Extensão da distribuição considerada e da função que relaciona o valor esperado e as covariáveis. Distribuição da variável resposta Família exponencial (Normal, Binomial, Bernoulli, Poisson, Exponencial, Gama, Binomial Negativa, Multinomial) Os MLG são caracterizados pela seguinte estrutura: 1. Componente Aleatório 2. Componente Sistemático (ou estrutural) DEIO/CEAUL Valeska Andreozzi slide 20 10

Componente Aleatório Família Exponencial Y é uma variável aleatória (v.a.) com distribuição pertencente à família exponencial { } 1 f(y;θ,φ) = exp [yθ b(θ)] a(φ) +c(y,φ) (1) θ e φ são parâmetros escalares, a( ), b( ) e c( ) são funções reais conhecidas θ é a forma canônica de localização φ é o parâmetro de dispersão, suposto, em geral, conhecido b( ) é uma função diferenciável. a família exponencial obedece às condições habituais de reguralidade a a Sen and Singer, 1993, Large Sample Methods in Statistics. An Introduction with Applications. Chapman and Hall, New York DEIO/CEAUL Valeska Andreozzi slide 21 Componente Aleatório Família Exponencial - Valor médio e variância Seja l(θ;φ,y) = ln(f(y θ,φ)). Define-se a função escore Para famílias regulares, tem-se: S(θ) = l(θ;φ,y) θ E(S(θ)) = 0 [ ( l(θ;φ,y) ) ] 2 [ E(S 2 2 ] l(θ;φ,y) (θ)) = E = E θ θ 2 (2) De (1), tem-se que: l(θ;φ,y) = yθ b(θ) a(φ) + c(y, φ), logo: S(θ) = Y b (θ) a(φ) e S(θ) θ = b (θ) a(φ) (3) DEIO/CEAUL Valeska Andreozzi slide 22 11

Componente Aleatório Família Exponencial - Valor médio e variância De (2) e (3), tem-se: A variância de Y é o produto de duas funções: E(Y) = µ = a(φ)e[s(θ)]+b (θ) = b (θ) (4) Var(Y) = a 2 (φ)var(s(θ)) = a 2 (φ) b (θ) a(φ) = a(φ)b (θ) (5) b (θ) que depende somente do parâmetro canônico θ (logo, depende do valor médio µ), a que se denomina função de variância e representa-se por V(µ) a(φ) que depende apenas do parâmetro dispersão φ. Em muitas situações a(φ) toma a forma: a(φ) = φ ω (6) em que ω é uma constante conhecida DEIO/CEAUL Valeska Andreozzi slide 23 Componente Aleatório Família Exponencial Assim sendo a família exponencial fica definida da seguinte forma: f(y;θ,φ) = exp {(yθ b(θ)) ωφ } +c(y,φ) DEIO/CEAUL Valeska Andreozzi slide 24 12

Componente Sistemático O valor esperado µ i está relacionado com o preditor linear formado pelas covariáveis η i = β 0 +β 1 x i1 +β 2 x i2 + +β p x ip = x t iβ i = 1,2,...,n através da relação: g(µ i ) = η i g(µ i ) = β 0 +β 1 x i1 +β 2 x i2 + +β p x ip g(µ i ) = x t iβ em que g é a função de ligação; β é o vetor de parâmetros; x i vetor de covariáveis DEIO/CEAUL Valeska Andreozzi slide 25 Componente Sistemático A escolha da função de ligação g(.) depende do tipo de resposta (Y) que está sendo analisada Quando o preditor linear coincide com o parâmetro canônico θ i = η i, diz-se que a função de ligação correspondente é uma função de ligação canônica. DEIO/CEAUL Valeska Andreozzi slide 26 13

Distribuição Normal Y N(µ,σ 2 ) { } f(y) = 1 exp 2πσ (y µ)2 2 2σ 2 ] [ ]} f(y) = exp {[yµ µ2 1 1 y 2 +ln(2πσ 2 ) 2 σ 2 2 σ 2 } f(y;θ,φ) = exp {[yθ b(θ)] 1 φ +c(y,φ) θ = µ φ = σ 2 b(θ) = µ2 2 b (θ) = µ b (θ) = V(µ) = 1 DEIO/CEAUL Valeska Andreozzi slide 27 Distribuição Binomial Y B(m,π) ( ) m f(y) = π y y (1 π) m y Mostre que a distribuição binomial pertence a família exponencial e que θ = ln( π 1 π ); π = eθ /(1+e θ ) = 1/(1 e θ ) φ = 1 b(θ) = m ln(1 π) E(Y) = b (θ) = mπ Var(Y) = b (θ) = V(µ) = mπ(1 π) DEIO/CEAUL Valeska Andreozzi slide 28 14

Sumário: MLG Independência: Variáveis respostas Y i são observações independentes Distribuição: Y i possui distribuição da família exponential com valor esperado µ i Preditor Linear: As covariáveis x i1,...,x ip influenciam a variável resposta através de um preditor linear η i = β 0 +β 1 x i1 +β 2 x i2 + +β p x ip i = 1,2,...,n Função de Ligação: O valor esperado, µ i, e o preditor linear, η i, estão relacionados por uma função de ligação g( ) tal que: g(µ i ) = η i = β 0 +β 1 x i1 +β 2 x i2 + +β p x ip DEIO/CEAUL Valeska Andreozzi slide 29 Sumário: MLG Interpretação: Como o valor esperado de Y (E(Y) = µ) varia com as covariáveis. Covariáveis: Discretas, Contínuas, e funções de variáveis contínuas (exemplo: x 2, log(x)). Linearidade: preditor linear η é linear nos parâmetros β. DEIO/CEAUL Valeska Andreozzi slide 30 15

Histogram of rnorm(n = 1000, 4, 1.5) 2 0 2 4 6 8 rnorm(n = 1000, 4, 1.5) Histogram of rbinom(n = 1000, size = 15, 0.2) 0 2 4 6 8 rbinom(n = 1000, size = 15, 0.2) Sumário: MLG Para modelar dados através dos MLG, precisamos: Formular o modelo escolha da distribuição para a variável resposta; escolha das covariáveis (codificação, transformação); escolha da função de ligação; Ajustar o modelo estimação dos parâmetros do modelo (coeficientes β e do parâmetro de dispersão φ, caso necessário); estimação de intervalos de confiança dos parâmetros; teste de hipótese; seleção de covariáveis; Diagnosticar o modelo averiguar premissas do modelo e discrepâncias entre valores observados e preditos; existência de outliers e observações influentes; Um modelo útil é capaz de explicar o problema em estudo levando-se em consideração três fatores adequabilidade, parcimônia e interpretação. DEIO/CEAUL Valeska Andreozzi slide 31 Distribuições e funções de ligação Normal Binomial Frequency 0 50 100 150 200 250 Frequency 0 50 100 150 200 250 Notação N(µ,σ 2 ) B(m,µ) Intervalo (, ) {0, 1}ou(0, 1) Dispersão φ σ 2 1 Fç. ligação canônica θ = g(µ) identidade = µ logit = lnµ/(1 µ) E(Y) = µ η exp(η)/(1+exp(η)) V(µ) 1 mµ(1 µ) Outras Funções de ligação probit, log, cloglog DEIO/CEAUL Valeska Andreozzi slide 32 16

Histogram of rpois(1000, lambda = 2) 0 2 4 6 8 rpois(1000, lambda = 2) Histogram of rgamma(1000, shape = 2, rate = 1) 0 2 4 6 8 10 12 rgamma(1000, shape = 2, rate = 1) Distribuições e funções de ligação Poisson Gama Frequency 0 100 200 300 400 Frequency 0 50 100 150 200 250 300 Notação P oi(µ) G(µ, ν) Intervalo 0(1) (0, ) Dispersão φ 1 ν 1 Func. ligação canônica θ = g(µ) ln(µ) 1/µ E(Y) = µ exp(η) 1/η V(µ) µ µ 2 Outras Funções de ligação ident., sqrt ident., inverso, log DEIO/CEAUL Valeska Andreozzi slide 33 Exercício Mostre que as funções de densidade de probabilidade abaixo pertencem a família exponential e encontre θ, φ, b(θ), b (θ), b (θ) Y Poisson(µ) com f(y) = µy e µ y! Y Gama(ν,ν/µ) ( em que ν e ν/µ são parâmetros de forma e escala, respectivamente com ν ) f(y) = 1 ν Γ(ν) µ) y ν 1 exp ( νµ y Das distribuições acima encontre utilizando os resultados do exercício anterior: E(Y) Var(Y) DEIO/CEAUL Valeska Andreozzi slide 34 17

Exercício The folowing relationships can be describe by generalized linear models. For each one, identify the response variable and the explanatory variables, select a probability distribution for the response (justifying your choice) and write down the linear component. 1. The effect of age, sex, height, mean daily food intake and mean daily energy expenditure on a person s weight. 2. The proportions of laboratory mice that became infected after exposure to bacteria when five different exposure levels are used and 20 mice are exposed at each level. 3. The relationship between the number of trips per week to the supermarket for a household and the number of people in the household, the household income and the distance to the supermarket. DEIO/CEAUL Valeska Andreozzi slide 35 Estimação slide 36 Método da Máxima Verossimilhança (MMV) Consiste em adotar como estimativa do parâmetro populacional o valor que maximize a função de verossimilhança correspondente ao resultado obtido na amostra Fornece estimadores: consistentes, assintoticamente eficientes e com distribuição assintoticamente normal DEIO/CEAUL Valeska Andreozzi slide 37 18

Máxima Verossimilhança Suponha uma população com parâmetro τ e com função de densidade de probabilidade (fdp) conhecida (f(x τ) em que X são os dados). Podemos gerar uma amostra X dado que conhecemos a fdp Exemplo: Idade das crianças internadas no Hospital São João segue uma distribuição normal com média 13 anos e variância igual a 4. E o mundo real? DEIO/CEAUL Valeska Andreozzi slide 38 Máxima Verossimilhança No mundo real não conhecemos o parâmetro τ da população Temos em mãos uma amostra X da população e queremos fazer inferência sobre o parâmetro populacional (τ) Objetivo do MMV Achar uma estimativa para o parâmetro populacional τ que maximize a probabilidade de encontrarmos a amostra que possuímos. Em outras palavras, para determinar o estimador de máxima verossimilhança do parâmetro τ, basta achar o valor de τ que maximiza a fdp f(x τ) fixando a amostra X (L(τ X) função de máxima verossimilhança). DEIO/CEAUL Valeska Andreozzi slide 39 19

Exemplo Distribuição normal com variância conhecida. Seja X=(12, 15, 9, 10, 17, 12, 11, 18, 15, 13) uma amostra aleatória das idades das crianças do Hospital São João que segue uma distribuição normal de média µ e variância conhecida e igual a 4. Qual a estimativa de máxima verossimilhança da média µ das idades das crianças? O objetivo é fazer um gráfico da função de log-verossimilhança e achar o ponto máximo que será a estimativa da média µ. DEIO/CEAUL Valeska Andreozzi slide 40 Solução Anaĺıtica 1. Temos que x 1,...,x n é uma amostra aleatória de X N(µ,4), { } 2. a função de densidade (fdp) para cada observação é dada por f(x i ) = 1 exp 2πσ (xi µ)2 2 2σ 2 3. assumindo que as observações são independentes a função de verossimilhanca é dada por L(µ) = 10 1 f(x i), 4. e a log-verossimilhança é dada por l(µ) = 10 1 ln(f(x i )) = 5log(8π) 1 8 ( 10 1 ) 10 x 2 i 2µ x i +10µ 2 DEIO/CEAUL Valeska Andreozzi slide 41 1 20

Solução Gráfica R 1. Amostra de uma distribuição normal com variância igual a 4 > x <- c(12, 15, 9, 10, 17, 12, 11, 18, 15, 13) > x 2. e calculamos as quantidades 10 1 x2 i e 10 1 x i > sx2 <- sum(x^2) > sx <- sum(x) 3. Intervalo para os possíveis valores de µ (sabemos que a média aritmética é um estimativa de µ por isso criamos valores ao redor de 13 = mean(x)) > mu.vals <- seq(11, 15, l=100) > mu.vals DEIO/CEAUL Valeska Andreozzi slide 42 Solução Gráfica no R 4. e a seguir calculamos os valores de l(µ) de acordo com a equação anterior > lmu <- -5 * log(8 * pi) - (sx2-2 * mu.vals * sx + 10 * (mu.vals^2))/8 5. Fazendo o grafico > plot(mu.vals, lmu, type="l", xlab=expression(mu), ylab=expression(l(mu))) DEIO/CEAUL Valeska Andreozzi slide 43 21

Solução Gráfica no R l(µ) 32 31 30 29 28 27 26 11 12 13 14 15 µ DEIO/CEAUL Valeska Andreozzi slide 44 Solução Gráfica no R 6. Obtendo o valor de µ que corresponde ao valor máximo do log da verossimilhança > mu.vals[lmu==max(lmu)] [1] 13.18182 7. Comparando com a média amostral > mean(x) [1] 13.2 DEIO/CEAUL Valeska Andreozzi slide 45 22

Aplicando MMV nos MLG Considere o exemplo número de mortes por Aids (exemplo motivação) Y i Poi(µ i ) e log(µ i ) = β 0 +β 1 t i A contribuição de cada observação para a função de verossimilhança é dada por Pr(Y = y µ) = µy e µ y! DEIO/CEAUL Valeska Andreozzi slide 46 Aplicando MMV nos MLG O log da função de verossimilhança de (β 0,β 1 ) obtida de uma amostra aleatória l(β 0,β 1 y i ) = ln i Pr(Y = y i µ i ) l(β 0,β 1 y i ) = ln i µ yi i e µi y i! l(β 0,β 1 y i ) = i. {y i (β 0 +β 1 t i ) exp(β 0 +β 1 t i ) log(y i!)} DEIO/CEAUL Valeska Andreozzi slide 47 23

Estimativa de Máxima Verossimilhança A estimativa do método da máxima verossimilhança é o valor do parâmetro que maximiza o logarítmo (log) da função de verossimilhança Em casos especiais o log das funções de verossimilhança podem ser resolvidos algebricamente Em outros casos é necessário estimar o parâmetro através da maximização numérica, por exemplo através do método de Newton-Raphson DEIO/CEAUL Valeska Andreozzi slide 48 Método de Newton-Raphson Seja l(β 0,β 1 y i ) = l(β) Para calcular os valores β que maximize a função de verossimilhança temos que derivar e igualar a zero l(β) β k = l (β) = 0 Para resolvermos a equação numericamente fazemos uma expansão de Taylor l (β (0) )+(β β (0) )l (β (0) ) 0 Reescrevendo, temos: β = β (0) l (β (0) ) l (β (0) ) DEIO/CEAUL Valeska Andreozzi slide 49 24

Método Iterativo Passo1: Início: assume qualquer valor inicial para Passo2: Iteração 1: β(1) = β (0) +ǫ Passo3: Iteração k: β(k) = β (k 1) +ǫ Passo4: Volta para o passo 3 até que ǫ seja menor que uma tolerância desejável ǫ = l (β) l (β) No R é utilizado o método iterativo dos mínimos quadrados ponderados, que é baseado no método de Newton-Raphson Critério de parada no R: ǫ = 10 8 β (0) Caso ǫ não atinja este valor dizemos que o processo não convergiu DEIO/CEAUL Valeska Andreozzi slide 50 Método iterativo dos mínimos quadrados ponderados Método iterativo do mínimos quadrados ponderados é baseado no método dos scores de Fisher, que procede com o cálculo das sucessivas iteradas através da relação em que: β (k+1) = β (k) +I( β (k) ) 1 s( β (k) ) I(.) 1 é a inversa (que se supõe existir) da matriz de informação de Fisher (I(β) = E [ 2 l(β) β β T ]) s(β) = l(β) β o vetor de scores A diferença existente entre este algoritmo e o de Newton-Raphson para resolver sistemas de equações não lineares, reside na utilização da matriz de informação de Fisher em vez da matriz Hessiana (H(β) = 2 l(β) ). A β β T vantagem desta substituição deve-se ao facto de, em geral, ser mais fácil calcular a matriz de informação I, para além de ser sempre uma matriz semi-definida positiva. DEIO/CEAUL Valeska Andreozzi slide 51 25

Estimação do parâmetro de dispersão O parâmetro de dispersão apesar de poder ser estimado pelo MMV, pode também ser estimado por um método mais simples. Tal método baseia-se na distribuição de amostragem, para grandes valores de n, da estatística de Person generalizada: φ = 1 n ω i (y i µ i ) 2 n p V( µ) i=1 DEIO/CEAUL Valeska Andreozzi slide 52 Teste de Hipotéses slide 53 Introdução Nesta seção serão apresentados testes de hipóteses sobre o vetor de parâmetro β. Basicamente, dois tipos de hipóteses serão testados Hipótese da nulidade de um componente do vetor de parâmetro para algum j. H 0 : β j = 0 versus H 1 = β j 0 Hipótese da nulidade de um subvetor do vetor de parâmetro H 0 : β r = 0 versus H 1 = β r 0 para algum subvetor de r componentes de β. Esta hipótese corresponde a testar submodelos do modelo original, que será apresentado na seção seguinte. DEIO/CEAUL Valeska Andreozzi slide 54 26

Teste de Wald Através da MMV temos que: β a NMV(β,V ) V = I(β) 1 EP( β k ) = V kk WALD: Testa H 0 : β k = 0 através da estatística t t = β k EP( β k ) Sob a H 0, t segue assintoticamente um distribuição normal com média zero e variância igual a 1 DEIO/CEAUL Valeska Andreozzi slide 55 Exemplo: Fatores de risco do peso ao nascer > birth <- read.table("bw.dat", header = T) > birth$weight<-birth$weight/1000 > head(birth) weight age sex 1 2.968 40 M 2 2.795 38 M 3 3.163 40 M 4 2.925 35 M 5 2.625 36 M 6 2.847 37 M > tail(birth) weight age sex 19 3.126 40 F 20 2.539 37 F 21 2.412 36 F 22 2.991 38 F 23 2.875 39 F 24 3.231 40 F DEIO/CEAUL Valeska Andreozzi slide 56 27

Teste de Wald > summary(glm(weight~age+ sex, data = birth)) Estimate Std. Error t value Pr(> t ) (Intercept) -1.77332 0.79459-2.232 0.0367 * age 0.12089 0.02046 5.908 7.28e-06 *** sexm 0.16304 0.07281 2.239 0.0361 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 DEIO/CEAUL Valeska Andreozzi slide 57 Teste da razão de verossimilhanças O teste da RV é definido por em que RV = 2 ln ( Lp L q ) L p estimativa de máxima verossimilhança do modelo com p parâmetros L q estimativa de máxima verossimilhança do modelo com q < p parâmetros DEIO/CEAUL Valeska Andreozzi slide 58 28

Teste da razão de verossimilhanças Sob a hipótese nula de que os parâmetros adicionais p q são iguais a zero, a estatística RV tem uma distribuição assintótica de um χ 2 sendo p q o número de graus de liberdade l = logaritmo da máxima verossimilhança do modelo RV = 2(l p l q ) a χ 2 p q De acordo com o teste da RV, a hipótese nula é rejeitada a favor da H 1 : pelo menos um parâmetro é diferente de zero, a um nível de significância α, se o valor observado da estatística RV for superior ao quantil de probabilidade 1 α de um χ 2 p q O teste da RV é utilizado na comparação de modelos encaixados (modelos em que um é subconjunto do outro) DEIO/CEAUL Valeska Andreozzi slide 59 Intervalo de confiança para β s Temos que β NMV(β,I(β) a 1 ) Intervalo de Confiança de (1 α)% [ β k z 1 α/2 EP( β k ) ; βk +z 1 α/2 EP( β k )] DEIO/CEAUL Valeska Andreozzi slide 60 29

Exemplo > bw.glm<-glm(weight~age+ sex, data = birth) > bw.sum<-summary(bw.glm) > bw.glm$coeff (Intercept) age sexm -1.7733218 0.1208943 0.1630393 > sqrt(diag(bw.sum$cov.scaled)) (Intercept) age sexm 0.79458608 0.02046295 0.07280821 > bw.glm$coeff - qnorm(1-(.05/2))*sqrt(diag(bw.sum$cov.scaled)) (Intercept) age sexm -3.33071055 0.08078694 0.02033521 > bw.glm$coeff + qnorm(1-(.05/2))*sqrt(diag(bw.sum$cov.scaled)) (Intercept) age sexm -0.2159331 0.1610017 0.3057434 #forma simples de encontrar IC para os par^ametros betas > confint(bw.glm) DEIO/CEAUL Valeska Andreozzi slide 61 Seleção de modelos slide 62 Modelo saturado Para um MLG com n observações, o número máximo de parâmetros é igual a n, isto é, um parâmetro para cada observação de tal forma que o modelo se ajusta perfeitamente aos dados. Não oferece qualquer simplificação e, como tal, não tem interesse na interpetação do problema, já que não faz sobressair características importantes transmitidas pelos dados. O modelo saturado fornece o maior valor que a função de verossimilhança pode atingir. Toda a variação do modelo saturado é atribuída ao componente sistemático. DEIO/CEAUL Valeska Andreozzi slide 63 30

Modelo saturado > summary(glm(weight~factor(1:nrow(birth)), data = birth)) Deviance Residuals: [1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Estimate Std. Error t value Pr(> t ) (Intercept) 2.968 NA NA NA factor(1:nrow(birth))2-0.173 NA NA NA factor(1:nrow(birth))3 0.195 NA NA NA factor(1:nrow(birth))4-0.043 NA NA NA factor(1:nrow(birth))5-0.343 NA NA NA... factor(1:nrow(birth))21-0.556 NA NA NA factor(1:nrow(birth))22 0.023 NA NA NA factor(1:nrow(birth))23-0.093 NA NA NA factor(1:nrow(birth))24 0.263 NA NA NA (Dispersion parameter for gaussian family taken to be NaN) Null deviance: 1.8299e+00 on 23 degrees of freedom Residual deviance: 1.8144e-29 on 0 degrees of freedom AIC: -1546.5 DEIO/CEAUL Valeska Andreozzi slide 64 Modelo nulo Modelo nulo é um modelo que possui um único parâmetro. Todas as observações tem um parâmetro em comum e igual a E(Y i ) = µ = y É um modelo de estrutura muito simples, que raramente captura a estrutura inerente aos dados. Toda a variação do modelo nulo é atribuída ao componente aleatório. DEIO/CEAUL Valeska Andreozzi slide 65 31

Modelo nulo > summary(glm(weight~1, data = birth)) Deviance Residuals: Min 1Q Median 3Q Max -0.55567-0.18292-0.01617 0.21683 0.50533 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 2.96767 0.05758 51.54 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for gaussian family taken to be 0.07955971) Null deviance: 1.8299 on 23 degrees of freedom Residual deviance: 1.8299 on 23 degrees of freedom AIC: 10.338 DEIO/CEAUL Valeska Andreozzi slide 66 Função desvio (Deviance) Função desvio D (residual deviance) D = 2φ{l s l m } l s = log verossimilhança do modelo saturado (valor máximo) l m = log verossimilhança do modelo em questão D é uma distância entre a log verossimilhança do modelo saturado e a log verossimilhança do modelo em questão Quanto mais próximo o MLG estimado, ˆµ, estiver dos dados observados, y, menor será o valor da função desvio D Como l s é o maior valor da log verossimilhança temos que l m será sempre menor e consequentemente D é sempre positiva DEIO/CEAUL Valeska Andreozzi slide 67 32

Função desvio Representação gráfica da função desvio D/φ = 2{l s l m } Scaled Deviance Função desvio D é análoga a Soma dos Quadrados dos Erros (SQE = n i=1 (y i ˆµ i ) 2 ) do modelo de regressão linear No caso de Y Normal temos que D é igual a SQE DEIO/CEAUL Valeska Andreozzi slide 68 Função desvio Função desvio de um modelo de Poisson Seja a variável resposta Y 1,...,Y n independentes e Y i Poisson(λ i ) com função de log-verossimilhança l(β,y) = y i lnλ i λ i lny i! Para o modelo saturado temos as estimativas de máxima verossimilhança para λ i = y i, logo o valor máximo da função de log-verossimilhança é l s (β,y) = y i lny i y i lny i! DEIO/CEAUL Valeska Andreozzi slide 69 33

Função desvio Função desvio de um modelo de Poisson Para um modelo com p < n parâmetros podemos utilizar as estimativas de máxima verossimilhança dos parâmetros do modelo (β) para calcular λ i e consequentemente os valores ajustados ŷ i = λ i. Logo a função de log- verossimilhança fica assim definida l m (β,y) = y i lnŷ i ŷ i lny i! E a função desvio tem a seguinte expressão: D = 2{l s l m } = 2{ yi lny i /ŷ i } (y i ŷ i ) DEIO/CEAUL Valeska Andreozzi slide 70 Exercício Escreva a função desvio para um modelo binomial. (Y 1,...,Y n independentes e Y i binomial(m i,π i )) DEIO/CEAUL Valeska Andreozzi slide 71 34

Exemplo: Fatores de risco do peso ao nascer > attach(birth) > plot(age,weight,pch=19,col="blue") > points(age[sex=="f"],weight[sex=="f"],pch=19,col=2) weight 2.4 2.6 2.8 3.0 3.2 3.4 35 36 37 38 39 40 41 42 age DEIO/CEAUL Valeska Andreozzi slide 72 Exemplo: Fatores de risco do peso ao nascer > summary(glm(weight~age+sex, data = birth)) Deviance Residuals: Min 1Q Median 3Q Max -0.25749-0.12528-0.05844 0.16900 0.30398 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -1.77332 0.79459-2.232 0.0367 * age 0.12089 0.02046 5.908 7.28e-06 *** sexm 0.16304 0.07281 2.239 0.0361 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for gaussian family taken to be 0.03137004) Null deviance: 1.82987 on 23 degrees of freedom Residual deviance: 0.65877 on 21 degrees of freedom AIC: -10.181 Number of Fisher Scoring iterations: 2 DEIO/CEAUL Valeska Andreozzi slide 73 35

Comparando com modelo linear Função desvio = SQE > summary(lm(weight~age+sex, data = birth)) Estimate Std. Error t value Pr(> t ) (Intercept) -1.77332 0.79459-2.232 0.0367 * age 0.12089 0.02046 5.908 7.28e-06 *** sexm 0.16304 0.07281 2.239 0.0361 * Residual standard error: 0.1771 on 21 degrees of freedom Multiple R-squared: 0.64, Adjusted R-squared: 0.6057 F-statistic: 18.67 on 2 and 21 DF, p-value: 2.194e-05 > anova(lm(weight~age+sex, data = birth)) Analysis of Variance Table Response: weight Df Sum Sq Mean Sq F value Pr(>F) age 1 1.01380 1.01380 32.3174 1.213e-05 *** sex 1 0.15730 0.15730 5.0145 0.03609 * Residuals 21 0.65877 0.03137 DEIO/CEAUL Valeska Andreozzi slide 74 Exemplo: Fatores de risco do peso ao nascer Escreva a equação do modelo > plot(age,weight,pch=19,col="blue") > points(age[sex=="f"],weight[sex=="f"],pch=19,col=2) > fx<-function(x){-1773.32+120.89*x} > curve(fx,35,42,add=t,col=2) > fx<-function(x){-1773.32+163.04+120.89*x} > curve(fx,35,42,add=t,col="blue") weight 2.4 2.6 2.8 3.0 3.2 3.4 35 36 37 38 39 40 41 42 age DEIO/CEAUL Valeska Andreozzi slide 75 36

Outro exemplo: Estudo experimental > mice<-read.table("mice.dat",header=t) > dim(mice) [1] 26 2 > mice dose response 1 0.0 0 2 0.1 0 3 0.2 0 4 0.3 0 5 0.4 0 6 0.5 1 7 0.6 0 8 0.7 0... DEIO/CEAUL Valeska Andreozzi slide 76 Outro exemplo: Estudo experimental > summary(glm(response~dose, data = mice, family=binomial)) Call: glm(formula=response~dose, family=binomial, data=mice) Deviance Residuals: Min 1Q Median 3Q Max -1.5766-0.4757 0.1376 0.4129 2.1975 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -4.111 1.638-2.510 0.0121 * dose 3.581 1.316 2.722 0.0065 ** (Dispersion parameter for binomial family taken to be 1) Null deviance: 35.890 on 25 degrees of freedom Residual deviance: 17.639 on 24 degrees of freedom AIC: 21.639 Number of Fisher Scoring iterations: 6 DEIO/CEAUL Valeska Andreozzi slide 77 37

Análise de deviance Notação M q Modelo com p q parâmetros M m Modelo com p m parâmetros M m M q, isto é, o modelo M m é um subconjunto do modelo M q, em outras palavras, o modelo M q contém todas as covariáveis do modelo M m = modelos encaixados D q função desvio do modelo M q D m função desvio do modelo M m DEIO/CEAUL Valeska Andreozzi slide 78 Análise de deviance Sob a H 0 de que o modelo mais simples M m é melhor, temos o resultado assintótico (D m D q )/φ a χ 2 p q p m Este resultado é exato quando Y Normal com σ 2 conhecido Diferença entre função desvio equivale ao Teste da Razão de Verossimilhança(D m D q )/φ = 2(l q l m ) = 2ln ( ) Lq L m DEIO/CEAUL Valeska Andreozzi slide 79 38

Análise de deviance Para modelos normais em que não conhecemos σ 2 usamos o teste F ao invés do teste χ 2 Sob a H 0 de que o modelo simples M m é melhor, temos o resultado exato (D m D q )/p q p m D q /(n p q ) F pq p m,n p q DEIO/CEAUL Valeska Andreozzi slide 80 Comparando modelos encaixados 1. Y Normal com σ 2 desconhecido Teste F: (Dm Dq)/pq pm D q/(n p q) F pq p m,n p q No R > anova(mm,mq, test = "F") 2. Caso contrário Teste χ 2 : (D m D q )/φ a χ 2 p q p m No R > anova(mm,mq, test = "Chisq") DEIO/CEAUL Valeska Andreozzi slide 81 39

Exemplo > mice.reg1<-glm(response~1, data = mice, family=binomial) > mice.reg2<-glm(response~dose, data = mice, family=binomial) > anova(mice.reg1,mice.reg2,test = "Chisq") Analysis of Deviance Table Model 1: response ~ 1 Model 2: response ~ dose Resid. Df Resid. Dev Df Deviance P(> Chi ) 1 25 35.890 2 24 17.639 1 18.250 1.937e-05 DEIO/CEAUL Valeska Andreozzi slide 82 Comparando modelos não encaixados Critério de Akaike - AIC (Akaike Information Criteria) Penaliza o log da verossimilhança pelo número de parâmetros do modelo AIC = 2l(β)+2p l: logaritmo da função de verossimilhança do modelo e p: número de parâmetros do modelo Quanto menor o AIC melhor o modelo No R: extractaic(modelo) DEIO/CEAUL Valeska Andreozzi slide 83 40

Exemplo > mice.reg1<-glm(response~1, data = mice, family=binomial) > mice.reg2<-glm(response~dose, data = mice, family=binomial) > extractaic(mice.reg1) [1] 1.00000 37.88966 > extractaic(mice.reg2) [1] 2.00000 21.63922 DEIO/CEAUL Valeska Andreozzi slide 84 Seleção sequencial de variáveis Procedimentos Forward: modelos são sistematicamente construídos através da adição de variáveis uma a uma no modelo nulo. Backward: modelos são sistematicamente reduzidos através da exclusão de variáveis uma a uma do modelo completo. Stepwise: é uma combinação dos dois procedimentos anteriores Para qualquer dos procedimentos, a decisão crucial está na escolha da regra de paragem. Algumas escolhas são Akaike Information Criteria, o qual não possui nenhuma distribuição associada para proceder um teste formal, ou a Análise de deviance, em que o nível de significância para adicionar ou excluir a uma variável deve ser escolhido. Antes de adotar um critério de seleção de modelos (ou variáveis), defina claramente o objetivo do modelo Modelo Preditivo - Ex.: Prever a pressão arterial dado o valor da idade e do sexo Modelo Explicativo - Ex.: quantificar a associação entre pressão arterial e variáveis sócio-econômicas (idade e sexo). Sempre que possível descreva um modelo teórico da associação entre o desfecho e as covariáveis. DEIO/CEAUL Valeska Andreozzi slide 85 41

Modelo Teórico Exemplo de seleção de modelo Artigo: Fuchs, Victora e Fachel (1996). Modelo Hierarquizado: uma proposta de modelagem aplicada à investigação de fatores de risco para diarréia grave. Revista de Saúde Pública, 30(2): 168-78. Clique para obter PDF online DEIO/CEAUL Valeska Andreozzi slide 86 Peso ao nascer: birth.dat 1. bwt - peso ao nascer 2. low - peso categorizado em 0 - normal, 1 < 2500g 3. age - idade da mãe 4. lwt - peso da mãe em libras na última regra 5. race - raça da mãe: 1 - branco, 2 - negro, 3 - outros 6. smoke - hábito de fumar 0 - não, 1 - sim 7. ptl - número de prematuros em gestações anteriores 8. ht - indicador de hipertensão: Existe e NE (não existe) 9. ftv - número de consultas de pré-natal DEIO/CEAUL Valeska Andreozzi slide 87 42

Exemplo no R bw <- read.table("birth.dat", header = T) head(bw) names(bw) bw$ht <- relevel(bw$ht, "NE") bw$race <- factor(bw$race,labels=c("bco", "Ngo", "Out")) bw$smoke <- factor(bw$smoke) bw$bwt <- bw$bwt/1000 summary(bw) bw.mod1 <- glm(bwt ~ age+lwt+race+smoke+ht+ftv, data = bw) summary(bw.mod1) anova(bw.mod1,test="f") mod.both<-step(bw.mod1,direction="both") mod.both mod.back<-step(bw.mod1,direction="backward") mod.back bw.nulo <- glm(bwt ~ 1, data = bw) mod.forw<-step(bw.nulo,scope=list(upper=~age+lwt+race+smoke+ht+ftv), direction="forward") mod.forw mod.back mod.both DEIO/CEAUL Valeska Andreozzi slide 88 Dicas de modelagem Covariável contínua ou discreta Quando usar a covariável contínua ou quando categorizar? A diferença fundamental está na premissa de linearidade. Se esta premissa estiver ok, utilize a covariável contínua, mas caso isso não ocorre, teríamos que usar tranformações da covariável (ex.: termos polinomiais) dificultando a interpretação do modelo. Alternativa é categorizar a variável permitindo que a variável resposta varie arbitrariamente de uma categoria para outra. Vantagem de categorizar a covariável: fácil interpretação Desvantagem: ao agrupar a covariável não estamos fazendo o uso de toda a informação dos dados. DEIO/CEAUL Valeska Andreozzi slide 89 43

Dicas de modelagem Modelos mais complicados Inclusão de termos polinomiais, transformação de covariáveis para capturar a não-linearidade. No caso de termos polinomiais temos que ter cuidado para não introduzir covariáveis altamente correlacionadas (multicolinearidade) Inclusão de termos de interação: o efeito de uma covariável depende do valor da outra covariável Para avaliar se termos mais complicados nos modelos são realmente necessários, verifique se sua inclusão reduz significativamente o deviance. DEIO/CEAUL Valeska Andreozzi slide 90 Dicas de modelagem Não são regras e por isso podem ser violadas 1. Se existe uma interação A : B no modelo entre duas covariáveis A e B devemos evitar retirar o efeito principal das variáveis 2. Se temos um conhecimento prévio de que uma covariável afeta uma variável resposta, podemos mantê-la no modelo mesmo que a análise de desvio indique que ela não é importante DEIO/CEAUL Valeska Andreozzi slide 91 44

Diagnóstico slide 92 Introdução Não se deve esquecer que um modelo é apenas uma aproximação da realidade. Todos os modelos envolvem várias premissas em relação aos dados. Contudo, na maioria das vezes apenas uma porção dos dados se mostra consoante as premissas do modelo. Logo, torna-se essencial avaliar se as premissas dos modelos ajustados foram respeitadas para garantir a interpretabilidade do modelo. DEIO/CEAUL Valeska Andreozzi slide 93 Introdução Tópicos a serem verificados na etapa de diagnóstico do modelo Verificar se o modelo se ajusta aos dados Premissas do modelo Procurar pontos outliers Procurar pontos influentes Necessidade de inclusão de covariáveis Escolha correta da função de ligação Escolha da escala das covariáveis DEIO/CEAUL Valeska Andreozzi slide 94 45

Valores ajustados e resíduos No caso dos MLG os resíduos ordinários r i = y i µ i apresentam diferentes variabilidades Logo torna-se necessário padronizar os resíduos ordinários pelo erro padrão de y i. Em geral, o erro padrão de r i é uma função dos parâmetros do modelo estimado por V( µ i ) Temos também que levar em consideração os efeitos das covariáveis nos resíduos através da matriz hat. Cálculos relativamente simples, mas morosos, permitem estabelecer que, assintoticamente: DEIO/CEAUL Valeska Andreozzi slide 95 Valores ajustados e resíduos Var(r i ) = Var(Y i )(1 h ii ) Var(r i ) = φv( µ i )(1 h ii ) h ii são os valores da diagonal da matriz hat ( µ = Hy). h ii são uma medida de influência exercida por y i no cálculo de µ i Este resultado mostra que os resíduos podem ter variâncias diferentes, mesmo que a variância da variável resposta seja constante, porque a precisão dos resíduos depende do padrão das covariáveis. Conclusão: devemos utilizar resíduos padronizados DEIO/CEAUL Valeska Andreozzi slide 96 46

Resíduo de Pearson Resíduo de Pearson r p i = yi µi = yi µi Var(Yi) φv( µi) > res <- residuals(fit, type = "pearson") Resíduo de Pearson padronizado r p i = y i µ i φv( µi)(1 h ii) > res <- rstandard(fit, type="pearson") r p i corresponde à contribuição de cada observação para o cálculo da estatística de Pearson generalizada. A desvantagem do resíduo de Pearson é que sua distribuição é geralmente assimétrica para modelos não normais. DEIO/CEAUL Valeska Andreozzi slide 97 Resíduo de Pearson Resíduo de Pearson Padronizado Modelo Normal Modelo Poisson Modelo Binomial r p i = y i µ i φ(1 h ii ) r p y i µ i i = µi (1 h ii ) r p y i µ i i = µi (1 µ i )(1 h ii ) DEIO/CEAUL Valeska Andreozzi slide 98 47

Resíduo Deviance Resíduo Deviance r d i = sinal(y i µ i ) d i d i = contribuição da i-ésima observação para a função desvio > res <- residuals(fit, type = "deviance") Resíduo Deviance Padronizado ri d = r D φ(1 hii) > res <- rstandard(fit, type="deviance") DEIO/CEAUL Valeska Andreozzi slide 99 Resíduos Resíduos de Pearson e Deviance devem ser aproximadamente Normais(0,1) para dados que seguem uma distribuição Normal, de Poisson e Binomial com grandes contagens. 95% dos resíduos devem estar entre 2 e 2 Para dados Bernoulli e Binomial com pequenas contagens não podemos esperar que os resíduos de Pearson e Deviance possuam uma distribuição Normal padronizada, em geral a distribuição é assimétrica. Contudo a maioria dos resíduos devem estar entre 2 e 2 e sua variância deve ser unitária DEIO/CEAUL Valeska Andreozzi slide 100 48

Variância constante Para avaliar evidência de variância não constante utilizamos o seguinte gráfico Gráficos dos resíduos padronizados vs preditores lineares η ou vs função dos valores ajustados µ ou vs índice Devemos encontrar um padrão nulo, Os resíduos devem estar distribuídos em torno do zero com amplitude constante para diferentes valores de µ Transformações sugeridas por McCullagh e Nelder µ para o modelo normal 2 µ para o modelo de Poisson 2sin 1 µ para o modelo binomial 2ln( µ) para o modelo gamma DEIO/CEAUL Valeska Andreozzi slide 101 Variância constante bw <- read.table("birth.dat", header = T) bw$ht <- relevel(bw$ht, "NE") bw$race <- factor(bw$race,labels=c("bco", "Ngo", "Out")) bw$smoke <- factor(bw$smoke) bw.mod2<-glm(formula = bwt ~ lwt + race + smoke + ht, data = bw) res<-rstandard(bw.mod2,type="deviance") plot(bw.mod2$fitted.values,res,xlab="valores ajustados", ylab="resíduos deviance padronizados") lines(lowess(bw.mod2$fitted.values,res),col="red") abline(h=0,lty=2) DEIO/CEAUL Valeska Andreozzi slide 102 49

Variância constante resíduos deviance padronizados 3 2 1 0 1 2 2500 3000 3500 valores ajustados DEIO/CEAUL Valeska Andreozzi slide 103 Inclusão de nova variável Para avaliar a inclusão de uma nova variável no modelo utilizamos: Gráficos dos resíduos do modelo vs a nova covariável não incluída no modelo Não existe evidência de associação da variável resposta e a nova variável caso um padrão nulo seja encontrado plot(bw$age,res,xlab="age",ylab="resíduos deviance padronizados") lines(lowess(bw$age,res)) abline(h=0,lty=2) DEIO/CEAUL Valeska Andreozzi slide 104 50

Inclusão de nova variável resíduos deviance padronizados 3 2 1 0 1 2 15 20 25 30 35 40 45 age DEIO/CEAUL Valeska Andreozzi slide 105 Relação linear das covariáveis Para avaliar se a relação da covariável é linear Gráficos dos resíduos vs covariáveis incluídas no modelo + função de alisamento plot(bw$lwt,res,xlab="lwt",ylab="resíduos deviance padronizados") lines(lowess(bw$lwt,res)) abline(h=0,lty=2) DEIO/CEAUL Valeska Andreozzi slide 106 51

Relação linear das covariáveis resíduos deviance padronizados 3 2 1 0 1 2 100 150 200 250 lwt DEIO/CEAUL Valeska Andreozzi slide 107 Relação linear das covariáveis Estamos interessados em avaliar a relação linear parcial da variável resposta Y com a covariável x j ( controlando pelas outras covariáveis presentes no modelo) e não na relação marginal (ignorando as outras covariáveis). Neste caso outro gráfico útil na avaliação da relação linear da covariável é Component-plus-residuals plot também conhecido como partial-residuals plot O gráfico é composto pelo resíduo parcial da covariável x j dado por r (j) i = r i +B j x ij versus a própria covariável x j. (r i = y i µ i ) O resíduo parcial r (j) i é definido através da adição do termo linear da relação entre Y e x j aos resíduos do modelo (r i ), que podem conter um componente não linear Espera-se encontrar uma relação linear entre r (j) e x j. Geralmente a não linearidade é aparente, e por isso é aconselhado incluir um função de alisamento no gráfico library(car) bw.mod2<-glm(formula = bwt ~ lwt + race + smoke + ht, data = bw) crplots(bw.mod2,terms=~lwt) crplots(bw.mod2) #vers~oes antigas do R: cr.plots DEIO/CEAUL Valeska Andreozzi slide 108 52

Relação linear das covariáveis Component+Residual Plot Component+Residual(bwt) 2000 1000 0 1000 100 150 200 250 lwt DEIO/CEAUL Valeska Andreozzi slide 109 Relação não-linear das covariáveis Quando a relação entre a variável resposta e a covariável contínua é não linear o que devemos fazer? Categorizar a covariável, caso a não-linearidade seja caracterizada por uma função segmentada. Adicionar termos polinomiais. Podemos incluir termos quadráticos da covariável em questão, ou seja X 2 j, mas nem sempre a não-linearidade é de natureza parabólica. A adição de termos polinominais pode ser uma solução, contudo apresentam algumas propriedades não desejáveis (presença de picos e depressões; problemas em modelar dados com threshold) Utilizar transformações Box-Cox. Problemas: perda de interpretação da covariável Uma outra alternativa é incluir termos não lineares através de funções de alisamento (paramétricos ou não paramétricos). Desta forma são caracterizados os modelos aditivos generalizados. DEIO/CEAUL Valeska Andreozzi slide 110 53

Pontos influentes - Leverage µ = X β = HY µ i = H ii y i + j i H ihy i H matriz hat h ii Leverage de uma observação y i h ii mede a influência de y em µ quanto maior h ii, maior é o peso de y i no valor ajustado n i=1 h ii = p, onde n = número de observações e p = número de parâmetros do modelo. Rule of thumb h ii é considerado grande se for maior que duas ou três vezes p/n. Logo podemos investigar valores maiores de h i /(p/n) maiores que 2 como sendo possíveis pontos influentes. Caso os resíduos desses pontos identificados como influentes não sejam grandes, não precisamos nos preocupar. DEIO/CEAUL Valeska Andreozzi slide 111 Exemplos h<-hatvalues(bw.mod2) p <- dim(model.matrix(bw.mod2))[[2]] #num de parametros n <- dim(model.matrix(bw.mod2))[[1]] #num de observaç~oes plot(h/(p/n), ylab = "Leverage h/(p/n)", xlab = "Índice", cex.lab = 1.5, pch = 19) abline(h=2, lty = 2) Leverage h/(p/n) 1 2 3 4 5 0 50 100 150 Índice DEIO/CEAUL Valeska Andreozzi slide 112 54

Pontos influentes: Cooks Distance Informação conjunta do Leverage e Resíduo CD i rp i p hii 1 h ii res <- rstandard(bw.mod2, type="deviance") plot(h,res) abline(h=c(-2,2),lty=2) abline(v=c(2,3)*mean(h),lty=2) library(car) plot(cooks.distance(bw.mod2)) #vers~oes antigas do R: cookd() ao invés de cooks.distance() res 3 2 1 0 1 2 Cooks Distance 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 h 0 50 100 150 Índice DEIO/CEAUL Valeska Andreozzi slide 113 Função de ligação Um método para verificar se a função de ligação escolhida é adequada consite em simplesmente adicionar η 2 (preditor linear) como covariável extra no modelo e examinar a mudança ocorrida na deviance, isto é, fazer o teste da razão de verossimilhanças. Se o teste da razão de verosimillhanças for significativo podemos dizer que há evidência de que a função de ligação não é adequada. Observação importante: A adequação da função de ligação pode ser afetada pela falha em estabelecer escalas corretas para as variáveis explanatórias no preditor linear. Em particular, se o teste formal construído pela adição de η 2 indica desvio do modelo, isto pode indicar função de ligação errada ou escalas erradas para as variáveis explanatórias ou ambas. Pontos atípicos, também, podem afetar a escolha da função de ligação. No source("glmfunc.r") foi construído a função goodlink() para testar a adequação da função de ligação DEIO/CEAUL Valeska Andreozzi slide 114 55