Resenha dos Modelos Lineares Generalizados

Documentos relacionados
Resenha Modelos Lineares Generalizados

Exemplos Equações de Estimação Generalizadas

Exemplo Placas Dentárias

Exemplo MLG Misto. Gilberto A. Paula. Departamento de Estatística IME-USP, Brasil

Exemplos Regressão Dados de Contagem

Exemplo Ataques Epilépticos

Exemplos Modelos de Quase-Verossimilhança

Exemplo Número de Clientes da Loja

Exemplo Misto Ataques Epilépticos

MAE Modelos Lineares Generalizados 2 o semestre 2017

Modelo Linear Generalizado Exponencial Potência

Exemplo Multicolinearidade

Exemplo Regressão Robusta

Exemplo Abastecimento de Refrigerantes

Exemplo Chamadas Telefônicas

Exemplo Falhas em Tecidos

Exemplo Vida Útil de Ferramentas

Exemplos Regressão Dados Binários

Exemplo Ausências Escolares

Modelos Lineares Generalizados

Exemplo Cupons com Desconto

Faturamento de Restaurantes

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Exemplos Modelos Binomiais de Dose-Resposta

Exemplo Infecções de Ouvido

Disciplina de Modelos Lineares Professora Ariane Ferreira

Exemplo Cupons com Desconto

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

Modelo de regressão Beta

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

Modelos Binomial e Poisson

Exemplo Espinhel de Fundo

Regressão de Poisson e parentes próximos

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Análise de Dados Longitudinais Aula

Modelos Lineares Generalizados - Componentes do Modelo

4 Modelos Lineares Generalizados

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

ESTATÍSTICA COMPUTACIONAL

Modelos não lineares de família exponencial revisitados. Adriana Alvarez Possamai. de Mestre em Ciências

Ajuste e comparação de modelos para dados grupados e censurados

Modelos Binomial e Poisson

Influência Local Gilberto A. Paula

Aplicação dos modelos lineares generalizados na análise do

Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação

Modelos de regressão para dados correlacionados. Cibele Russo

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Aplicação do modelo de Quase-Verossimilhança

Análise de Dados Categóricos

Modelos e inferência para um experimento em blocos casualizados para o número de vagens em soja RESUMO

Modelos de regressão beta inflacionados

Modelagem de dados complexos por meio de extensões do modelo de

Estatística e Delineamento

Modelos de regressão para dados correlacionados. Cibele Russo

O USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

Exemplo Preferência de Automóveis

Técnicas computacionais em probabilidade e estatística II

Modelos para dados de contagem

Transformações e Ponderação para corrigir violações do modelo

UNIVERSIDADE FEDERAL DE OURO PRETO PRÓ REITORIA DE GRADUAÇÃO. Código: EST011 Departamento: Unidade: DEPARTAMENTO DE ESTATÍSTICA

Regressão Linear - Parte I

MLG. 16 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates

CONHECIMENTOS ESPECÍFICOS

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

Modelos lineares parciais aditivos generalizados com suavização por meio de P-splines. Amanda Amorim Holanda

O uso dos modelo ZIP, ZINB e Hurdle Model para dados de contagem com excessos de zeros

MODELANDO DADOS LONGITUDINAIS DE PROPORÇÕES DE PEGAMENTO DE CAMU-CAMU

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP. lane. Ref: Kim e Nelson (1999) e Hamilton (1990)

Estatística e Delineamento

IND 1115 Inferência Estatística Aula 6

Modelos de Regressão Linear Simples - parte III

Modelos de Regressão Linear Simples - parte II

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Modelo de regressão estável aplicado a econometria

Aline Campos Reis de Souza Instituto de Matemática e Estatística - Universidade de São Paulo Antonio Carlos Pedroso de Lima. 30 de abril de 2018

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Modelos de Regressão Linear Simples - Análise de Resíduos

COMPARAÇÃO DE DUAS ABORDAGENS DOS MODELOS DE TRANSIÇÃO DE MARKOV EM EXPERIMENTOS PLANEJADOS COM DADOS BINÁRIOS CORRELACIONADOS

Modelos de Regressão Linear Simples - Análise de Resíduos

Utilização de modelos marginais na análise de dados longitudinais irregulares em relação ao tempo

COMPARAÇÃO ENTRE TESTES PARA SUPERDISPERSÃO EM DADOS BINÁRIOS

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais

SME0803 ANÁLISE DE REGRESSÃO 1º/2011

Dimensionamento de amostras para regressão logística

Correlação e Regressão

Uso de modelos lineares generalizados para estimar germinação carpogênica de escleródios de S. sclerotioroum

1 z 1 1 z 2. Z =. 1 z n

Coeficiente de determinação R 2 no modelo de regressão linear normal

Modelagem estatística da captura da broca-do-café (Hypothenemus hampei) ao longo do tempo 1

3 Modelos para o Cálculo de IBNR

MODELO POISSON GLARMA APLICADO A ATENDIMENTOS HOSPITALARES POR CAUSAS RESPIRATÓRIAS NA REGIÃO DA GRANDE VITÓRIA - E.S.

Transcrição:

Resenha dos Modelos Lineares Generalizados p. 1/67 Resenha dos Modelos Lineares Generalizados Gilberto A. Paula Departamento de Estatística IME-USP MAE5763 - Modelos Lineares Generalizados 2 o semestre de 2011

Resenha dos Modelos Lineares Generalizados p. 2/67 Sumário Introdução A ideia dos MLGs Nova família Um exemplo simples Contribuições dos MLGs Modelos de quase-verossimilhança Equações de estimação generalizadas Modelos aditivos generalizados

Resenha dos Modelos Lineares Generalizados p. 3/67 Modelos não lineares de família exponencial Modelos lineares generalizados duplos Modelos lineares generalizados mistos Modelos lineares generalizados hierárquicos Aplicativos Conclusões Referências

Resenha dos Modelos Lineares Generalizados p. 4/67 Introdução O objetivo desta palestra inaugural é fazer uma resenha dos Modelos Lineares Generalizados(MLGs) criados há quase 40 anos por Nelder e Wedderburn (1972).

Resenha dos Modelos Lineares Generalizados p. 4/67 Introdução O objetivo desta palestra inaugural é fazer uma resenha dos Modelos Lineares Generalizados(MLGs) criados há quase 40 anos por Nelder e Wedderburn (1972). Após uma breve introdução dos MLGs apresentaremos em ordem cronológica algumas das principais classes de modelos de regressão que foram motivadas pelos MLGs. Algumas dessas classes serão estudadas na disciplina Modelos Lineares Generalizados. Exemplos ilustrativos são também apresentados ao longo do texto.

Resenha dos Modelos Lineares Generalizados p. 5/67 Antes dos MLGs Os MLGs foram criados com o objetivo de reunir numa mesma família vários modelos estatísticos que eram tratados separadamente. Em geral nas análises de regressão procurava-se algum tipo de transformação que levasse à normalidade, tais como a transformação de Box-Cox (1964) z = { y λ 1 λ se λ 0 logy se λ = 0, em que y > 0 e λ é uma constante desconhecida.

Resenha dos Modelos Lineares Generalizados p. 6/67 A ideia dos MLGs O modelo normal linear é definido por (1) Y i indep N(µ i,σ 2 ) (i = 1,...,n), (2) µ i = η i = β 1 +β 2 x i2 + +β p x ip.

Resenha dos Modelos Lineares Generalizados p. 6/67 A ideia dos MLGs O modelo normal linear é definido por (1) Y i indep N(µ i,σ 2 ) (i = 1,...,n), (2) µ i = η i = β 1 +β 2 x i2 + +β p x ip. Os MLGs são definidos por (1) Y i indep FE(µ i,φ) (i = 1,...,n), (2) µ i = g 1 (η i ), em que E(Y i ) = µ i, Var(Y i ) = φ 1 V(µ i ), V(µ i ) função de variância, g( ) função de ligação, φ 1 parâmetro de dispersão e η i preditor linear.

Resenha dos Modelos Lineares Generalizados p. 7/67 Nova família Alguns modelos da nova família:

Resenha dos Modelos Lineares Generalizados p. 7/67 Nova família Alguns modelos da nova família: Modelo logístico-linear (1) Y i indep Be(µ i ) (i = 1,...,n), (0 < µ i < 1), (2) µ i = exp(η i) 1+exp(η i ).

Resenha dos Modelos Lineares Generalizados p. 7/67 Nova família Alguns modelos da nova família: Modelo logístico-linear (1) Y i indep Be(µ i ) (i = 1,...,n), (0 < µ i < 1), (2) µ i = exp(η i) 1+exp(η i ). Modelo recíproco gama (1) Y i indep G(µ i,φ) (i = 1,...,n), (2) µ i = η 1 i, em que (µ i > 0) e (Y i > 0).

Resenha dos Modelos Lineares Generalizados p. 8/67 Nova família Modelo log-linear de Poisson (1) Y i indep P(µ i ) (i = 1,...,n), (2) µ i = e η i, em que (Y i = 0,1,2,...), (µ i > 0) e (Var(Y i ) = µ i ).

Resenha dos Modelos Lineares Generalizados p. 8/67 Nova família Modelo log-linear de Poisson (1) Y i indep P(µ i ) (i = 1,...,n), (2) µ i = e η i, em que (Y i = 0,1,2,...), (µ i > 0) e (Var(Y i ) = µ i ). Modelo log-linear binomial negativo (1) Y i indep BN(µ i,φ) (i = 1,...,n), (2) µ i = e η i, em que (Y i = 0,1,2,...), (µ i > 0) e (Var(Y i ) = µ i + µ2 i φ ).

Resenha dos Modelos Lineares Generalizados p. 9/67 Um exemplo simples Vamos considerar um exemplo em que modelos de regressão normal linear são comparados com um modelo log-linear de Poisson para ajustar dados de contagem. resposta: número de bactérias sobreviventes em amostras de um produto elimentício exposto a uma temperatura de 300 o F. variável explicativa: tempo de exposição do produto (em minutos). (Montgomery, Peck e Vining, 2001) (Paula, 2010).

Resenha dos Modelos Lineares Generalizados p. 10/67 Descrição dados bactérias Bactérias 175 108 95 82 71 50 Exposição 1 2 3 4 5 6 Bactérias 49 31 28 17 16 11 Exposição 7 8 9 10 11 12 Numero de Bacterias 50 100 150 2 4 6 8 10 12 Tempo de Exposicao

Resenha dos Modelos Lineares Generalizados p. 11/67 Ajuste modelos nomais Com base na aproximação da Poisson pela normal vamos propor inicialmente os seguintes modelos: yi = α+βtempo i +ǫ i e yi = α+βtempo i +γtempo 2 i +ǫ i, em que ǫ i N(0,σ 2 ) são erros mutuamente independentes. Pelos gráficos de resíduos a observação #1 não foi bem ajustada pelos dois modelos.

Resenha dos Modelos Lineares Generalizados p. 12/67 Resíduos modelos normais Residuo Studentizado -2 0 2 4 6 Residuo Studentizado -2 0 2 4-1 0 1 Percentis da N(0,1) (linear) -1 0 1 Percentis da N(0,1) (quadratico)

Resenha dos Modelos Lineares Generalizados p. 13/67 Ajuste modelo de Poisson Vamos supor agora o seguinte modelo log-linear de Poisson logµ i = α+βtempo i, em que Y i P(µ i ). As estimativas desse modelo são apresentadas na tabela abaixo. Parâmetro Estimativa E/E.Padrão α 5,30 88,34 β -0,23-23,00 Desvio 8,42 (10 g.l.)

Resenha dos Modelos Lineares Generalizados p. 14/67 Resíduos modelo de Poisson Componente do Desvio -2-1 0 1 2 3-1 0 1 Percentis da N(0,1)

Resenha dos Modelos Lineares Generalizados p. 15/67 Interpretação modelo de Poisson O modelo ajustado fica então dado por ˆµ(x) = e 5,30 0,23x, em que x denota o tempo de exposição.

Resenha dos Modelos Lineares Generalizados p. 15/67 Interpretação modelo de Poisson O modelo ajustado fica então dado por ˆµ(x) = e 5,30 0,23x, em que x denota o tempo de exposição. Logo, se diminuirmos de uma unidade o tempo de exposição a variação no valor esperado fica dada por ˆµ(x 1) ˆµ(x) = e 0,23 = 1,259. Ou seja, o número esperado de sobreviventes aumenta aproximadamente 25,9%.

Resenha dos Modelos Lineares Generalizados p. 16/67 Curva ajustada modelo de Poisson Numero de Bacterias 50 100 150 2 4 6 8 10 12 Tempo de Exposicao

Resenha dos Modelos Lineares Generalizados p. 17/67 Contribuições dos MLGs Algumas contribuições importantes dos MLGs.

Resenha dos Modelos Lineares Generalizados p. 17/67 Contribuições dos MLGs Algumas contribuições importantes dos MLGs. (1) Ligação entre a média e o preditor linear: µ i = g 1 (η i ). Para cada distribuição da família exponencial novos modelos podem ser gerados variando-se a função de ligação g( ).

Resenha dos Modelos Lineares Generalizados p. 17/67 Contribuições dos MLGs Algumas contribuições importantes dos MLGs. (1) Ligação entre a média e o preditor linear: µ i = g 1 (η i ). Para cada distribuição da família exponencial novos modelos podem ser gerados variando-se a função de ligação g( ). (2) Função desvio: D(y; ˆµ) = 2{L(y,y) L(ˆµ,y)}. É uma distância entre as (log) verossimilhnças do modelo saturado e do modelo postulado. Para alguns modelos a distribuição do desvio é uma qui-quadrado facilitando avaliar a qualidade do ajuste.

Resenha dos Modelos Lineares Generalizados p. 18/67 Contribuições dos MLGs (3) Resíduo componente do desvio: t Di = ± d 2 (y i,ˆµ i ). Esse resíduo é muito utilizado para detectar pontos aberrantes e para avaliar a adequação da distribuição utlizada para a resposta.

Resenha dos Modelos Lineares Generalizados p. 18/67 Contribuições dos MLGs (3) Resíduo componente do desvio: t Di = ± d 2 (y i,ˆµ i ). Esse resíduo é muito utilizado para detectar pontos aberrantes e para avaliar a adequação da distribuição utlizada para a resposta. (4) Função de variância: V(µ) Caracteriza a distribuição da família exponencial. Ou seja, para cada V(µ) existe apenas uma distribuição na família exponencial e vice-versa. Além disso, quando φ tem-se que φ(y µ) d N(0,V(µ)) (Jørgensen, 1987).

Resenha dos Modelos Lineares Generalizados p. 19/67 Contribuições dos MLGs (5) Processo iterativo na forma de mínimos quadrados A estimativa de máxima verossimilhança ˆβ pode ser obtida através do processo iterativo de mínimos quadrados reponderados β (m+1) = (X T W (m) X) 1 X T W (m) z (m), com matriz modelo X, matriz de pesos W e variável dependende modificada z. Esse processo iterativo é inicializado nos próprios valores observados e em geral converge num número finito de passos.

Resenha dos Modelos Lineares Generalizados p. 20/67 Quase-verossimilhança Wedderburn (1974) apresentou uma extensão dos MLGs criando uma função de (log) quase-verossimilhança: Q(µ;y) = 1 σ 2 µ y y t V(t) dt, em que V(µ) > 0 e σ 2 > 0.

Resenha dos Modelos Lineares Generalizados p. 20/67 Quase-verossimilhança Wedderburn (1974) apresentou uma extensão dos MLGs criando uma função de (log) quase-verossimilhança: Q(µ;y) = 1 σ 2 µ y y t V(t) dt, em que V(µ) > 0 e σ 2 > 0. Se V(µ) for uma função de variância então Q(µ; y) é uma log-verossimilhança. Todavia, pode-se mostrar que Q(µ; y) segue condições básicas de regularidade e consequentemente tem-se que E(Y) = µ e Var(Y) = σ 2 V(µ).

Resenha dos Modelos Lineares Generalizados p. 21/67 Modelos de QV Assim, os modelos de quase-verossimilhança podem ser definidos da seguinte maneira: (1) Y i indep Q(µ i,y i ) (i = 1,...,n), (2) µ i = g 1 (η i ), em que E(Y i ) = µ i, Var(Y i ) = σ 2 V(µ i ), V(µ i ) > 0, g( ) função de ligação e σ 2 > 0 parâmetro de dispersão.

Resenha dos Modelos Lineares Generalizados p. 21/67 Modelos de QV Assim, os modelos de quase-verossimilhança podem ser definidos da seguinte maneira: (1) Y i indep Q(µ i,y i ) (i = 1,...,n), (2) µ i = g 1 (η i ), em que E(Y i ) = µ i, Var(Y i ) = σ 2 V(µ i ), V(µ i ) > 0, g( ) função de ligação e σ 2 > 0 parâmetro de dispersão. O parâmetro β do preditor linear η i pode ser estimado através de um processo iterativo de mínimos quadrados reponderados similar aos MLGs.

Resenha dos Modelos Lineares Generalizados p. 22/67 Exemplo modelo de QV Seja Y ij a proporção da área afetada da folha da cevada da variedade j no local i (i = 1,...,9 e j = 1,...,10) (McCullagh e Nelder, 1989, Tabela 9.2).

Resenha dos Modelos Lineares Generalizados p. 22/67 Exemplo modelo de QV Seja Y ij a proporção da área afetada da folha da cevada da variedade j no local i (i = 1,...,9 e j = 1,...,10) (McCullagh e Nelder, 1989, Tabela 9.2). Como 0 Y ij 1 podemos propor o seguinte modelo de QV: (1) Y ij indep Q(µ ij,y ij ) (0 < µ ij < 1), (2) µ ij = exp(η ij) 1+exp(η ij ), η ij = α+β i +γ j, em que µ ij = E(Y ij ) e Var(Y ij ) = σ 2 V(µ ij ).

Resenha dos Modelos Lineares Generalizados p. 22/67 Exemplo modelo de QV Seja Y ij a proporção da área afetada da folha da cevada da variedade j no local i (i = 1,...,9 e j = 1,...,10) (McCullagh e Nelder, 1989, Tabela 9.2). Como 0 Y ij 1 podemos propor o seguinte modelo de QV: (1) Y ij indep Q(µ ij,y ij ) (0 < µ ij < 1), (2) µ ij = exp(η ij) 1+exp(η ij ), η ij = α+β i +γ j, em que µ ij = E(Y ij ) e Var(Y ij ) = σ 2 V(µ ij ). Vamos comparar os ajustes com V(µ ij ) = µ ij (1 µ ij ) e V(µ ij ) = µ 2 ij (1 µ ij) 2.

Resenha dos Modelos Lineares Generalizados p. 23/67 Resíduos V(µ ij ) = µ ij (1 µ ij ) Residuo de Pearson 2 1 0 1 2 3 8 6 4 2 0 2 Logito valores ajustados

Resenha dos Modelos Lineares Generalizados p. 24/67 Resíduos V(µ ij ) = µ 2 ij (1 µ ij) 2 Residuo de Pearson 1 0 1 2 3 8 6 4 2 0 2 Logito valores ajustados

Resenha dos Modelos Lineares Generalizados p. 25/67 Dados correlacionados Como ajustar dados correlacionados não Gaussianos?

Resenha dos Modelos Lineares Generalizados p. 25/67 Dados correlacionados Como ajustar dados correlacionados não Gaussianos? Liang e Zeger (1986) propuseram as Equações de Estimação Generalizadas (EEGs) que são uma extensão dos modelos de QV para dados correlacionados.

Resenha dos Modelos Lineares Generalizados p. 25/67 Dados correlacionados Como ajustar dados correlacionados não Gaussianos? Liang e Zeger (1986) propuseram as Equações de Estimação Generalizadas (EEGs) que são uma extensão dos modelos de QV para dados correlacionados. Supondo que y i = (y i1,...,y ini ) T correspondem às n i respostas do i-ésimo indivíduo as EEGs são definidas por: (1) Y ij FE(µ ij,φ) (i = 1,...,n), (j = 1,...,n i ), (2) µ ij = g 1 (η ij ), (3) corr(y i ) = R i (ρ), em que ρ = (ρ 1,...,ρ q ) T.

Resenha dos Modelos Lineares Generalizados p. 26/67 Exemplo dados longitudinais Considere os dados abaixo descritos em Myers, Montgomery e Vining (2002), em que pacientes com problemas respiratórios receberam dois tratamentos: Visita 1 Visita 2 Visita 3 Visita 4 Tratamento 22/27 13/27 5/27 1/27 Placebo 20/29 18/29 21/29 15/29 27 receberam uma droga ativa e 29 receberam placebo. Cada paciente foi observado em quatro ocasiões em que mediu-se a condição respiratória (boa ou ruim).

Resenha dos Modelos Lineares Generalizados p. 27/67 Proposta de EEG Foram observados para cada paciente além do Trat (=0 droga ativa, =1 placebo) as variáveis explicativas: Idade (em anos), Gênero (=0 feminino, =1 masculino) e Base (=0 ausência, =1 presença).

Resenha dos Modelos Lineares Generalizados p. 27/67 Proposta de EEG Foram observados para cada paciente além do Trat (=0 droga ativa, =1 placebo) as variáveis explicativas: Idade (em anos), Gênero (=0 feminino, =1 masculino) e Base (=0 ausência, =1 presença). Seja Y ij a condição (=1 ruim, =0 boa) do i-ésimo paciente na j-ésima ocasião, i = 1,...,56 e j = 1,2,3,4. Proposta de EEG: (1) Y ij Be(µ i ) (0 < µ i < 1), (2) µ i = exp(η i) 1+exp(η i ), em que η i = α+β 1 Idade i +β 2 Trat i +β 3 Genero i +β 4 Base i, (3) corr(y ij,y ij ) = ρ j j para j j (AR(1)).

Resenha dos Modelos Lineares Generalizados p. 28/67 Resultados dos ajustes Estimativas dos ajustes através de modelos logísticos supondo independência e estrutura de correlação AR(1). Correlação AR(1) Independência Efeito Estimativa z-robusto Estimativa z-robusto Intercepto -0,377-0,386-0,404-0,474 Idade 0,043 3,380 0,048 3,443 Tratamento 1,001 3,066 1,070 3,425 Gênero -2,003-2,988-2,178-3,162 Base 0,492 0,586 0,498 0,977 ρ 0,275 0,00

Resenha dos Modelos Lineares Generalizados p. 29/67 Resíduos EEG Residuo de Pearson Padronizado 8 6 4 2 0 2 3 2 1 0 1 2 3 Percentis da N(0,1)

Resenha dos Modelos Lineares Generalizados p. 30/67 Modelos aditivos Hastie e Tibshirane (1990) propuseram substituir o preditor linear dos MLGs por um preditor aditivo formado por funções não paramétricas f 1 (X 1 ),...,f p (X p ) das variáveis explicativas X 1,...,X p (por exemplo splines cúbicas).

Resenha dos Modelos Lineares Generalizados p. 30/67 Modelos aditivos Hastie e Tibshirane (1990) propuseram substituir o preditor linear dos MLGs por um preditor aditivo formado por funções não paramétricas f 1 (X 1 ),...,f p (X p ) das variáveis explicativas X 1,...,X p (por exemplo splines cúbicas). Esse nova classe de modelos denominada Modelos Aditivos Generalizados é definida por: (1) Y i indep FE(µ i,φ) (i = 1,...,n), (2) µ i = g 1 (η i ), em que η i = α+f 1 (x 1i )+ +f p (x pi ).

Resenha dos Modelos Lineares Generalizados p. 31/67 Modelos aditivos As funções f(x) são não paramétricas e em geral assumem a forma f(x) = r l=1 b l(x)β l, em que b 1 (x),...,b r (x) é a base do espaço de funções e β 1,...,β r são parâmetros a serem estimados. O logaritmo da função de verossimilhança penalizada assume a forma L p (θ) = L(θ) 1 2 p j=1 λ j β T j S j β j, em que θ = (α,β T 1,...,β T p ) T, β j = (β j1,...,β jrj ) T, S j é uma matriz r j r j e λ j são os parâmetros de suavização.

Resenha dos Modelos Lineares Generalizados p. 31/67 Modelos aditivos As funções f(x) são não paramétricas e em geral assumem a forma f(x) = r l=1 b l(x)β l, em que b 1 (x),...,b r (x) é a base do espaço de funções e β 1,...,β r são parâmetros a serem estimados. O logaritmo da função de verossimilhança penalizada assume a forma L p (θ) = L(θ) 1 2 p j=1 λ j β T j S j β j, em que θ = (α,β T 1,...,β T p ) T, β j = (β j1,...,β jrj ) T, S j é uma matriz r j r j e λ j são os parâmetros de suavização.

Resenha dos Modelos Lineares Generalizados p. 32/67 Exemplo perfil de clientes Considere os dados apresentados em Neter et al. (1996) sobre o perfil dos clientes de uma determinada loja oriundos de 110 áreas de uma cidade. O objetivo do estudo é relacionar o número de clientes em cada área (Nclientes) com as seguintes variáveis explicativas em cada área: número de domicílios (em mil) (Domic), renda média anual (em mil USD) (Renda), idade média dos domicílios (em anos) (Idade), distância ao concorrente mais próximo (em milhas) (Dist1) e distância à loja (em milhas) (Dist2).

Diagramas de dispersão Clientes 0 5 10 15 20 25 30 Clientes 0 5 10 15 20 25 30 20000 40000 60000 80000 120000 0 10 20 30 40 50 60 Renda Idade Clientes 0 5 10 15 20 25 30 Clientes 0 5 10 15 20 25 30 1 2 3 4 5 6 2 4 6 8 10 Dist1 Dist2 Resenha dos Modelos Lineares Generalizados p. 33/67

Resenha dos Modelos Lineares Generalizados p. 34/67 Estimativas modelo de Poisson Supor o MLG: (1) Nclientes i P(µ i ) (i = 1,...,110), (2) logµ i = α+β 1 Domic i +β 2 Renda i +β 3 Idade i +β 4 Dist1 i +β 5 Dist2 i. Efeito Parâmetro Estimativa E/E.Padrão Constante α 2,942 14,21 Domicílio β 1 0,606 4,27 Renda β 2-0,012-5,54 Idade β 3-0,004-2,09 Dist1 β 4 0,168 6,54 Dist2 β 5-0,129-7,95

Resenha dos Modelos Lineares Generalizados p. 35/67 Resíduos modelo de Poisson Componente do Desvio -2 0 2-2 -1 0 1 2 Percentis da N(0,1)

Ajuste GAM logµi = α+s(domic) i +S(Renda) i +S(Idade) i +S(Dist1) i +S(Dist2) i. s(renda,1) 1.0 0.5 0.0 0.5 1.0 s(idade,1) 1.0 0.5 0.0 0.5 1.0 20000 40000 60000 80000 120000 0 10 20 30 40 50 60 renda idade s(dist1,3.12) 1.0 0.5 0.0 0.5 1.0 s(dist2,1) 1.0 0.5 0.0 0.5 1.0 1 2 3 4 5 6 2 4 6 8 10 dist1 dist2 Resenha dos Modelos Lineares Generalizados p. 36/67

Resenha dos Modelos Lineares Generalizados p. 37/67 Comparação ajustes Predito ajuste GAM 5 10 15 20 25 30 5 10 15 20 25 30 35 Predito ajuste GLM

Resenha dos Modelos Lineares Generalizados p. 38/67 Modelos não lineares Cordeiro e Paula (1989) propuseram os Modelos Não Lineares de Família Exponencial, em que o preditor linear dos MLGs é substituído por um preditor não linear.

Resenha dos Modelos Lineares Generalizados p. 38/67 Modelos não lineares Cordeiro e Paula (1989) propuseram os Modelos Não Lineares de Família Exponencial, em que o preditor linear dos MLGs é substituído por um preditor não linear. Wei (1998) agregou novos resultados a esta classe que é definida por: (1) Y i indep FE(µ i,φ) (i = 1,...,n), (2) µ i = g 1 (η i ), em que η i = f(x i ;β), sendo f(x i ;β) uma função não linear em β.

Resenha dos Modelos Lineares Generalizados p. 39/67 Modelo mistura de drogas Modelo proposto por Finney (1978) para avaliar a mistura de duas drogas A e B: (1) Y i indep FE(µ i,φ) (i = 1,...,n), (2) g(µ i ) = α+δlog{x 1i +ρx 2i +k ρx 1i x 2i },

Resenha dos Modelos Lineares Generalizados p. 39/67 Modelo mistura de drogas Modelo proposto por Finney (1978) para avaliar a mistura de duas drogas A e B: (1) Y i indep FE(µ i,φ) (i = 1,...,n), (2) g(µ i ) = α+δlog{x 1i +ρx 2i +k ρx 1i x 2i }, em que Y é a resposta, x 1 e x 2 representam as log-doses das drogas A e B, respectivamente, δ é a inclinação comum na relação log-dose e resposta, ρ é a potência da droga B em relação à doga A e k representa a interação entre as duas drogas (k = 0 ausência de interação, k > 0 sinergismo e k < 0 antagonistmo).

Coelhos europeus Peso das lentes dos olhos do coelho(em mg) 50 100 150 200 250 0 200 400 600 800 Idade do coelho(em dias) Resenha dos Modelos Lineares Generalizados p. 40/67

Resenha dos Modelos Lineares Generalizados p. 41/67 Modelo normal inverso Wei (1998) (Possamai, 2009) propôs o seguinte modelo não linear para explicar o peso das lentes (em mg) dos olhos de coelhos europeus em função da idade (em anos):

Resenha dos Modelos Lineares Generalizados p. 41/67 Modelo normal inverso Wei (1998) (Possamai, 2009) propôs o seguinte modelo não linear para explicar o peso das lentes (em mg) dos olhos de coelhos europeus em função da idade (em anos): indep (1) Y i NI(µ i,φ) (i = 1,...,76), { } (2) µ i = µexp β x i +γ ou logµ i = α β x i +γ, em que Y i e x i denotam, respectivamente, o peso da lente e a idade do i-ésimo coelho, µ é a assintota ou o peso máximo esperado para as lentes dos coelhos, β está relacionado com o crescimento da curva e γ com a idade dos coelhos. Note que Var(Y i ) = φ 1 µ 3 i.

Ajuste do modelo Peso das lentes dos olhos do coelho(em mg) 50 100 150 200 250 0 200 400 600 800 Idade do coelho(em dias) Resenha dos Modelos Lineares Generalizados p. 42/67

Resenha dos Modelos Lineares Generalizados p. 43/67 MLGs duplos Smyth (1989) introduziu os modelos lineares generalizados duplos com modelagem conjunta da média e do parâmetro de dispersão, os quais são definidos por: (1) Y i indep FE(µ i,φ i ) (i = 1,...,n), (2) µ i = g 1 (η i ), com η i = x T i β, (3) φ i = h 1 (λ i ), com λ i = z T i γ, em que x i = (x i1,...,x ip ) T e z i = (z i1,...,z iq ) T contêm valores de variáveis explicativas e β = (β 1,...,β p ) T e γ = (γ 1,...,γ q ) T são parâmetros a serem estimados.

Resenha dos Modelos Lineares Generalizados p. 43/67 MLGs duplos Smyth (1989) introduziu os modelos lineares generalizados duplos com modelagem conjunta da média e do parâmetro de dispersão, os quais são definidos por: (1) Y i indep FE(µ i,φ i ) (i = 1,...,n), (2) µ i = g 1 (η i ), com η i = x T i β, (3) φ i = h 1 (λ i ), com λ i = z T i γ, em que x i = (x i1,...,x ip ) T e z i = (z i1,...,z iq ) T contêm valores de variáveis explicativas e β = (β 1,...,β p ) T e γ = (γ 1,...,γ q ) T são parâmetros a serem estimados.

Resenha dos Modelos Lineares Generalizados p. 44/67 Comparação de Snacks Vamos considerar um estudo desenvolvido na Faculdade de Saúde Pública da USP em que 5 formas diferentes de um novo tipo de snack, denotados por A, B, C, D e E, com baixo teor de gordura saturada e de ácidos graxos, foram comparados ao longo de 20 semanas. Neste novo produto optou-se por substituir, totalmente ou parcialmente, o agente responsável pela fixação do aroma do produto, a gordura vegetal hidrogenada por óleo de canola. Uma das variáveis de interesse é o comportamento da textura dos produtos através da força necessária para o cisalhamento.

Resenha dos Modelos Lineares Generalizados p. 44/67 Comparação de Snacks Vamos considerar um estudo desenvolvido na Faculdade de Saúde Pública da USP em que 5 formas diferentes de um novo tipo de snack, denotados por A, B, C, D e E, com baixo teor de gordura saturada e de ácidos graxos, foram comparados ao longo de 20 semanas. Neste novo produto optou-se por substituir, totalmente ou parcialmente, o agente responsável pela fixação do aroma do produto, a gordura vegetal hidrogenada por óleo de canola. Uma das variáveis de interesse é o comportamento da textura dos produtos através da força necessária para o cisalhamento.

Resenha dos Modelos Lineares Generalizados p. 45/67 Boxplots segundo a semana Cisalhamento 40 60 80 100 120 2 4 6 8 10 12 14 16 18 20 Semanas

Resenha dos Modelos Lineares Generalizados p. 46/67 Boxplots segundo o grupo Cisalhamento 40 60 80 100 120 A B C D E Grupo

Média e CV segundo a semana Cisalhamento Medio 45 50 55 60 65 70 CV Cisalhamento 20 25 30 5 10 15 20 5 10 15 20 Semana Semana Resenha dos Modelos Lineares Generalizados p. 47/67

Resenha dos Modelos Lineares Generalizados p. 48/67 Modelagem da média e dispersão Seja Y ijk a força de cisalhamento referente à k-ésima réplica do i-ésimo grupo na j-ésima semana. Vamos supor que Y ijk G(µ ij,φ ij ) com parte sistemática dada por µ ij = β 0 +β i +β 6 semana j +β 7 semana 2 j e logφ ij = γ 0 +γ i +γ 6 semana j +γ 7 semana 2 j, em que β 1 = 0 e γ 1 = 0. Portanto β 0 e γ 0 são os efeitos da forma A, controlando-se pela semana, na média e na dispersão, respectivamente, enquanto β 0 +β i e γ 0 +γ i são os efeitos das demais formas.

Resenha dos Modelos Lineares Generalizados p. 49/67 Estimativas da média e dispersão Média Dispersão Efeito Estimativa Valor-z Estimativa Valor-z Constante 36,990 11,53 1,560 7,27 Grupo B -10,783-6,40 0,468 2,95 Grupo C -3,487-1,98 0,050 0,31 Grupo D -14,829-9,18 0,815 5,05 Grupo E -15,198-9,54 0,817 5,06 Semana 5,198 9,88 0,155 3,91 Semana 2-0,189-8,88-0,005-2,99

Resenha dos Modelos Lineares Generalizados p. 50/67 Resíduos modelo gama duplo Componente do Desvio 4 2 0 2 3 2 1 0 1 2 3 Percentis da N(0,1)

Resenha dos Modelos Lineares Generalizados p. 51/67 MLGs mistos Breslow e Clayton (1993) propuseram os Modelos Lineares Generalizados Mistos (MLGMs) em que o preditor linear é formado por um componente fixo (paramétrico) e um componente aleatório (efeitos aleatórios).

Resenha dos Modelos Lineares Generalizados p. 51/67 MLGs mistos Breslow e Clayton (1993) propuseram os Modelos Lineares Generalizados Mistos (MLGMs) em que o preditor linear é formado por um componente fixo (paramétrico) e um componente aleatório (efeitos aleatórios). Supondo que y i = (y i1,...,y ini ) T correspondem às n i respostas do i-ésimo indivíduo os MLGMs são definidas por: (1) Y ij b i indep FE(µ ij,φ) (i = 1,...,n) (j = 1,...,n i ), (2) µ ij = g 1 (η ij ), em que η ij = x T ij β +zt ij b i, (3) b i iid Nq (0,D).

Resenha dos Modelos Lineares Generalizados p. 52/67 Modelo marginal misto Sejam f ij (y ij b i,β,φ) e f(b i D) as f.d.p. s de Y ij b i e b i, respectivamente. Então, a f.d.p. marginal de Y = (Y 1,...,Y n ) T, em que Y i = (Y i1,...,y imi ) T, fica dada por (McCullogh e Searle, 2001) f(y β,φ,d) = Π n i=1 IR q {Π m i j=1 f ij(y ij b i,β,φ)}f(b i D)db i.

Resenha dos Modelos Lineares Generalizados p. 52/67 Modelo marginal misto Sejam f ij (y ij b i,β,φ) e f(b i D) as f.d.p. s de Y ij b i e b i, respectivamente. Então, a f.d.p. marginal de Y = (Y 1,...,Y n ) T, em que Y i = (Y i1,...,y imi ) T, fica dada por (McCullogh e Searle, 2001) f(y β,φ,d) = Π n i=1 IR q {Π m i j=1 f ij(y ij b i,β,φ)}f(b i D)db i. A função log-verossimilhança fica expressa na forma L(β,φ,D) = n log {Π m i j=1 f ij(y ij b i,β,φ)}f(b i D)db i. IR q i=1

Resenha dos Modelos Lineares Generalizados p. 53/67 Dados placas dentárias Escore 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0.0 Placebo RINSE A RINSE B Início Após 3 meses Após 6 meses Período

Resenha dos Modelos Lineares Generalizados p. 54/67 Distribuição inicial das placas Densidade 0.0 0.2 0.4 0.6 0.8 1.0 1.2 2.0 2.5 3.0 3.5 Placa

Resenha dos Modelos Lineares Generalizados p. 55/67 Modelo proposto Seja Y ijk o escore do k-ésimo indivíduo do i-ésimo grupo (placebo, líquido A, líquido B) e j-ésimo período (início do tratamento, após 3 meses, após 6 meses), i,j = 1,2,3, k = 1,...,n ij com n 1j = 39, n 2j = 34 e n 3j = 36 (Hadgu e Koch, 1999).

Resenha dos Modelos Lineares Generalizados p. 55/67 Modelo proposto Seja Y ijk o escore do k-ésimo indivíduo do i-ésimo grupo (placebo, líquido A, líquido B) e j-ésimo período (início do tratamento, após 3 meses, após 6 meses), i,j = 1,2,3, k = 1,...,n ij com n 1j = 39, n 2j = 34 e n 3j = 36 (Hadgu e Koch, 1999). Modelo de intercepto aleatório: (1) Y ijk b k indep G(µ ijk,φ), (2) logµ ijk = η ijk, em que η ijk = α+b k +β i +γ j +δ ij, (3) b k iid N(0,σ 2 e ).

Resenha dos Modelos Lineares Generalizados p. 56/67 Estimativas do modelo Efeito Parâmetro Estimativa E/E.Padrão Constante α 0,938 13,95 Líquido A β 2 0,020 0,21 Líquido B β 3-0,026-0,27 Tempo(3M) γ 2-0,409-5,41 Tempo(6M) γ 3-0,424-5,46 A*Tempo(3M) δ 22-0,376-3,39 A*Tempo(6M) δ 23-0,319-2,93 B*Tempo(3M) δ 32-0,419-3,72 B*Tempo(6M) δ 33-0,498-4,51 Efeito aleatório σ e 0,252

Resenha dos Modelos Lineares Generalizados p. 57/67 Resíduos marginais Residuo marginal 1.0 0.5 0.0 0.5 3 2 1 0 1 2 3 Percentil da N(0,1)

Resenha dos Modelos Lineares Generalizados p. 58/67 Modelos hierárquicos Os Modelos Lineares Generalizados Hierárquicos (MLGHs) (Lee, Nelder e Pawitan, 2004) flexibilizam a distribuição dos efeitos aleatórios na classe dos (MLGMs).

Resenha dos Modelos Lineares Generalizados p. 58/67 Modelos hierárquicos Os Modelos Lineares Generalizados Hierárquicos (MLGHs) (Lee, Nelder e Pawitan, 2004) flexibilizam a distribuição dos efeitos aleatórios na classe dos (MLGMs). Supondo que y i = (y i1,...,y ini ) T correspondem às n i respostas do i-ésimo indivíduo os MLGHs são definidas por: (1) Y ij b i indep FE(µ ij,φ) (i = 1,...,n) (j = 1,...,n i ), (2) µ ij = g 1 (η ij ), em que η ij = x T ij β +v i, (3) v i = v(u i ), em que u i tem uma distribuição apropriada.

Resenha dos Modelos Lineares Generalizados p. 59/67 A ideia dos MLGHs A principal contribuição dos MLGHs é estimar (v i,α) em conjunto com os parâmetros (β,φ). Nelder e Lee propuseram a h-verossimilhança: h(β,φ,α,v y) = n i=1 n i j=1 {L(β,φ;y ij v i )+L(α,v i )}.

Resenha dos Modelos Lineares Generalizados p. 59/67 A ideia dos MLGHs A principal contribuição dos MLGHs é estimar (v i,α) em conjunto com os parâmetros (β,φ). Nelder e Lee propuseram a h-verossimilhança: h(β,φ,α,v y) = n i=1 n i j=1 {L(β,φ;y ij v i )+L(α,v i )}. Modelo Poisson-gama: y ij u i é Poisson e u i é gama; modelo binomial-beta: y ij u i é binomial e u i é beta e modelo gama-normal inversa: y ij u i é gama e u i é normal inversa, em que v i = v(u i ).

Resenha dos Modelos Lineares Generalizados p. 60/67 Aplicativos O primeiro aplicativo desenvolvido para o ajuste de MLGs GLIM está desativado. Aplicativos com MLGs e extensões: S-Plus (http://www.insightful.com) R (http://www.r-project.org) (software livre) SAS (http://www.sas.com) STATA (http://www.stata.com) MATLAB (http://www.mathworks.com) SUDAAN (http://www.rti.org/sudaan)

Resenha dos Modelos Lineares Generalizados p. 61/67 Conclusões Os MLGs trouxeram uma nova notação para a área de Modelos de Regressão e nesses quase 40 anos receberam várias extensões com modificações na parte aleatória, na estrutura de correlação e no componente sistemático com a inclusão, por exemplo, de componentes não paramétricos, componentes não lineares e componentes aleatórios.

Resenha dos Modelos Lineares Generalizados p. 61/67 Conclusões Os MLGs trouxeram uma nova notação para a área de Modelos de Regressão e nesses quase 40 anos receberam várias extensões com modificações na parte aleatória, na estrutura de correlação e no componente sistemático com a inclusão, por exemplo, de componentes não paramétricos, componentes não lineares e componentes aleatórios. Todavia, os MLGs na sua forma original continuam sendo aplicados num grande número de problemas práticos com excelentes resultados.

Resenha dos Modelos Lineares Generalizados p. 62/67 Referências Breslow, N. E. e Clayton, D. G. (1993). Approximate inference in generalized linear mixed models. Journal of the American Statistical Association 88, 9-25. Cordeiro, G. M. e Paula, G. A. (1989). Improved likelihood ratio statistics for exponential family nonlinear models. Biometrika 76, 93-100. Finney, D. J. (1978). Statistical Methods in Biological Assay, 3rd. Edition. Cambridge University Press, Cambridge.

Resenha dos Modelos Lineares Generalizados p. 63/67 Referências Hadgu, A. e Koch, G. (1999). Application of generalized estimating equations to a dental randomized clinical trial. Journal of Biopharmaceutical Statistics 9, 161-178. Hastie, T. e Tibshirani, R. (1990). Generalized Additive Models. Chapman and Hall, London. Jørgensen, B. (1987). Exponential dispersion models (with discussion). Journal of the Royal Statistical Society B 49, 127-162.

Resenha dos Modelos Lineares Generalizados p. 64/67 Referências Lee, Y., Nelder, J. A. e Pawitan, Y. (2006). Generalized Linear Models with Random Effects. Chapman and Hall, London. Liang, K. Y. e Zeger, S. L. (1986). Longitudinal data analysis using generalized linear models. Biometrika 73, 13-22. McCullagh, P. e Nelder, J. A. (1989). Generalized Linear Models, 2nd. Edition. Chapman and Hall, London.

Resenha dos Modelos Lineares Generalizados p. 65/67 Referências McCulloch, C. E. e Searle, S. R. (2001). Linear and Generalized Linear Mixed Models. Wiley, New York. Montgomery, D. C.; Peck, E. A. e Vining, G. G. (2001). Introduction to Linear Regression Analysis, Third Edition. John Wiley, New York. Myers, R.H.; Montgomery, D. C. e Vining, G. G. (2002). Generalized Linear Models: With Applications in Engineering and the Sciences. John Wiley, New York.

Resenha dos Modelos Lineares Generalizados p. 66/67 Referências Nelder, J. A. e Wedderburn, R. W. M. (1972). Generalized linear models. Journal of the Royal Statistical Society A 135, 370-384. Neter, J.; Kutner, M. H.; Nachtsheim, C. J. e Wasserman, W.(1996). Applied Linear Regression Models, 3rd Edition. Irwin, Illinois, Paula, G. A. (2010). Modelos de Regressão: com apoio computacional. IME-USP. (http://www.ime.usp.br/ giapaula/mlgs.html)

Resenha dos Modelos Lineares Generalizados p. 67/67 Referências Possamai, A. A. (2009). Modelos Não Lineares de Família Exponencial Revisitados. Dissertação de Mestrado, IME-USP. Wedderburn, R. W. M. (1974). Quasi-likelihood functions, generalized linear models and the Gauss-Newton method. Biometrika 61, 439-447. Wei, B. C. (1998). Exponential Family Nonlinear Models. Lecture Notes in Statistics Vol. 130. Springer, New York.