Modelos Lineares Generalizados

Documentos relacionados
MLG. 16 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

4 Modelos Lineares Generalizados

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

Análise de Dados Categóricos

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

Regressão de Poisson e parentes próximos

Técnicas computacionais em probabilidade e estatística II

Modelos Lineares Generalizados - Componentes do Modelo

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

Modelos Lineares Generalizados - Métodos de Estimação

Disciplina de Modelos Lineares Professora Ariane Ferreira

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Análise de Dados Longitudinais Aula

Exemplos Equações de Estimação Generalizadas

Aplicação dos modelos lineares generalizados na análise do

Modelos Lineares Generalizados. - da teoria à prática -

Modelos estatísticos para análise de dados longitudinais categorizados ordinais

Modelos Binomial e Poisson

Modelos Matemáticos e Aplicações Modelos Lineares Generalizados

Modelos para dados de contagem

POLINÔMIOS FRACIONÁRIOS EM MODELOS DE REGRESSÃO. Vinícius Alande. Paulista Júlio de Mesquita Filho para a obtenção do título de Mestre em Biometria.

Mais sobre Modelos Continuos

Universidade Federal de São Carlos Centro de Ciências Exatas e Tecnologia Programa de pós-graduação em Estatística

Modelos Binomial e Poisson

AJUSTE DE MODELOS LINEARES GENERALIZADOS PARA DADOS POSITIVOS ASSIMÉTRICOS

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Testes de especificação para a função de ligação em modelos lineares generalizados para dados binários

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

Modelo de regressão Beta

Modelo de regressão estável aplicado a econometria

Modelagem de dados complexos por meio de extensões do modelo de

Aplicação dos Modelos Lineares Generalizados com distribuição Binomial para dados Binários

COMPARAÇÃO DE DUAS ABORDAGENS DOS MODELOS DE TRANSIÇÃO DE MARKOV EM EXPERIMENTOS PLANEJADOS COM DADOS BINÁRIOS CORRELACIONADOS

Estudo Teórico sobre Modelos Lineares Generalizados com Aplicação a Dados Genéticos

TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS

3 Modelos e metodologias comparadas

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Análise de Sobrevivência

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

IBP1263_06 ANÁLISE ESTATÍSTICA DO IMPACTO DA POLUIÇÃO ATMOSFÉRICA NA SAÚDE POPULACIONAL Yara T. Yara 1, Cássia U. Cássia 2,Admilson F.

Modelos Lineares Generalizados - Família Exponencial

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

O uso dos modelo ZIP, ZINB e Hurdle Model para dados de contagem com excessos de zeros

Modelos Lineares Generalizados - Família Exponencial

Análise de Dados Categóricos

ESTATÍSTICA COMPUTACIONAL

Distribuições de Probabilidade Contínuas 1/19

Universidade de Brasília Departamento de Estatística

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

COMPARAÇÃO ENTRE TESTES PARA SUPERDISPERSÃO EM DADOS BINÁRIOS

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP. lane. Ref: Kim e Nelson (1999) e Hamilton (1990)

Inferência Estatística - Modelos e MLE

1 z 1 1 z 2. Z =. 1 z n

MINI - CURSO. LEG: Laboratório de Estatística e Geoinformação/UFPR. Métodos computacionais e inferência estatística. Equipe LEG :

Aplicação dos modelos lineares generalizados na análise do número de estômatos em coentro (Coriandrum sativum L.): estimação bayesiana utilizando INLA

MINI - CURSO. Métodos computacionais para inferência com aplicações em R. Equipe LEG :

Ajuste via modelos lineares generalizados para avaliação do controle biológico de insetos

Exemplos Regressão Dados de Contagem

IND 1115 Inferência Estatística Aula 6

Exemplos Modelos Binomiais de Dose-Resposta

MAE Modelos Lineares Generalizados 2 o semestre 2017

Modelos assimétricos inacionados de zeros. Mariana Ferreira Dias

Modelos de Regressão Múltipla - Parte VI

Modelos e inferência para um experimento em blocos casualizados para o número de vagens em soja RESUMO

AVALIANDO A ACEITAÇÃO DA IMPRESSÃO GLOBAL DO SUCO DE CAJU VIA MODELOS DE CHANCES PROPORCIONAIS MISTOS

Universidade Federal do Rio de Janeiro Centro de Ciências Matemáticas e da Natureza Instituto de Matemática Departamento de Métodos Estatísticos

Regressão Logística Aplicada à Pesquisa de Preditores de Morte. Ana Margarida Lopes Gonçalves

Modelos de regressão para dados correlacionados. Cibele Russo

Exemplos Modelos de Quase-Verossimilhança

Regressão binária nas abordagens clássica e bayesiana. Amélia Milene Correia Fernandes

MODELOS LINEARES GENERALIZADOS MISTOS PARA DADOS LONGITUDINAIS

GAM. Ilka Afonso Reis

Inferência em Modelos Lineares Assimétricos

Modelos Lineares Generalizados Bayesianos para Dados Longitudinais

Probabilidade e Estatística. stica. Prof. Dr. Narciso Gonçalves da Silva pessoal.utfpr.edu.

ANÁLISE DE SOBREVIVÊNCIA APLICADA

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

ANÁLISE DE SÉRIES TEMPORAIS

Jorge Helder Pereira dos Santos. Modelos Para Dados de Contagem com Excesso de Zeros. Universidade do Minho Escola de Ciências

Efeitos da especificação incorreta. de regressão beta

GEMMA LUCIA DUBOC DE ARAUJO MÉTODOS DE ESTIMAÇÃO EM REGRESSÃO LOGÍSTICA COM EFEITO ALEATÓRIO: APLICAÇÃO EM GERMINAÇÃO DE SEMENTES

MINICURSO. Métodos Computacionais para Inferência com Aplicações em R

Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Modelos lineares generalizados: aplicação a dados de acidentes rodoviários

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Dissertação de Mestrado

EAE0325 Econometria II. Professora: Fabiana Fontes Rocha. Gabarito Primeira Lista Teórica de Exercícios

Análise de Dados Longitudinais Modelos Lineares Mistos

ESTATÍSTICA COMPUTACIONAL

Erros com Distribuição Log-Beta-Weibull em Regressões Lineares

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz

TESTES DE HIPÓTESES Notas de aula. Prof.: Idemauro Antonio Rodrigues de Lara

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz

Transcrição:

Modelos Lineares Generalizados Emilly Malveira de Lima Análise de Dados Categóricos Universidade Federal de Minas Gerais - UFMG 10 de Maio de 2018 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 1 / 20

Modelo de regressão linear Regressão linear Tem o interesse de modelar o comportamento médio de uma variável de interesse por meio da combinação de covariáveis explicativas. Y i = β 0 + β 1 X 1i + + β p X pi + ε i, i = 1,..., n. E[Y i X i ] = β 0 + β 1 X 1i + + β p X pi = X iβ }{{} Preditor linear ε i s são independentes e têm a mesma distribuição, N(0, σ2 ) Y i N(E[Y i X i ], σ 2 ) Suposições do modelo: linearidade, independência, homocedasticidade e normalidade Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 2 / 20

Modelos lineares generalizados Os MLGs foram propostos por Nelder and Wedderburn (1972) como uma extensão do modelo linear normal; são modelos para análise de dados em que a suposição de normalidade não é plausível; é possível modelar variáveis de interesse que assumem a forma de contagem, contínuas simétricas e assimétricas, binárias e categóricas; assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial. a modelagem da média não é feita de forma direta. É necessário escolher uma função que é capaz de relacionar as covariáveis com a média da variável resposta. Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 3 / 20

Estrutura do MLG Há 3 perguntas a serem feitas na hora da construção de um MLG 1 Qual a distribuição dos dados? O vetor Y geralmente consiste em medidas independentes vindas de uma distribuição de probabilidade com densidade na família exponencial. 2 Quais serão os preditores? Variáveis explicativas que estejam associadas à variável resposta. 3 Qual a função da média que será modelada como linear nos preditores? Função de ligação Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 4 / 20

Estrutura do MLG Há 3 perguntas a serem feitas na hora da construção de um MLG 1 Qual a distribuição dos dados? O vetor Y geralmente consiste em medidas independentes vindas de uma distribuição de probabilidade com densidade na família exponencial. 2 Quais serão os preditores? Variáveis explicativas que estejam associadas à variável resposta. 3 Qual a função da média que será modelada como linear nos preditores? Função de ligação Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 4 / 20

Estrutura do MLG Há 3 perguntas a serem feitas na hora da construção de um MLG 1 Qual a distribuição dos dados? O vetor Y geralmente consiste em medidas independentes vindas de uma distribuição de probabilidade com densidade na família exponencial. 2 Quais serão os preditores? Variáveis explicativas que estejam associadas à variável resposta. 3 Qual a função da média que será modelada como linear nos preditores? Função de ligação Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 4 / 20

Estrutura do MLG Há 3 perguntas a serem feitas na hora da construção de um MLG 1 Qual a distribuição dos dados? O vetor Y geralmente consiste em medidas independentes vindas de uma distribuição de probabilidade com densidade na família exponencial. 2 Quais serão os preditores? Variáveis explicativas que estejam associadas à variável resposta. 3 Qual a função da média que será modelada como linear nos preditores? Função de ligação Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 4 / 20

Família exponencial De maneira geral, uma distribuição é dita ser da família exponencial de sua densidade pode ser escrita na seguinte forma Estrutura da família exponencial { yθ b(θ) f (y θ, φ) = exp a(φ) y é a variável de interesse } + c(y, φ) θ é parâmetro natural (função de ligação canônica) φ parâmetro de escala a, b, e c são funções especícas que derterminam unicamente a distribuição. Propriedades: µ = E(Y ) = b (θ) = db(θ) dθ e σ 2 = Var(Y ) = b (θ)a(φ) = d2 b(θ) dθ a(φ) 2 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 5 / 20

Tipos de resposta e distribuições Contagem: modelo de Poisson Binária: modelo Bernoulli Categórica: modelo multinomial Contínua assimétrica: modelo gama Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 6 / 20

Resposta Poisson Contagem/Taxas de ocorrência de eventos Número de acidentes de carro; Número de mortes por uma determinada doença; Número de casos de dengue em uma região (município, estado...) Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 7 / 20

Poisson Função de probabilidade Forma da família exponencial f Y (y λ) = λy y! e λ, y = 0, 1, 2,... ; λ > 0. f Y (y λ) = exp{ylog(λ) λ + [ log(y!)]} Média e variância θ = log(λ); b(θ) = λ = exp(θ); a(φ) = 1; c(y, φ) = log(y!) µ = b (θ) = exp(θ) = λ σ 2 = b (θ)a(φ) = λ Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 8 / 20

Resposta Binária Binária Quando temos o intuito de modelar uma variável resposta 0-1 (fracassosucesso), ou seja, a probabilidade de sucesso de algum evento de interesse probabilidade de um paciente desenvolver algum tipo de doença; ] probabilidade de um indivíduos possuir plano de saúde; probabilidade de um cliente de banco ser inadimplente; Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 9 / 20

Bernoulli Função de probabilidade Forma da família exponencial θ = log Média e variância f Y (y π) = π y (1 π) 1 y, y = {0, 1}, 0 < π < 1. f Y (y π) = exp { ylog ( ) } π [ log(1 π)] 1 π ( ) π ; b(θ) = log(1 + exp{θ}); a(φ) = 1; c(y, φ) = 0 1 π µ = b (θ) = exp(θ) 1 + exp(θ) = π σ 2 = b (θ)a(φ) = exp(θ) = π(1 π) [1 + exp(θ)] 2 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 10 / 20

Função de ligação Sejam X 1, X 2,..., X p um conjunto de covariáveis. A média da variável resposta µ = E(Y ) é relacionada com X 1, X 2,..., X p através de uma função de ligação g A relação entre µ e η é denida por g(µ) = g(e[y ]) = η = β 0 + β 1 X 1 + β 2 X 2 + + β p X p = X β geralmente são utilizadas as funções canônicas, ou seja, θ = η Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 11 / 20

Função de ligação Exemplo: Poisson (Regressão de Poisson) Sob a ligação canônica devemos ter θ = log(λ) = η = X β então g(e(y )) = g(λ) = log(λ) Para o modelo de Poisson g é chamada de ligação log Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 12 / 20

Função de ligação Exemplo: Bernoulli (Regressão logística) Sob a função de ligação canônica temos ( ) π θ = log = η = X β 1 π então g(e(y )) = g(π) = log ( π ) 1 π Para o modelo de Bernoulli g é chamada de ligação logit. O modelo de regressão logística é expresso por p(y x) = exp(x β) 1 + exp(x β) Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 13 / 20

Outras ligações na regressão logística 1.00 0.75 P(X < x) 0.50 0.25 cauchit cloglog logit probit tobit 0.00 10 5 0 5 10 x Mais utilizadas: logit, probit e complemento log-log. Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 14 / 20

Inferência nos MLG's Inferência baseada na teoria assintótica de máxima verossimilhança; Métodos numéricos: Newton Raphson e Escore de Fisher Exemplo: Função de verossimilhança da Bernoulli L(β) = n f Y (y i π) = π y i (1 π) 1 y i = i=1 Função de log-verossimilhança l(β) = logl(β) = n i=1 exp(y i X i β) 1 + exp(x i β) n {y i X i β log[1 exp(x i β)]} i=1 Porém, nos MLG's os estimadores dos β s NÃO são encontrados de forma analítica. Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 15 / 20

Newton-Raphson o algoritmo de Newton-Raphson é comumente utilizado para calcular o EMV de β. Algoritmo de Newton-Raphson Seja l (β) o logaritmo da função de verossimilhança. A cada passo do algoritmo NR a estimativa β t é atualizada por β t+1 = β t + [l (β)] 1 l (β t ) em que ( ) l (β) = l(β) β 0, l(β) β 1,..., l(β) β p conhecido com vetor escore l (β) é a matriz de segundas derivadas com (p + 1)x(p + 1) elementos Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 16 / 20

Inferência nos GLM's Teste de Hipóteses Baseados na teoria assintótica de MV; usualmente três estatísticas especícas para realizar testes sobre β's: i Wald ii Razão de verossimilhanças iii Escore 1) Teste de Wald parar testar a hipótese de nulidade do efeito das covariáveis, ou seja, H 0 : β j = 0. ( ) 2 A estatística de teste 2 ˆβj X j = segue uma distribuição χ 2 com 1 gl. EP( ˆβ j ) Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 17 / 20

Inferências nos MLG's Teste de Hipóteses 2) TRV para testar modelos aninhados. [ ] l(h0 ) assintótica TRV = 2 χ p q l(h 1 ) Sendo p o n o de parâmetros do modelo sem restrição, e q do modelo com restrição. Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 18 / 20

No R glm() formula: y x1 + x2 +... family: binomial(link = logit) poisson(link = log) gaussian(link = identity) Gamma(link = inverse) data oset TRV anova(modelo sob restrição, modelo sem restição) Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 19 / 20

Referências Nelder, J., & Wedderburn, R. (1972). Generalized Linear Models. Journal of the Royal Statistical Society. Series A (General), 135(3), 370-384. Cordeiro, G. M., & Demétrio, C. G. (2008). Modelos lineares generalizados e extensões. Sao Paulo. Dobson, A. J., & Barnett, A. (2008). An introduction to generalized linear models. CRC press. Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 20 / 20