Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson

Documentos relacionados
Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Modelos Lineares Generalizados - Componentes do Modelo

Inferência baseada em Verossimilhança para o modelo de regressão Poisson

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

ESTATÍSTICA COMPUTACIONAL

Análise de Dados Longitudinais Aula

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

Análise de Dados Categóricos

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

Modelos Binomial e Poisson

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

Modelo de regressão Beta

Modelos para dados de contagem

Técnicas computacionais em probabilidade e estatística II

CE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística

Disciplina de Modelos Lineares Professora Ariane Ferreira

Regressão de Poisson e parentes próximos

4 Modelos Lineares Generalizados

Modelos Lineares Generalizados - Métodos de Estimação

Estimação: (A) Propriedades e Distribuições Amostrais

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Modelos Binomial e Poisson

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

Apostila - Inferência baseada na Verossimilhança

O Processo de Weibull Poisson para Modelagem da Confiabilidade em Sistemas Reparáveis

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais

CONHECIMENTOS ESPECÍFICOS

Métodos Computacionais para Inferência Estatística

Análise de Regressão - parte I

Aplicação dos modelos lineares generalizados na análise do número de estômatos em coentro (Coriandrum sativum L.): estimação bayesiana utilizando INLA

Exemplos Regressão Dados de Contagem

Função de Verossimilhança

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Modelos de Regressão Múltipla - Parte VI

Medida de Risco via Teoria de Valores Extremos. Análise de Risco (8) R.Vicente

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

CONHECIMENTOS ESPECÍFICOS

Modelos de Regressão Linear Simples - parte I

CONHECIMENTOS ESPECÍFICOS

3 Modelos e metodologias comparadas

Métodos Computacionais para inferência estatística

Inferência para CS Tópico 10 - Princípios de Estimação Pontual

Ralph S. Silva

Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

MAE0229 Introdução à Probabilidade e Estatística II

Resultados: Como resultados, descrever a proporção de vezes em que o modelo usado na simulação dos dados (LOGNO2) produziu menor valor de GAIC.

Exemplos Equações de Estimação Generalizadas

Modelo g.l. SQ Retas concorrentes ,46 Retas paralelas ,22 Retas com intercepto comum ,49 Retas coincidentes ,23

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

CONHECIMENTOS ESPECÍFICOS

Função de Verossimilhança

Inferência Estatistica

Transformações e Ponderação para corrigir violações do modelo

ANÁLISE DE SÉRIES TEMPORAIS

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

03/06/2014. Tratamento de Incertezas TIC Aula 18. Conteúdo Inferência Estatística Clássica

ESTATÍSTICA COMPUTACIONAL

Modelos de Regressão Linear Simples parte I

4. ([Magalhães, 2011] - Seção 2.4) Seja X U( α, α), determine o valor do parâmetro α de modo que:

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Exemplos Modelos de Quase-Verossimilhança

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Confiabilidade de sistemas. Uma importante aplicação de probabilidade nas engenharias é no estudo da confiabilidade de sistemas.

Universidade Federal do Rio de Janeiro Centro de Ciências Matemáticas e da Natureza Instituto de Matemática Departamento de Métodos Estatísticos

Teste da razão de verossimilhanças generalizada

Aula 2 Uma breve revisão sobre modelos lineares

Coleta e Modelagem dos Dados de Entrada

Universidade Federal do Ceará

Distribuição Amostral e Estimação Pontual de Parâmetros

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

Distribuição Amostral e Estimação Pontual de Parâmetros

Simulação com Modelos Teóricos de Probabilidade

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

CONHECIMENTOS ESPECÍFICOS

Probabilidade I. Departamento de Estatística. Universidade Federal da Paraíba. Prof. Tarciana Liberal (UFPB) Aula Poisson 08/14 1 / 19

TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP. lane. Ref: Kim e Nelson (1999) e Hamilton (1990)

Coleta e Modelagem dos Dados de Entrada

Analise de sobreviventes em acidentes de carros

Casos. Índice. Parte I. Caso 1 Vendas da empresa Platox. Caso 2 Importação de matéria-prima. Caso 3 Carteira de acções. Caso 4 Lançamento de produto

AULAS 14 E 15 Modelo de regressão simples

RESOLUÇÃO Nº 01/2016

Probabilidades e Estatística MEEC, LEIC-A, LEGM

Cap 7 Modelo de Cox. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. 5 Modelo de Cox. Carvalho MS (2009) Sobrevida 1 / 22

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Transcrição:

Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson Wagner Hugo Bonat - LEG/DEST, UFPR 1 Resumo: Este texto descreve de forma rápida o processo de estimação baseado em Verossimilhança para um modelo de regressão Poisson. Palavras-chave: Poisson, Verossimilhança, Perfilhada.. 1 Introdução O número de vezes que um determinado evento ocorre é uma forma comum de dados. Exemplos de dados de contagens ou frequências são: número de pessoas infectadas por uma doença, número de chamadas telefônicas que chegam a uma central, número de assaltos em uma cidade, entre outros. A distribuição de Poisson P (µ) é muito usada para modelar dados de contagens. Se Y é o número de ocorrências, sua distribuição de probabilidade pode ser escrita como f(y) = µy exp µ, y = 0, 1, 2,... y! onde µ é o número médio de ocorrências. Pode ser mostrado que E(Y ) = µ e V ar(y ) = µ. Considere por exemplo que o número de defeitos em chapas de aço fabricadas por uma determinada fábrica segue uma distribuição de Poisson. Porém, esta fábrica produz chapas com diferentes tamanhos, por diferentes operadores, em diferentes turnos e máquinas. Estas características podem estar relacionadas ao número de defeitos encontrados em uma determinada chapa de aço. Estas características dentro de um modelo de regressão são denominadas de variáveis explanatórias, explicativas ou covariáveis. O objetivo do modelo de regressão Poisson é modelar o relacionamento destas possíveis covariáveis com a média da variável resposta. No modelo de regressão Poisson o efeito das covariáveis X na resposta Y é modelado através do parâmetro µ. chamado de preditor linear. A forma mais comum de tal relacionamento é g(µ) = β 0 + β 1 X, também O objetivo deste trabalho é estimar os parâmetros envolvidos em um modelo de regressão Poisson, bem como, ilustrar por um processo de simulação suas propriedades assintóticas. Será feita avaliação para o vício, nível de cobertura dos intervalos de confiança do tipo Wald e serão obtidos intervalos por perfil de Verossimilhança. 1 Contato: wagner@leg.ufpr.br.

2 Regressão Poisson Seja Y 1,..., Y n variáveis aleatórias independentes com Y i denotando o número de eventos observados em n i expostos. Por exemplo, em uma cidade onde a população é de 100, 000 observase 1500 pessoas com certa doença. O número esperado para Y i pode ser escrito como E(Y i ) = µ i = n i θ i. Outro exemplo, suponha que Y i é o número de indenizações pagas por uma seguradora para uma particular marca e modelo de carro. Isto vai depender do número de carros deste tipo que estão sendo segurados, n i, e outras covariáveis que afetam θ i, tal como, a idade do carro e a localização onde esta sendo usado. O subescrito i é usado para denotar diferentes combinações de marcas, modelos, idade, localização e assim por diante. A dependência de θ i nas covariáveis é usualmente modelada por θ i = exp xt i β. Por isso, o modelo linear generalizado é E(Y i ) = µ i = n i exp xt i β ; Y i P (µ i ). A função de ligação natural é a função logaritmo log µ i = log n i + x T i β O termo log n i é chamado de offset, neste trabalho em particular será assumido que n i = 1 e apenas uma covariável X 1 em um modelo com intercepto, por simplicidade. Sendo assim, a especificação do modelo está completa. 3 Inferência baseado na Verossimilhança - Regressão Poisson Para ilustrar o modelo em um primeiro momento vamos simular um conjunto de dados proveniente deste modelo. > x <- seq(1, 10, l = 100) > b0 = 0.5 > b1 = 0.3 > lambda <- exp(b0 + b1 * x) > set.seed(123) > y <- rpois(100, lambda = lambda) Um diagrama de dispersão nos auxilia a entender o modelo. Como em todos os casos de estimação por Máxima Verossimilhança o primeiro passo é encontrar a função de Verossimilhança. Neste caso, tem-se

Resposta 0 10 20 30 log Resposta 0 1 2 3 2 4 6 8 10 2 4 6 8 10 Covariável Covariável Figura 1: Diagrama de dispersão Resposta Covariável. L(β 0, β 1 Y ) = n i=1 Em R pode-se escrever esta função exp λ i λ y i i y i! onde λ i = exp β 0+β 1 x i > verossimilhanca <- function(para, y, x) { + lambda <- exp(para[1] + para[2] * x) + l <- prod(dpois(y, lambda = lambda)) + return(l) Uma forma mais conveniente computacionalmente é escrever a log-verossimilhança que neste caso, > log.verossimilhanca <- function(para, y, x) { + lambda = exp(para[1] + para[2] * x) + ll <- sum(dpois(y, lambda = lambda, log = TRUE)) + return(ll) Como temos um modelo com dois parâmetros podemos construir um gráfico com a superfície de Verossimilhança, ou em escala de deviance para auxiliar a interpretação e construção de intervalos de confiança. A maximização da função de Verossimilhança ou log-verossimilhança pode facilmente ser feita numericamente. > ajuste = optim(c(1, 1), log.verossimilhanca, y = y, x = x, control = list(fnscale = -1), + hessian = TRUE) Intervalos de confiança baseados em argumentos assintóticos são facilmente obtidos. > Sigma <- solve(-ajuste$hessian) > erro <- sqrt(diag(sigma)) > ic.b0 <- c(ajuste$par[1] - qnorm(0.975) * erro[1], ajuste$par[1],

Deviance conjunta β 1 0.26 0.28 0.30 0.32 0.34 0.99 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.05 0.2 0.1 0.95 0.2 0.3 0.4 0.5 0.6 0.7 0.8 β 0 Figura 2: Deviance conjunta com limites de confiança + ajuste$par[1] + qnorm(0.975) * erro[1]) > ic.b1 <- c(ajuste$par[2] - qnorm(0.975) * erro[2], ajuste$par[2], + ajuste$par[2] + qnorm(0.975) * erro[2]) > cbind(ic.b0, ic.b1) ic.b0 ic.b1 [1,] 0.3383526 0.2666177 [2,] 0.5376172 0.2926796 [3,] 0.7368818 0.3187415 Estes intervalos são obtidos apartir de uma aproximação quadrática da verossimilhança, podemos sobrescrever estas funções para ver como é esta aproximação. > dev.approx <- function(theta, theta.est, hessiano) { + de.ap <- -t(theta.est - as.numeric(theta)) %*% hessiano %*% + (theta.est - as.numeric(theta)) + return(de.ap) > deviance.app <- apply(grid, 1, dev.approx, theta.est = ajuste$par, + hessiano = ajuste$hessian) Neste caso a aproximação quadrática tem um comportamento muito próximo da função exata. Em situações onde isso não ocorre, podemos usar um intervalo baseado em perfil de Verossimilhança. O código abaixo constrõe perfil de verossimilhança/deviance para os dois parâmetros do modelo Poisson. > log.verossimilhanca <- function(b0, b1, y, x) { + lambda = exp(b0 + b1 * x)

Deviance conjunta β 1 0.26 0.28 0.30 0.32 0.34 0.99 0.95 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.1 0.3 0.3 0.05 0.2 0.1 0.2 0.95 0.99 0.2 0.3 0.4 0.5 0.6 0.7 0.8 β 0 Figura 3: Deviance exata e aproximação quadrática. + ll <- sum(dpois(y, lambda = lambda, log = TRUE)) + return(ll) > perfil.b0 <- function(grid.b0, y, x) { + saida <- c() + perf.b0 <- function(b1, b0, y, x) { + log.verossimilhanca(b0 = b0, b1 = b1, y = y, x = x) + for (i in 1:length(grid.b0)) { + saida[i] <- optimize(perf.b0, interval = c(-10, 10), + b0 = grid.b0[i], y = y, x = x, maximum = TRUE)$objective + deviance.perfil <- 2 * (max(saida) - saida) + return(deviance.perfil) > perfil.b1 <- function(grid.b1, y, x) { + saida <- c() + perf.b1 <- function(b0, b1, y, x) { + log.verossimilhanca(b0 = b0, b1 = b1, y = y, x = x) + for (i in 1:length(grid.b1)) { + saida[i] <- optimize(perf.b1, interval = c(-10, 10), + b1 = grid.b1[i], y = y, x = x, maximum = TRUE)$objective + deviance.perfil <- 2 * (max(saida) - saida) + return(deviance.perfil)

Uma vez as funções contruídas vamos usá-las Perfilhada 0 2 4 6 8 10 Perfilhada 0 5 10 15 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.26 0.28 0.30 0.32 0.34 β 0 β 1 Figura 4: Perfil de verossimilhança em escala de deviance β 0 e β 1. Para obtermos os valores realizados do intervalo de confiança baseados na verossimilhança/deviance perfilhada, devemos achar os pontos onde a deviance atinge o valor de uma distribuição Qui Quadrado com um grau de liberdade. Isto pode ser feito no R usando a função uniroot(). Referências [1] DOBSON, J.; BARNETT, A.,An Introduction to Generalized Linear Models,New York: Chapman & Hall, 2008.