Modelo Linear Generalizado Exponencial Potência

Documentos relacionados
Influência Local Gilberto A. Paula

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Modelo de regressão estável aplicado a econometria

Modelos de regressão para dados correlacionados. Cibele Russo

Exemplos Equações de Estimação Generalizadas

Modelo de regressão Beta

Modelos de regressão beta inflacionados

Exemplos Regressão Dados Binários

Exemplos Modelos Binomiais de Dose-Resposta

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos Lineares Generalizados

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

Exemplos Modelos de Quase-Verossimilhança

Regressão de Poisson e parentes próximos

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

Resenha Modelos Lineares Generalizados

Modelos e inferência para um experimento em blocos casualizados para o número de vagens em soja RESUMO

Modelagem de dados complexos por meio de extensões do modelo de

Modelo de regressão log-weibull-exponenciada para dados com censura intervalar

Aplicação dos modelos lineares generalizados na análise do

Modelos com erros nas variáveis: teoria e

1 de janeiro de UFRPE e UFPE. Curso de Teoria Assintótica. Gauss Cordeiro. Roteiro. Expansões de Laplace

4 Modelos Lineares Generalizados

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP. lane. Ref: Kim e Nelson (1999) e Hamilton (1990)

Exemplos Regressão Dados de Contagem

MODELAGEM DA TAXA DE ANALFABETISMO NO ESTADO DA PARAÍBA VIA MODELO DE REGRESSÃO BETA

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação

Resenha dos Modelos Lineares Generalizados

Exemplo Abastecimento de Refrigerantes

Exemplo Vida Útil de Ferramentas

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

Modelos Lineares Generalizados - Componentes do Modelo

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

Faturamento de Restaurantes

Exemplo Chamadas Telefônicas

Ajuste e comparação de modelos para dados grupados e censurados

1 z 1 1 z 2. Z =. 1 z n

Exemplo Falhas em Tecidos

Exemplo Regressão Robusta

Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016

Aula 22/10/2018 José Luiz Padilha 22 de outubro de 2018

Modelos de Regressão para Dados de Contagem

Erros com Distribuição Log-Beta-Weibull em Regressões Lineares

Utilização de modelos marginais na análise de dados longitudinais irregulares em relação ao tempo

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

MODELANDO A TAXA DE NEOPLASIA PULMONAR NO BRASIL VIA MODELOS LINEARES GENERALIZADOS

Disciplina de Modelos Lineares Professora Ariane Ferreira

SME0803 ANÁLISE DE REGRESSÃO 1º/2011

Exemplo Ausências Escolares

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

Exemplo Espinhel de Fundo

Modelos Lineares Generalizados - Análise de Resíduos

Modelos Lineares Generalizados - Análise de Resíduos

Técnicas computacionais em probabilidade e estatística II

Regressão para Dados de Contagem - Segurança e privatização ferroviária na Grã-Bretanha

Aula 2 Uma breve revisão sobre modelos lineares

MAE Modelos Lineares Generalizados 2 o semestre 2017

Uso de modelos lineares generalizados para estimar germinação carpogênica de escleródios de S. sclerotioroum

MODELOS LINEARES GENERALIZADOS SIMÉTRICOS HETEROSCEDÁSTICOS MARIA LÍDIA COCO TERRA

Modelos de regressão beta e simplex

Anderson Garneth de Castro 1 Graziela Dutra Rocha Gouvêa 2

Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson

ESTATÍSTICA COMPUTACIONAL

Modelagem estatística da captura da broca-do-café (Hypothenemus hampei) ao longo do tempo 1

Transformações e Ponderação para corrigir violações do modelo

Disciplina de Modelos Lineares

Estimadores, pontual e intervalar, para dados com censuras intervalar

Inferência Bayesiana

Antes de resolvermos a)-c), vamos relembrar a diferença entre esperança (variância) conditional e esperança (variância) incondicional.

Ralph S. Silva

O USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG

Modelos de Regressão Múltipla - Parte VIII

Inferência em Recursos Florestais e Ecologia: A Abordagem da Verossimilhança 1

Utilizando a função auto.arima em modelos de séries temporais

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA GRR DENNIS LEÃO GRR LUAN FIORENTIN GRR

IND 1115 Inferência Estatística Aula 6

Modelos de Regressão Linear Simples - Análise de Resíduos

Análise de Dados Longitudinais Aula

TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS

UTILIZAÇÃO DE GEOESTATÍSTICA PARA O ESTUDO DO ATRIBUTO COBRE NO SOLO. Gabriel Tambarussi Avancini 1 RESUMO

Ajuste de mínimos quadrados

Exemplo Preferência de Automóveis

Métodos de Diagnóstico para Modelos Lineares Mistos p.1/58

Modelos Binomial e Poisson

TESTES DE HIPÓTESES Notas de aula. Prof.: Idemauro Antonio Rodrigues de Lara

MAE Planejamento e Pesquisa II

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Mais sobre Modelos Continuos

CONHECIMENTOS ESPECÍFICOS

CE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística

UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA. Eduardo Yoshio Nakano 1

Exemplo Multicolinearidade

6 Ajuste de mínimos quadrados

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos aditivos generalizados para locação, escala e forma na análise do número de lesões corticais em pacientes com esclerose múltipla

Efeitos da especificação incorreta. de regressão beta

Transcrição:

Modelo Linear Generalizado Exponencial Potência Cristian Villegas 1 2 1 Introdução Os modelos lineares normais são amplamente aplicados em diversas áreas do conhecimento para modelar a média de dados contínuos que possuem uma distribuição simétrica. No entanto, quando temos presença de dados atípicos a distribuição exponencial potência surge como uma alternativa interessante à distribuição normal, já que possui caudas mais pesadas e mais curtas do que a distribuição normal e portanto ajusta melhor os dados atípicos. Com base em modelos lineares generalizados (MLG) [6] e modelos lineares simétricos (MLS) [5] estudamos o modelo linear generalizado exponencial potência (MLGEP). A ideia principal desses modelos é modelar dados contínuos com distribuição exponencial potência com alguma função de ligação entre a média e um conjuntos de preditores lineares. Em particular, comparamos o modelo linear normal e modelo linear exponencial potência para diferentes funções de ligação a um conjunto de dados reais. Apresentamos gráficos de resíduos padronizados [3] e alavanca generalizados [8]. 2 Material e métodos Modelos lineares simétricos tem assumido ligação identidade entre a média da variável resposta e um conjunto de preditores lineares. A classe de MLGS, introduz uma função de ligação entre a resposta média e o conjunto de preditores lineares, permitindo o uso de diferentes funções de ligação como por exemplo, ligação logarítmica, recíproca, dentre outras. Assumimos que Y 1,...,Y n são variáveis aleatórias independentes, em que cada Y i tem uma distribuição exponencial potência com parâmetro de posição µ i, parâmetro de escala φ e parâmetro de forma ν cuja função de densidade ([2]) é definida como f(y i, µ i, φ) = 1 C(ν)exp { 12 } u i 1/(1+ν), 1 < ν 1, u i > 0,, (1) φ em que u i = (y i µ i ) 2 /φ, C(ν) 1 = Γ( 3+ν 2 )2(3+ν)/2 e cuja notação será Y i EP(µ i,φ,ν), i = 1,...n. Seja η i = x i β = β 1x i1 +...+β p x ip o preditor linear, em que x i = (x i1,...,x ip ) é o 1 LCE - ESALQ/USP. e-mail: clobos@usp.br 2 Agradecimento à FAPESP pelo apoio financeiro. 614

vetor p 1 de covariáveis para o i-ésimo caso e β = (β 1,...,β p ) é o vetor de parâmetros p 1. Assumimos que o parâmetro µ i satisfaz g(µ i ) = η i, (2) com g( ) sendo a função de ligação, monótona e pelo menos duas vezes diferenciável como em MLG. O modelo definido pelas equações (1)-(2) é chamado de MLGEP. O logaritmo da função de verossimilhança para o MLGEP pode ser escrito como l(θ) = n ( 3+ν (Γ 2 log(φ) nlog 2 )) n(3+ν) log(2) 1 2 2 n i=1 u 1/(1+ν) i, em que θ = (β, φ) (ν fixo). Usamos o método de máxima verossimilhança para estimar os parâmetros do modelo. Segue desde [8] que a matriz de alavanca generalizada é definida como, GL(θ) = D θ L 1 θθ L θy, (3) avaliada em ˆθ, com D θ = µ/ θ = (D(a)X,0), e L θy = 2 l(θ)/ θ y = (L βy,l φy ), em que L βy = X D(c)D(a)/φ e L φy = 2 l(θ)/ φ y = b /φ 2. Então, depois de algumas manipulações algébricas, (3) pode ser escrito como GL( θ) = Ĥ 1 + Ĥ 2 Ĥ 1 Ĥ 2, (4) em que H 1 = D(a)X{X D(d)X} 1 X D(a)D(c), H 2 = 1 φ 3 D(a)X{X D(d)X} 1 X D(a)bb, l φφ 1 e l φφ 1 = l φφ L φβ L 1 ββ L βφ. Note que para o modelo linear normal e ligação identidade GL( θ) = X(X X) 1 X. Agora se φ for conhecido L βφ 0, desde a equação (4) segue que GL( β) = D(â)X{X D( d)x} 1 X D(â)D(ĉ) = Ĥ 1. (5) O gráfico índice de ĜL ii é utilizado para avaliar observações com uma alta influencia nos valores preditos. Por outro lado, para o modelo linear normal e com base em [3], podemos definir os resíduos padronizados para o MLGEP como y i ŷ i t ri = ˆφξ h {1 (4a h ξ h ) 1ĥ ii} i = 1,...,n, Γ{(3 ν)/2} em que a h = 4(2 ν 1 )(1+ν) 2 Γ{(ν+1)/2}, ξ h = 2ψ (0), h ii são os elementos da diagonal da matriz H = W(a) 1/2 X{X W(a)X} 1 X W(a) 1/2, isto é, h ii = ω(a i )x i {X W(a)X} 1 x i. Para n grande é fácil mostrar que H 1 = H. Para motivar nossa teoria usamos como exemplo o conjunto de dados de preços de casas que tem sido analisados por vários autores (veja, por exemplo, [1]). 615

Tabela 1: Resumo do ajuste do MLGS para os dados de preços de casas. Distribuição Preditor linear Função de ligação ν AIC BIC Normal quadrático identidade - -38.8-21.9 Exponencial Potência 0.4-53.7-36.8 Normal quadrático logarítmica - -40.2-23.3 Exponencial Potência 0.4-55.6-38.7 Normal quadrático recíproca - -41.2-24.3 Exponencial Potência 0.4-57.3-40.4 O objetivo do estudo é avaliar a associação entre os preços das casas com a qualidade do ar usando modelos de regressão. A variável resposta LMV (logaritmo do preço mediano das casas) está relacionado com 14 covariáveis. Para o nosso trabalho somente estudaremos a covariável (logaritmo da proporção com renda mais baixa). 3 Resultados e discussões A figura 1(esquerda) mostra o gráfico de dispersão com tendência não linear entre as variáveis LMV versus. LMV 2.0 2.5 3.0 3.5 4.0 4 2 0 2 Percentis da N(0,1) Figura 1: Gráfico de dispersão entre LMV e (esquerda) e o QQplot com envelope simulado para o modelo linear quadrático com função de ligação recíproca(direita) Assim, como sugerido pelo gráfico de dispersão (figura 1 (esquerda)), ajustamos os modelos: (i) Y i N(µ i,φ) e g(µ i ) = η i = β 0 + β 1 x i + β 2 xi 2 e as funções de ligação identidade, ind logarítmica e recíproca, em que x =. A tabela 1 resume os valores para o AIC e BIC para cada ajuste, em que AIC = 2l( θ)+2(p+1) e BIC = 2l( θ)+(p+1)log(n). Notamos que o melhor ajuste (sob erros normais) é atingido para o preditor quadrático com ligação recíproca. No entanto, o gráfico QQplot para os resíduos t ri (figura 1 (direita)) indica que esse modelo não ajusta bem os dados, sugerindo o uso de uma distribuição simétrica com caudas mais pesadas do que a distribuição normal. Assim, consideramos como alternativa a distribuição exponen- 616

Ci 0.00 0.02 0.04 0.06 0.08 Ci 0.00 0.02 0.04 0.06 Figura 2: Gráfico entre C i e para o modelo linear generalizado exponencial potência com preditor linear quadrático e ligações logarítmica (esquerda) e recíproca (recíproca) sob ponderação de casos. ind cial potência, isto é, Y i EP(µ i,φ,ν) com g(µ i ) = η i = β 0 + β 1 x i + β 2 xi 2. Os resultados são resumidos na tabela 1. O parâmetro ν foi selecionado para cada modelo usando o critério AIC. Notamos que o melhor ajuste foi obtido para o modelo linear generalizado exponecial potência com preditor linear quadrático e função de ligação recíproca. A figura 2 mostra o gráfico entre C i, para o caso de ponderação de casos, e para o modelo linear generalizado exponecial potência com preditor linear quadrático e ligação recíproca. Observamos uma alta sensibilidade de C i para valores altos de, o que significa que a predição do preço mediano das casas parece ser mais difícil para a proporção da renda mais baixa. O gráfico entre ĥ ii e (omitido aqui) apresenta a mesma tendência e o QQplot para os resíduos t ri com envelope simulado (figura 3) não indica presença de observações atípicas nem afastamento das suposições do modelo. 4 2 0 2 4 4 2 0 2 4 Percentis da N(0,1) Quantiles of N(0,1) Figura 3: QQplot com envelopes simulados para t ri para o modelo linear generalizado exponencial potência com preditor linear quadrático e ligações logarítmica (esquerda) e recíproca (recíproca) para os preços das casas. 617

As estimativas de máxima verossimilhança (erro padrão) do modelo selecionado são dadas por ˆβ 0 = 0.257057(0.00330906), ˆβ 1 = 0.00704961(0.000555751) ˆβ 2 = 0.0000581289(0.0000193211) e ˆφ = 0.0248689(0.00184995). Então, o valor predito tem a seguinte forma ˆµ(x) = (0.257057+0.00704961x 0.0000581289x 2 ) 1, em que µ(x) denota os valores esperados de LMV dado x =. 4 Conclusões Em este trabalho apresentamos o modelo linear generalizado exponencial potência como alternativa ao modelo normal para diferentes funções de ligação seguindo a ideia dos modelos lineares generalizados. Além do anterior, apresentamos alguns gráficos de resíduos e alavanca generalizados para o modelo proposto com base num conjunto de dados reais. Referências [1] BELSEY, D. A.; KUH, E.; WELSCH, R. E. (1980). Regression Diagnostics. Identifying Influential Data and Sources of Collinearity. Wiley, New York. [2] BOX, G. E. P.; TIAO, G. C. (1973). Bayesian Inference in Statistical Analysis. Reading, Addison-Wesley. [3] COX, D. R.; SNELL, E. J. (1968). A general definition of residuals, Journal of the Royal Statistical Society, B, 30, 2, 248-275. [4] DEVROYE, L. (1986). Non-Uniform Random Variable Generation. Springer-Verlag, New York. [5] GALEA, M.; PAULA, G. A.; URIBE-OPAZO M. (2003). On influence diagnostics in univariate elliptical linear regression models. Statistical Papers, 44, 23-45. [6] MCCULLAGH, P.; NELDER, J. A. (1989). Generalized Linear Models, 2nd Edition. Chapman and Hall, London. [7] ST. LAURENT, R. T.; COOK, R. D. (1992). Leverage and superleverage in nonlinear regression, Journal of the American Statistical Association, 87, 985-990. [8] WEI, B. C.; HU, Y. Q.; FUNG, W. K. (1998). Generalized leverage and its applications, Scandinavian Journal of Statistics, 25, 25-37. 618