Washington Leite Junger. Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade DISSERTAÇÃO DE MESTRADO. Engenharia Elétrica

Transcrição

1 Washington Leite Junger Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade DISSERTAÇÃO DE MESTRADO DEPARTAMENTO DE ENGENHARIA ELÉTRICA Programa de Pós graduação em Engenharia Elétrica Rio de Janeiro janeiro de 2004

2 Washington Leite Junger Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica da PUC-Rio Orientador: Prof. Cristiano Augusto Fernandes Co Orientador: Prof. Antonio Ponce de Leon Rio de Janeiro janeiro de 2004

3 Washington Leite Junger Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica do Centro Técnico Científico da PUC- Rio.Aprovada pela Comissão Examinadora abaixo assinada. Prof. Cristiano Augusto Fernandes Orientador Departamento de Engenharia Elétrica PUC-Rio Prof. Eduardo Lima Campos Escola Nacional de Ciências Estatísticas IBGE Prof. Antonieta D Alcântara de Queiroz Peres Departamento de Matemática e Estatística Uni-Rio Prof. José Eugenio Leal Coordenador Setorial do Centro Técnico Científico PUC-Rio Rio de Janeiro, 30 de janeiro de 2004

4 Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador. Washington Leite Junger Graduado em Estatística pelo Instituto de Matemática e Estatística da Universidade do Estado do Rio de Janeiro IME/UERJ. Nos últimos anos, tem atuado como pesquisador do Projeto ARES-Rio no Instituto de Medicina Social IMS/UERJ, em estudos epidemiológicos de associação entre poluição do ar e potenciais efeitos nocivos à saúde. Contexto em que o presente trabalho foi desenvolvido. Junger, Washington Leite Ficha Catalográfica Modelo Poisson-Gama Semi-Paramétrico/ Washington Leite Junger; orientador: Cristiano Augusto Fernandes; co orientador: Antonio Ponce de Leon. Rio de Janeiro : PUC-Rio, Departamento de Engenharia Elétrica, v., 82 f: il. ; 29,7 cm 1. Dissertação (mestrado) - Pontifícia Universidade Católica do Rio de Janeiro, Departamento de Engenharia Elétrica. Inclui referências bibliográficas. 1. Estatística. 2. Séries Temporais. 3. Regressão Não-paramétrica. 4. Epidemiologia. 5. Poluição do Ar. 6. Saúde. I. Fernandes, Cristiano Augusto. II. De Leon, Antonio Ponce. III. Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Engenharia Elétrica. IV. Título. CDD: 621.3

5 Agradecimentos Meus orientadores Cristiano e Ponce pela produtiva parceria. Toda a família por lidar com a minha ausência. Cristina pelo apoio pleno e incondicional. Andréia pela leitura e torcida. CAPES pelo suporte financeiro.

6 Resumo Junger, Washington Leite; Fernandes, Cristiano Augusto; De Leon, Antonio Ponce. Modelo Poisson-Gama Semi-Paramétrico. Rio de Janeiro, p. Dissertação de Mestrado Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro. Neste trabalho, os modelos Poisson-gama são estendidos para uma formulação mais geral onde o preditor linear das covariáveis é substituído por um preditor aditivo de funções genéricas destas covariáveis. Como nos modelos aditivos generalizados (MAG), as funções lineares das covariáveis constituem um caso particular de modelo aditivo e as funções suavizadores utilizadas são as splines cúbicas naturais. A formulação semi-paramétrica permite ampliar o campo de aplicação desta classe de modelos. Os modelos semi-paramétricos são estimados por um processo iterativo combinando maximização da verossimilhança e algoritmo backfitting. Todos os algoritmos de estimação e diagnósticos estão implementados nas linguagens de programação R e C. Palavras chave Modelos em espaço de estados, séries temporais, regressão nãoparamétrica, splines, epidemiologia, fatores de confusão, poluição do ar.

7 Abstract Junger, Washington Leite; Fernandes, Cristiano Augusto; De Leon, Antonio Ponce. Semiparametric Poisson-Gamma models : a roughness penalty approach. Rio de Janeiro, p. MSc. Dissertation Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro. This work is aimed at extending the Poisson-Gamma models towards a more general specification, where the linear predictor of covariates is replaced by an additive predictor of generic functions of these covariates. Just like the generalized additive models (GAM), the linear functions of covariates are a particular case of additive models and the natural cubic splines are used as smoothing functions. The semiparametric specification allows to enlarge the possibilities of application of these models. The semiparametric models are fitted by an iterative process that combines maximization of likelihood and backfitting algorithm. All the routines for model fitting and diagnostics are implemented in R and C programming languages. Keywords State space models, time series, nonparametric regression, splines, epidemiology, confounding factors, air pollution.

8 Sumário 1 Introdução 9 2 Revisão teórico-metodológica Modelos Poisson-gama Regressão não-paramétrica 15 3 Modelo Poisson-gama semi-paramétrico Especificação teórica Inferência no modelo semi-paramétrico Aspectos computacionais 35 4 Aplicação e comparação de modelos Aplicação em Epidemiologia Ambiental Comparação com outra classe de modelos 44 5 Conclusão 52 Referências Bibliográficas 54 A Código fonte em R 59 B CD-ROM com a Biblioteca pgam para R 82

9 Todas as religiões, artes e ciências são ramos da mesma árvore. Todas elas aspiram a enobrecer a vida do homem, elevando-a acima da esfera da mera existência física e conduzindo o indivíduo rumo à liberdade. Não foi por mero acaso que nossas mais antigas universidades se desenvolveram a partir de escolas eclesiásticas. Tanto as igrejas como as universidades na medida em que cumpram sua verdadeira função servem ao enobrecimento do indivíduo. Buscam cumprir essa elevada tarefa pela difusão do entendimento moral e cultural, renunciando ao uso da força bruta. Albert Einstein, Escritos da Maturidade.

10 1 Introdução Na análise de dados de séries temporais se assume, freqüentemente, que a forma funcional da associação das covariáveis com a variável resposta é linear. Contudo, se esta relação exibe um padrão complexo, esta abordagem torna a modelagem inadequada. Em algumas aplicações, como a análise de séries temporais epidemiológicas, o que se pretende usualmente é estimar o efeito de uma ou mais covariáveis que representam uma exposição sobre a variável resposta que corresponde a um desfecho de saúde. Entretanto, é necessário remover o efeito de covariáveis que constituem fatores de confusão. As formas paramétricas podem não ser suficientemente flexíveis para proporcionar o ajuste necessário para corrigir este efeito. Atualmente, os modelos aditivos generalizados (MAG) constituem a metodologia padrão para a análise de séries temporais epidemiológicas em estudos que investigam a associação de poluição do ar com eventos de saúde, como morbidade e mortalidade, devidos a doenças respiratórias e cardiovasculares. Os modelos aditivos generalizados permitem que funções genéricas das covariáveis sejam introduzidas no preditor aditivo. No caso trivial, estas funções são lineares. A associação de cada covariável com a variável resposta pode ser definida por uma função suave determinada pelos próprios dados. Estas funções são denominadas suavizadores. Na literatura referente à regressão não-paramétrica, há um grande número de funções suavizadoras. Entretanto, a família de funções mais utilizada é a spline. A spline cúbica natural é o suavizador mais frequentemente utilizado devido a características matemáticas que são atrativas para a análise estatística de dados e para diagnósticos de adequação do modelo. Não obstante constituir a metodologia padrão dos estudos de séries temporais em epidemiologia ambiental, os modelos aditivos generalizados não são capazes de ajustar adequadamente estruturas intrínsecas das séries temporais. Por exemplo, a autocorrelação precisa ser ajustada através de métodos ad hoc. A solução natural para o problema é a formulação de

11 Modelo Poisson-Gama Semi-Paramétrico 10 uma classe de modelos capazes de lidar com os componentes das séries temporais e que permitam associações não-lineares das covariáveis com a variável resposta. A classe de modelos Poisson-gama para séries temporais proposta por Harvey e Fernandes [20] constitui uma abordagem para a análise de dados de contagem, na qual as estruturas instrínsecas das séries temporais são devidamente ajustadas. Entretanto, estes modelos não permitem que associações mais complexas das covariáveis com a variável resposta sejam modeladas de forma não-paramétrica. Considere-se, então, uma classe de modelos capazes de incorporar no seu preditor formas não-paramétricas das covariáveis e que, ainda, sejam capazes de ajustar devidamente estruturas inerentes à dinâmica das séries temporais. Estes modelos possuiriam a adequação de um modelo próprio para séries temporais e a flexibilidade de um modelo aditivo generalizado. Neste trabalho é proposta a extensão dos modelos Poisson-gama para uma formulação mais geral na qual o preditor linear das covariáveis é substituído por um preditor aditivo de funções genéricas destas covariáveis. Como nos modelos aditivos generalizados, as funções lineares das covariáveis constituem um caso particular. As funções suavizadoras utilizadas neste trabalho são as splines cúbicas naturais, embora outros suavizadores possam ser facilmente incorporados ao modelo. O processo de estimação da partição paramétrica do modelo híbrido ou semi-paramétrico, como será referido a partir de agora, é obtida pelo método de maximização numérica da verossimilhança. A partição não-paramétrica é estimada pelo algoritmo backfitting. Os dois algoritmos de estimação combinados são iterados até que o valor da verossimilhança atinja um critério de convergência. Alguns procedimentos inferenciais são adaptados dos modelos lineares generalizados na falta de uma teoria distribucional adequada aos modelos semi-paramétricos. Os algoritmos de estimação dos modelos Poisson-gama semiparamétricos bem como ferramentas para diagnósticos da adequação do ajuste de modelos, foram implementados na forma de uma biblioteca nas linguagens R e C. Apesar de poderem ser executados em outros sistemas operacionais suportados pelo R, os códigos foram otimizados para execução sobre o sistema operacional Linux. A escolha da linguagem de programação e do sistema operacional concorda com a filosofia de software livre e código aberto. A extensão do modelo Poisson-gama para uma forma mais geral na qual seja possível introduzir funções não-paramétricas, sobretudo funções

12 Modelo Poisson-Gama Semi-Paramétrico 11 suaves dos dados como as splines cúbicas naturais, de forma aditiva no preditor linear permite ampliar o campo de aplicação desta classe de modelos. O trabalho está organizado da seguinte forma: No capítulo 2 é realizada uma revisão detalhada de teorias e métodos dos modelos Poisson-gama paramétricos e de regressão não-paramétrica com ênfase em splines cúbicas naturais e no algoritmo backfitting. No capítulo 3, os modelos Poisson-gama semi-paramétricos são especificados teoricamente, são apresentados alguns procedimentos de inferência estatística e detalhados os aspectos computacionais e algoritmo de estimação. O capítulo 4 consiste da aplicação do modelo semi-paramétrico a um problema de epidemiologia ambiental e comparação do modelo Poisson-gama semi-paramétrico com um modelo Poisson-gama paramétrico e um modelo aditivo generalizado na análise do mesmo problema de associação de poluição do ar com o número diário de internações de crianças por doenças respiratórias. O capítulo 5 conclui o trabalho apontando resultados e dificuldades. O código fonte dos programas encontra-se no anexo A. O anexo B, é um CD-ROM contendo o código fonte da bilioteca pgam e também sua versão compilada para o sistema operacional Windows, bem como as versões atuais do sistema R.

13 2 Revisão teórico-metodológica 2.1 Modelos Poisson-gama Os modelos Poisson-gama foram introduzidos como uma proposta de modelos para lidar com observações de séries temporais de processos de contagem. O problema consiste essencialmente em formular um modelo que forneça a distribuição de y t dado o passado da série, ou seja, a seqüência y 1,..., y t 1 denotada por Y t 1. A solução do problema reside no uso das distribuições conjugadas como as usadas no contexto bayesiano, contudo, a abordagem utilizada é a clássica [13]. Embora o artigo original [20] compreenda um maior número de distribuições não-gaussianas, neste trabalho, apenas a distribuição de Poisson é abordada. Considere-se a seqüência y 1,..., y n como n realizações de um processo estocástico de Poisson [29]. Para cada instante t a distribuição de y t condicionada no nível µ t é dada por p (y t µ t ) = µy t t e µ t y t!. (2-1) Suponha-se que a distribuição de µ t 1 condicionada em todas as observações da série até o instante t 1 seja gama com parâmetros a t 1 e b t 1 estimados a partir da seqüência Y t 1. Sob normalidade dos erros nas equações de um modelo de nível local gaussiano [21, 9], a média de µ t Y t 1 é igual a de µ t 1 Y t 1 e a variância é maior. Este mesmo comportamento pode ser replicado na distribuição gama aplicando aos parâmetros um fator menor que 1, denotado por ω e denominado fator de desconto. Ou seja, assume-se que a distribuição a priori p (µ t Y t 1 ) é uma gama com parâmetros a t t 1 e b t t 1 da forma a t t 1 = ωa t 1 (2-2) b t t 1 = ωb t 1 (2-3)

14 Modelo Poisson-Gama Semi-Paramétrico 13 com 0 < ω 1. As equações 2-2 e 2-3 são as equações de previsão do filtro Poisson-gama. Com a observação y t disponível, devido à conjugação das distribuições de probabilidades, a distribuição a posteriori p (µ t Y t ) também é gama com parâmetros dados por a t = ωa t 1 + y t (2-4) b t = ωb t (2-5) As equações 2-4 e 2-5 são as equações de atualização do filtro Poisson-gama. As equações de previsão e de atualização deste filtro podem, na prática, ser combinadas. Neste caso, apenas a t t 1 e b t t 1 são estimados [4]. A distribuição de µ t é difusa se a = 0 e b = 0. Entretanto, a iniciação das recursões do filtro no instante t = 0 com a 0 = 0 e b 0 = 0 permite a obtenção de uma distribuição própria para µ t no instante t = τ, em que τ é o índice da primeira observação com valor diferente de zero [20]. Condicionada em Y τ, a distribuição conjunta de y τ+1,..., y n é n p (y τ+1,..., y n ; ω) = p (y t Y t 1 ) (2-6) t=τ+1 e a função de densidade de probabilidade preditiva é dada por p (y t Y t 1 ) = 0 p (y t µ t ) p (µ t Y t 1 ) dµ t. (2-7) Para observações de um processo de Poisson e uma priori gama, a equação 2-7 leva a distribuição binomial negativa com parâmetros a t t 1 e b t t 1. A função de log-verossimilhança do hiperparâmetro ω a ser estimado é dada por log L (ω) = n log Γ ( ) a t t 1 + y t log yt! log Γ ( ) a t t 1 + t=τ+1 a t t 1 log b t t 1 ( a t t 1 + y t ) log ( 1 + bt t 1 ). (2-8) Das propriedades da binomial negativa se obtêm a média e a variância da distribuição preditiva dadas por E (y t Y t 1 ) = a t t 1 (2-9) b t t 1 V ar (y t Y t 1 ) = a ( ) t t bt t 1 (2-10) b 2 t t 1

15 Modelo Poisson-Gama Semi-Paramétrico 14 Usando substituições sucessivas, verifica-se que a função de previsão L passos à frente do modelo Poisson-gama sem variáveis explicativas equivale a um amortecimento exponencial ponderado (EWMA) das observações passadas com constante de suavização igual a 1 ω. Nos modelos com variáveis explicativas estas formas não são equivalentes [20]. Para introduzir variáveis explicativas no modelo Poisson-gama, considere-se que o efeito do nível do componente estrutural µ t da série temporal é separado do efeito das covariáveis no vetor x t. Este nível pode ser combinado de forma multiplicativa com uma função de ligação exponencial das covariáveis, denotada por exp ( ) η t +. Logo, a distribuição de yt condicionada em µ t é Poisson com média µ + t = µ t exp ( ) η t + (2-11) p η t + = β j x jt (2-12) j=1 em que η t + é o preditor linear. Seja gama a distribuição de µ t 1 condicionada em Y t 1. A distribuição de µ t condicionada em Y t 1 também é gama, com parâmetros a t t 1 e b t t 1. As médias de µ t 1 Y t 1 e µ t Y t 1 são iguais, porém a variância de µ t Y t 1 é maior que a de µ t 1 Y t 1 [20]. Então, as equações 2-2 e 2-3 de previsão do filtro Poisson-gama para o modelo com variáveis explicativas são dadas por a t t 1 = ωa t 1 (2-13) b t t 1 = ωb t 1 exp ( ) η t + (2-14) e as equações 2-4 e 2-5 de atualização do filtro para o modelo com variáveis explicativas são a t = ωa t 1 + y t (2-15) b t = ωb t 1 + exp ( ) η t + (2-16) com t = τ + 1,..., n. Os hiperparâmetros ω e β j são estimados pelo método da máxima verossimilhança cuja função é dada pela equação 2-8. A média e variância da distribuição preditiva do modelo com variáveis explicativas permanecem as mesmas que nas equações 2-9 e 2-10, exceto pelos parâmetros que agora são calculados como nas equações 2-13 e Muitas das técnicas de diagnóstico usualmente empregadas em mo-

16 Modelo Poisson-Gama Semi-Paramétrico 15 delos lineares generalizados (MLG) [28, 12] são válidos para os modelos Poisson-gama. Contudo, observa-se que para o diagnóstico que depende da distribuição deve tomar por referência a distribuição preditiva que é binomial negativa. Como exemplo, pode-se definir a função desvio para os modelos Poisson-gama da seguinte forma D (y; ˆµ) = 2 n t=τ+1 a t t 1 log ( at t 1 y t b t t 1 ) ( a t t 1 + y t ) log ( yt + a t t 1 ) ( 1 + bt t 1 ) yt. (2-17) O número de graus de liberdades do modelo ajustado é dado por n p τ [20]. Fazendo uso da equação 2-17, pode ser definido, por exemplo, o resíduo de desvio dado por r dt = sign(y t µ t ) d t em que d t é o valor da parcela da função desvio referente ao instante t [28]. Os resíduos de desvio são considerados superiores e mais apropriados para diagnóstico e validação de modelos que usam a abordagem dos modelos lineares generalizados que os resíduos de Pearson [30]. Outra possibilidade é o resíduo de desvio padronizado definido por r dpt = r dt / 1 h tt, em que r dt é o resíduo de desvio e a quantidade h tt é a contribuição da t-ésima observação para o valor previsto, ou seja, é o t-ésimo elemento da diagonal da matriz chapéu estimada. A matriz chapéu é equivalente à matriz de projeção dos modelos de regressão linear e não é definida explicitamente nos modelos Poisson-gama. Campos e colaboradores (2003) [4] propõem uma quantidade equivalente para h tt e conduzem um estudo de simulação para investigar a eficácia da padronização dos resíduos usando esta quantidade. 2.2 Regressão não-paramétrica Splines cúbicas Nos modelos lineares generalizados [28], a média de uma variável resposta Y é modelada como uma função linear p j=1 β jx j de um conjunto de covariáveis X 1,..., X p. Estes modelos assumem uma forma linear ou paramétrica para o efeito das covariáveis. Os MLG podem ser estendidos, substituindo o preditor linear η = p j=1 β jx j por um preditor aditivo η = p j=1 g j (X j ), em que g j (X j ), com j = 1,..., p, são funções quaisquer das covariáveis X 1,..., X p. Por não possuir restrição na forma

17 Modelo Poisson-Gama Semi-Paramétrico 16 funcional de nenhuma das covariáveis este modelo é dito não paramétrico. Na notação do preditor de ambos os modelos, o intercepto foi omitido por simplificação. Os modelos semi-paramétricos são aqueles nos quais uma ou mais funções g j (X j ) do preditor aditivo são lineares, ou seja, são da forma β j X j [22, 23, 3, 16]. Os pressupostos tradicionais dos modelos de regressão são relaxados e o problema agora passa a ser escolher as funções g j (X j ) de tal forma que alguma norma seja minimizada. A norma comumente utilizada na análise de regressão é a L 2. Então, é necessário escolher g tal que a soma dos quadrados dos resíduos seja mínima. Apesar de as funções trigonométricas e as funções polinomiais serem mais flexíveis que uma reta, essas ainda definem uma estrutura rígida para a associação entre as covariáveis e a variável resposta. Além disto, uma observação individual pode exercer efeitos imprevisíveis em outras regiões da curva. A escolha natural para funções g são funções suaves estimadas a partir dos próprios dados, tal que a soma de quadrados penalizada seja minimizada [18, 12]. Para estimar g considere-se minimizar o funcional S (g) = n Y i g (k i ) 2 + λ b i=1 a g 2 dx (2-18) em que k i, com i = 1,..., n, são pontos ordenados num intervalo [a, b] qualquer, g tem primeira e segunda derivadas contínuas g e g, o quadrado de g é uma função integrável e 0 < λ < é o parâmetro de suavização da curva g. A solução ĝ λ do problema de otimização acima é uma spline cúbica natural [11]. Suponha-se que a seqüência de pontos k 1,..., k n pertença ao intervalo [a, b] tal que a < k 1 < k 2 < < k n < b. Uma função g definida sobre o intervalo [a, b] é uma spline cúbica se satisfaz as seguintes condições: (1) sobre cada intervalo (a, k 1 ), (k 1, k 2 ), (k 2, k 3 ),..., (k n, b), g é uma função polinomial cúbica e (2) cada dois polinômios em partes vizinhos se conectam no ponto k i de tal modo que a própria g e sua primeira e segunda derivadas sejam contínuas em todos os pontos k i e, portanto, sobre todo o intervalo [a, b]. Pode ser definido então o espaço S [a, b] de todas as funções suaves g em [a, b]. Os pontos k i são chamados nós 1. A fim de simplificar a notação, defina-se k 0 = a e k n+1 = b os limites do intervalo sobre o qual a função g é definida. Uma representação natural de um polinômio em partes é da forma de 1 do termo em inglês knots.

18 Modelo Poisson-Gama Semi-Paramétrico 17 quatro coeficientes polinomiais g (x) = d i (x k i ) 3 + c i (x k i ) 2 + b i (x k i ) + a i (2-19) para k i x k i+1 e constantes a i, b i, c i, d i com i = 0,..., n. Uma spline cúbica no intervalo [k 0, k n+1 ] é dita spline cúbica natural se as segunda e terceira derivadas nos pontos k 0 e k n+1 são iguais a zero. A implicação destas condições é que d 0 = 0, c 0 = 0, d n = 0 e c n = 0, logo g é linear nos intervalos [k 0, k 1 ] e [k n, k n+1 ] [18]. Uma representação mais eficiente do ponto de vista computacional e matemático que aquela na equação 2-19 é a representação do valor da segunda derivada. Nesta representação, uma spline cúbica natural g é completamente especificada pelo seu valor e o valor da segunda derivada em cada nó k i. Supondo que g é uma spline cúbica natural com nós k 1,..., k n, defina-se g i = g (k i ) e γ i = g (k i ) para i = 1,..., n. Uma spline cúbica natural g tem segunda derivada nos pontos k 1 e k n igual a zero, logo γ 1 = 0 e γ n = 0. Considere-se os vetores g = (g 1,..., g n ) e γ = (γ 2,..., γ n 1 ). Os valores de g e de suas derivadas em qualquer ponto x podem ser calculados explicitamente em termos dos vetores g e γ. Deste modo g pode ser descrita em um gráfico com qualquer grau de precisão. A condição necessária e suficiente para que os vetores g e γ representem uma autêntica spline cúbica natural para uma dada seqüência de nós depende de duas matrizes R e Q. A matriz Q tem dimensão n (n 2) com elementos q ij, com i = 1,..., n e j = 2,..., n 1. Os elementos de Q têm a seguinte forma q j 1,j = h 1 j 1 q jj = h 1 j 1 h 1 j q j+1,j = h 1 j q ij = 0 se i j 2 (2-20) com h i = k i+1 k i. A matriz R é simétrica e tem dimensão (n 2) (n 2) com seus elementos dados por r ii = (1/3) (h i 1 + h i ) r i,i+1 = (1/6) h i r i+1,i = (1/6) h i r ij = 0 se i j 2 (2-21)

19 Modelo Poisson-Gama Semi-Paramétrico 18 com i = 2,..., n 1 e j = 2,..., n 1. A matriz R é estritamente positiva definida. Com as matrizes R e Q definidas, pode-se enunciar um dos teoremas que formam a base da interpolação e da suavização por splines. As provas desses teoremas podem ser consultadas em Green e Silverman (1985) [18]. Teorema 2.1 Os vetores g e γ especificam uma spline cúbica natural se e somente se Q g = Rγ (2-22) Se a condição acima é satisfeita, então o termo de penalização em 2-18 satisfaz b a g (x) 2 dx = γ Rγ = g QR 1 Q g. (2-23) A spline de interpolação tem como motivação mecânica um antigo dispositivo usado para desenhar cascos de navios e trilhos de linhas férreas. Considere-se que para cada nó k i existe um ponto (k i, z i ). Considere-se também uma peça de madeira ou metal flexível forçada a passar pelos pivôs fixos nos pontos dados (k i, z i ) nos nós k i e livre para tomar qualquer forma nos outros pontos. Com os pivôs presos nos nós, a lâmina toma a forma de mínima energia sujeita às restrições nos nós [18]. A fim de simplificar o entendimento da suavização por spline, considere-se a interpolação por spline. Seja S [a, b] o espaço de todas as funções g suaves no sentido de que possuem primeira e segunda derivadas contínuas. A curva mais suave em S [a, b] para interpolar os pontos dados é a que tem menor termo de penalização g 2 entre todas as curvas que interpolam os dados. Entre todas as curvas g em S [a, b] que interpolam os pontos (k i, z i ), aquela que minimiza g 2 é uma spline cúbica natural com nós em k i. Se n 2, então existe uma única spline cúbica natural que interpola os dados. Assim, o problema de minimizar o termo de penalização g 2 é equivalente a encontrar uma única spline cúbica natural com nós k i e valores g (k i ) = z i para todo i. Logo, uma spline cúbica natural é a solução de um sistema de equações lineares. O segundo teorema trata da unicidade da spline cúbica natural de interpolação. Teorema 2.2 Suponha-se n 2 e k 1 < < k n. Dados os valores z 1,..., z n, existe uma e apenas uma spline cúbica natural g com nós nos pontos k i que satisfaz para i = 1,..., n. g (k i ) = z i (2-24)

20 Modelo Poisson-Gama Semi-Paramétrico 19 A spline cúbica natural de interpolação é ótima em uma classe ainda maior de funções suaves. Seja S 2 [a, b] o espaço das funções contínuas e com primeira derivada contínua g sobre o intervalo [a, b]. Isto implica a existência de uma função g integrável tal que x a g (k) dk = g (x) g (a) para todo x [a, b]. Este resultado é garantido pelo terceiro teorema. Teorema 2.3 Suponha-se n 2 e que g é uma spline cúbica natural de interpolação com valores z 1,..., z n nos pontos k 1,..., k n satisfazendo a < k 1 < < k n < b. Seja g uma função em S 2 [a, b] tal que g (k i ) = z i para i = 1,..., n. Então g 2 = g 2. A igualdade só é satisfeita se g e g são idênticas. Nas aplicações estatísticas, o que se deseja é estimar uma curva cujos valores observados são realizações de uma variável aleatória, ou seja, sujeitos a erros aleatórios. Neste caso, o objetivo é obter uma curva g que suaviza os dados observados. Tal como no problema de interpolação, considere-se k 1,..., k n pontos pertencentes ao intervalo [a, b] tal que a < k 1 < < k n < b. Sejam y 1,..., y n observações de uma variável aleatória. A fim de garantir as condições do teorema 2.1, considere-se n 3 [18]. Dada uma função g em S 2 [a, b], seja S (g) a soma de quadrados penalizada como definida na equação A curva ĝ estimada será aquela que minimiza S (g) entre todas as funções do espaço S 2 [a, b]. Aplicando as propriedades das splines de interpolação, pode ser mostrado que a curva estimada ĝ é uma spline cúbica natural com nós nos pontos k i. Reescrevendo S (g) em função dos vetores g e γ e das matrizes R e Q é possível concluir que a função ótima ĝ existe e é única. Seja Y = (Y 1,..., Y n ). A soma de quadrados penalizada S (g) pode ser reescrita na forma matricial S (g) = (Y g) (Y g) + λg QR 1 Q g = g ( I + λqr 1 Q ) g 2Y g + Y. (2-25) Fazendo K = QR 1 Q, λk é não-negativa definida e portanto, (I + λk) é estritamente positiva definida. Logo, a função na equação 2-25 tem um único mínimo obtido pela expressão g = (I + λk) 1 Y. (2-26) O teorema 2.2 garante que o vetor g define unicamente uma spline g. Então, S (g) tem um único mínimo dado pela equação 2-26 sobre o espaço de todas as splines cúbicas naturais com nós nos pontos k i.

21 Modelo Poisson-Gama Semi-Paramétrico 20 Teorema 2.4 Suponha-se n 3 e que k 1,..., k n sejam pontos tais que a < k 1 < < k n < b. Dados os pontos Y 1,..., Y n e o parâmetro de suavização λ estritamente positivo e seja ĝ a spline cúbica natural com nós em k 1,..., k n tal que g = (I + λk) 1 Y. Então, para qualquer g S 2 [a, b], S (ĝ) S (g). (2-27) A igualdade só é satisfeita se g e ĝ são idênticas. Alguns algoritmos para encontrar ĝ, estimativa da curva g, estão descritos em detalhes em Green e Silverman (1985) [18]. A partir da equação 2-26 e considerando a natureza quadrática da equação 2-18, pode ser mostrado que ĝ é linear nas observações [33, 18], no sentido que existe uma matriz H (λ), tal que ĝ = H (λ) y (2-28) e H (λ) = (I + λk) 1. (2-29) Considere-se na regressão linear uma matriz H tal que ŷ = Hy e H = X (X X) 1 X. A matriz de suavização H (λ) tem um papel equivalente à matriz chapéu H da regressão linear, pois mapeia os valores observados y i nos valores previstos ĝ (k i ). Entretanto, H (λ) não pode ser interpretada como uma matriz de projeção [10]. Por analogia, podem ser estentidas à matriz H (λ) as propriedades básicas da matriz chapéu da regressão linear. Denote-se H (λ) a matriz chapéu da spline de regressão e os elementos h ii (λ) da diagonal principal os valores de influência. Os elementos de H (λ) têm a mesma interpretação que aqueles de H na regressão linear [10]. A fim de derivar as propriedades básicas de H (λ), considere-se uma matriz T de dimensão n m com os elementos t ij iguais a t j i, respectivamente, com i = 1,..., n e j = 0,..., m 1 e defina-se H = T (T T ) 1 T. (2-30) A matriz H é conhecida como a matriz chapéu da regressão polinomial. O teorema a seguir mostra as propriedades da matriz de suavização.

22 Modelo Poisson-Gama Semi-Paramétrico 21 Teorema 2.5 A matriz H (λ) = h ij (λ) satisfaz as seguintes propriedades: 0 h ii (λ) 1 (2-31) 1 h ij (λ) 1 (2-32) para i j h ii (λ) = 1 se e somente se h ij (λ) = 0 para todo i j e n j=1 h ij (λ) = 1. Ela e fortemente correlacionada com H = h ij no sentido que h ii (λ) h ii como λ se h ii 1 Ainda, h ij (λ) h ij como λ e para λ suficientemente grande com h ij 0, tanto h ij (λ) quanto h ij têm o mesmo sinal. Se λ 0 e h ii 1, então h ii (λ) 1. A prova deste teorema pode ser obtida em Eubank (1984) [10]. Seja e = (I H) y o vetor de resíduos de um modelo na regressão linear usual. Ainda por analogia, pode ser definido um vetor e λ tal que e λ = (I H (λ)) y e V ar (e λ ) = σ 2 (I H (λ)). E, como resultado do teorema 2.5, os elementos da matriz H (λ) podem ser utilizados como ferramenta de diagnóstico tal como a matriz chapéu dos modelos de regressão linear [10, 1]. As splines cúbicas também podem ser ponderadas e, neste caso, é atribuído um peso w i para cada observação y i. Esta abordagem é especialmente importante quando alguns pontos do conjunto de dados tem grande influência sobre os valores previstos ĝ (k i ). Estimar a função g, agora, consiste em minimizar o funcional S W (g) = n w i Y i g (k i ) 2 + λ b i=1 a g 2 dx (2-33) em que w i com i = 1,..., n. Se n 3 e λ e os pesos w i são estritamente positivos, então a função na equação 2-33 tem um único mínimo dado por g = (W + λk) 1 W Y (2-34) em que W é uma matriz diagonal de dimensão n n cujos elementos são os pesos w i com i = 1,..., n [18].

23 Modelo Poisson-Gama Semi-Paramétrico 22 As splines cúbicas podem ser generalizadas para polinômios de ordens mais elevadas se introduzindo condições nas derivadas de ordens superiores. A idéia de suavização por splines pode ser estendida para problemas de dimensão superior [39]. Entre as opções de estimação podem ser consideradas, por exemplo, a redução da dimensionalidade usando funções aditivas ajustadas de forma iterativa [22, 23] ou thin plate splines, na qual toda a hiper-superfície é ajustada de uma só vez [38, 37, 36] Seleção do parâmetro de suavização O parâmetro de suavização é denotado por λ e controla a contribuição do termo g 2 para S (g). Um dos problemas na estimação de g reside na escolha do valor de λ com melhor relação viés variância. Existem duas abordagens filosóficas para a escolha do parâmetro de suavização. Em alguns contextos, o parâmetro λ pode ser selecionado de forma empírica e subjetiva. Em outros casos, o parâmetro de suavização pode ser selecionado por um método automático. Então, os próprios dados determinam o valor de λ. O valor selecionado de forma automática pode ser também usado como valor inicial para um ajuste fino manual do parâmetro de suavização. No processo de seleção do parâmetro de suavização, é necessário minimizar uma medida global de erro como, por exemplo, a média do erro quadrático médio. O método mais comum para a seleção automática do parâmetro de suavização é a validação cruzada. Este método é motivado em termos de erro de previsão. Supondo um erro com média zero, a curva g tem a propriedade de que, dada uma observação y k, g (y k ) é a melhor previsão de y k em termos de erro quadrático médio. Então, é razoável escolher o estimador ĝ (k) tal que este dê o menor valor de y k ĝ (y k ) 2 para uma nova observação y k no ponto k. Na prática, como não há novas observações disponíveis, a validação cruzada reproduz o efeito de uma nova observação y k removendo a observação y i referente ao ponto k i do conjunto de dados [18, 17, 23]. Seja y i a observação referente ao ponto k i. Considere-se que y i é uma nova observação omitindo-a do conjunto de dados utilizado para a estimação da curva g. Denote-se por ĝ ( i) (k; λ) a curva estimada usando o parâmetro de suavização λ e sem a observação y i. Então, ĝ ( i) (k; λ) é a curva que minimiza Y j g (k j ) 2 + λ j i b a g 2 dx. (2-35)

24 Modelo Poisson-Gama Semi-Paramétrico 23 O ajuste da curva estimada ĝ ( i) pode ser avaliado se verificando quão bem ĝ ( i) (k i ; λ) prevê y i. Seja y i ĝ ( i) (k i ; λ) o resíduo referente à observação y i prevista pela curva ĝ ( i) estimada com n 1 observações e com parâmetro de suavização λ, que será denotado por resíduo deletado. Uma medida de ajuste orientada a previsão é o erro preditivo quadrático médio dado por EP Q (λ) = 1 n n E yi ĝ (k i ; λ) 2 (2-36) i=1 em que y i é a nova observação referente ao ponto k i e ĝ é a curva estimada com n observações e parâmetro λ. A validação cruzada é uma estimativa do erro preditivo quadrado médio [23, 12]. Dado que a escolha de qual observação y i é retirada do ajuste de ĝ ( i), uma avaliação total da adequação do parâmetro de suavização λ pode ser obtida por meio da função escore da validação cruzada V C (λ) = 1 n n yi ĝ ( i) (k i ; λ) 2. (2-37) i=1 O objetivo da validação cruzada é encontrar o valor de λ que minimiza V C (λ). Não há garantias de que a função na equação 2-37 tenha um único mínimo. Uma busca numa grade de valores de λ pode ser o melhor método para a minimização [18]. Para calcular V C (λ) não é necessário resolver n problemas de suavização separados para achar n curvas ĝ ( i). Usando o fato de que a curva g depende linearmente dos dados y, como mostra a equação 2-28, pode ser desenvolvida uma forma computacionalmente econômica para calcular o escore V C (λ). Teorema 2.6 A função escore da validação cruzada satisfaz a seguinte equação V C (λ) = 1 n n i=1 2 yi ĝ (k i ) (2-38) 1 h ii (λ) em que ĝ é a spline calculada a partir de todo o conjunto de dados (k i, y i ), onde i = 1,..., n, com parâmetro de suavização λ. O teorema 2.6, cuja demostração pode ser consultada em Green e Silverman (1985) [18], mostra que uma vez conhecidos os elementos h ii (λ) da diagonal principal da matriz de suavização, o escore da validação cruzada pode ser calculado a partir dos resíduos em torno da spline estimada com todas as n observações. Usando uma abordagem semelhante àquela dos resíduos deletados no contexto de regressão linear [6], obtém-se o resíduo deletado

25 Modelo Poisson-Gama Semi-Paramétrico 24 y i ĝ ( i) (k i ) = y i ĝ (k i ) 1 h ii (λ). (2-39) Uma extensão da validação cruzada é validação cruzada generalizada [7, 36, 18, 22, 23]. A idéia básica da validação cruzada generalizada é substituir o fator 1 h ii (λ) na equação 2-39 por 1 (1/n) trh (λ). Por analogia a 2-38, a função escore da validação cruzada é então obtida da forma V CG (λ) = 1 n i=1 y i ĝ (k i ) 2 n 1 (1/n) trh (λ) 2 (2-40) em que ĝ é a spline calculada a partir de todo o conjunto de dados (k i, y i ), onde i = 1,..., n, com parâmetro de suavização λ. A função V CG (λ) deve ser minimizada sobre os valores de λ. A validação cruzada e a validação cruzada generalizada podem ser facilmente estendidas para seleção do parâmetro de suavização λ em splines cúbicas ponderadas [7, 36, 18] Graus de liberdade do suavizador A quantidade de suavização de um estimador pode ser expressa em termos do número de parâmetros estimados ou graus de liberdade do suavizador. Esta quantidade tem sua motivação na regressão clássica e é referida como graus de liberdade equivalentes. Suponha-se que a curva g esteja sendo estimada por uma regressão paramétrica. Assumindo que os parâmetros sejam identificáveis com base nas obsevações, a matriz H é uma projeção sobre um espaço de dimensão k. Então, o número de parâmetros ajustados é k, assim como o traço de H é igual a k. Logo, o número de graus de liberdade do modelo é igual ao traço de H. O número de graus de liberdade dos resíduos é n k que é dado por tr (I H) [18, 23, 3]. Por analogia, os graus de liberdade equivalentes dos resíduos na regressão por spline são definidos por GLER = tri H (λ) (2-41) em que H (λ) é a matriz de suavização associada com o parâmetro de suavização λ. Os números de graus de liberdade equivalentes dos resíduos variam de 0 quando λ = 0, a curva g interpola todos os pontos e a matriz H (λ) é a identidade, até n 2 quando λ = e a curva g é a reta de regressão linear. O número de graus de liberdade equivalentes está associado com a

26 Modelo Poisson-Gama Semi-Paramétrico 25 relação viés variância do estimador da curva g. Da definição de validação cruzada generalizada, esta pode ser escrita em função do número de graus de liberdade equivalentes dos resíduos da forma V CG (λ) = n em que SQR é a soma de quadrados dos resíduos. SQR (GLER) 2 (2-42) A definição de graus de liberdade equivalentes é discutida mais profundamente em Buja, Hastie e Tibshirani (1989) [3] e Hastie e Tibshirani (1990) [23] Algoritmo de estimação com múltiplas covariáveis Modelos nos quais se tenta estabelecer a dependência de uma variável resposta Y com apenas uma covariável X não caracterizam uma ferramenta apropriada para a análise estatística de problemas complexos. Por analogia aos modelos de regressão linear clássica, na regressão não-paramétrica um modelo no qual Y depende de uma função de apenas uma covariável X pode ser escrito da forma Y = g (X) + ε (2-43) em que ε é um vetor de erros independentemente distribuídos. A estimação do modelo 2-43 foi discutida ao longo desta seção. Entretanto, este modelo não tem muita utilidade na prática. Admita-se, agora, que X é um vetor aleatório de dimensão p da forma X = (X 1,..., X p ). Suponha-se um modelo no qual a dependência da variável Y é expressa como uma combinação de funções dos componentes do vetor X. Então, um modelo com múltiplas covariáveis pode ser formulado de acordo com a seguinte equação Y = g 1 (X 1 ) + + g p (X p ) + ε (2-44) onde g j, com j = 1,..., p, são curvas suaves das covariáveis X j, respectivamente, e ε é um vetor de erros independentemente distribuídos. Na notação dos modelos lineares generalizados [28, 12, 23], o modelo 2-44 pode ser reescrito da seguinte forma E (Y X) = f (η)

27 Modelo Poisson-Gama Semi-Paramétrico 26 η = p g j (X j ) (2-45) j=1 tal que f ( ) é a inversa da função de ligação apropriada para a família de distribuição de Y, η é o preditor aditivo da função de regressão e, por simplificação e sem perda de generalidade, o intercepto é igual a 0. O problema agora consiste em estimar as funções g j dados os valores observados de X j. Note-se que para algum j, g j pode ser linear, isto é, da forma g j = β j X j e, neste caso, o modelo é dito semi-paramétrico. Como cada covariável no modelo aditivo é representada separadamente, a característica de interpretabilidade é herdada do modelo linear, isto é, a variabilidade de superfície estimada depende apenas da covariável X s quando todas as outras covariáveis X j s são fixadas. Devido a esta simplificação, os modelos aditivos são aproximações da verdadeira superfície de regressão por uma soma de funções individuais dos preditores. Entretanto, os modelos aditivos não lidam de forma trivial com interações entre os preditores [23, 14]. Os suavizadores multidimensionais de alta dimensão não funcionam adequadamente pois herdam a esparsividade das amostras de dimensão alta, a chamada maldição da dimensionalidade [14]. Uma discussão detalhada da abordagem dos suavizadores multidimensionais de baixa ordem, por exemplo, thin plate splines pode ser consultada em Wood (2003) [38], Wood(2000) [37], Wahba (2000) [36] e Green e Silverman (1994) [18]. Os modelos aditivos caracterizam uma abordagem para lidar com problemas de alta dimensão, decompondo-os em problemas de baixa dimensão, normalmente d = 1 [14, 22]. Considere-se estimar as funções g 1,..., g p do modelo aditivo O modelo pode ser estimado por meio do algoritmo backfitting, também conhecido como projection pursuit [22, 14, 12]. O algoritmo consiste em estimar uma função g s dadas as estimativas das funções g j s, com j = 1,..., p, num procedimento iterativo até que um critério de convergência seja satisfeito. Um exemplo de critério de convergência pode ser dado pela diferença entre a soma de quadrados dos resíduos entre duas iterações consecutivas comparado com um valor fixo tão pequeno quanto se deseje. No algoritmo 2.1, m é o contador de iterações, R s é o resíduo parcial do modelo aditivo com todas as curvas g j s, h s ( ) é uma função suavizadora arbitrária aplicada à covariável X s e SQR é a soma de quadrados dos resíduos. A regressão por projection pursuit é uma forma direta de atacar o

28 Modelo Poisson-Gama Semi-Paramétrico 27 Algoritmo 2.1 O algoritmo backfitting 1. Inicia-se g (0) 1 = = g (0) p = 0 e m = 0 2. Itera-se: m = m + 1 Para j = 1 até p faz-se: 3. Estima-se s 1 R s = Y g (m) j (X j ) j=1 p j=s+1 g (m) s = h s (R s X s ) g (m 1) j (X j ) 4. Até que SQR = Y p j=1 j (X j ) ɛ g (m) problema da dimensionalidade. Considere-se o modelo Y = K h k (α kx) + ε (2-46) k=1 no qual α k X denota uma projeção unidimensional do vetor X, h k é uma função univariada arbitrária da projeção e os erros são independentes de X com média zero e variância σ 2. O algoritmo constrói a superfície de regressão escolhendo as projeções definidas pelo vetor α k. As direções α k e o número de termos K, em 2-46, são escolhidos de forma a oferecer o melhor ajuste aos dados. O algoritmo backfitting é um algoritmo Gauss- Seidel para solução de sistemas de equações [5]. Se os suavizadores h ( ) são operadores de projeção, a convergência do algorimo é garantida. Alguns suavizadores como as splines embora não sejam operadores de projeção, possuem as propriedades requeridas para a convergência [23]. O modelo 2-46 procura explicar a variabilidade da variável resposta não por uma seqüência suavizada, mas por uma soma de suavizações de várias seqüências da variável resposta induzida por várias combinações lineares do preditor [14]. Nos modelos de regressão linear múltipla, a interpretação dos coeficientes pode ser seriamente comprometida se existe colinearidade entre as covariáveis. Um fenômeno análogo pode ocorrer nos modelos não-paramétricos

29 Modelo Poisson-Gama Semi-Paramétrico 28 chamado concurvidade 2. Seus efeitos na interpretação das curvas individuais nos modelos aditivos ainda não são bem conhecidos [22]. 2 do termo em inglês concurvity.

30 3 Modelo Poisson-gama semi-paramétrico 3.1 Especificação teórica Considere-se estender o modelo Poisson-gama descrito no capítulo anterior para uma especificação semi-paramétrica. Nesta especificação, o preditor linear em 2-12 é substituído por preditor híbrido paramétrico e suavizado que é combinado de forma multiplicativa com o nível do modelo sem variável explicativa. Seja o vetor X t particionado da forma X = (X p t, Xt s ), tal que X p sejam as covariáveis que compõem a partição paramétrica do preditor e X s são as covariáveis que compõem a partição não-paramétrica do preditor do modelo. Sem perda de generalidade, de forma equivalente a equação 2-11, a distribuição de y t condicional em µ t é Poisson com média dada por µ t = µ t exp ( η t + + ηt + offset) (3-1) p η t + = β j X p j (3-2) η t = j=1 s g k (Xk s ) (3-3) k=1 em que µ t é o nível da série temporal y, η t + é a partição paramétrica do preditor e ηt é a partição não-paramétrica do preditor do modelo. Por simplificação da notação, as partições paramétrica e não-paramétrica do preditor serão referidas como preditor paramétrico e preditor não-paramétrico, respectivamente. É importante notar que η+ t é uma particularização de ηt na qual as funções g ( ) são lineares. O modelo 3-1 tem p + s variáveis explicativas. O termo offset tem a mesma função que o offset dos modelos lineares generalizados, isto é, representa uma covariável ou uma função de covariáveis com coeficiente linear igual a 1. Hastie e Tibshirani (1986 e 1990) [22, 23] discutem detalhadamente

31 Modelo Poisson-Gama Semi-Paramétrico 30 um número de opções para as funções suavizadoras g ( ). Entretanto, devido às boas propriedades matemáticas abordadas no capítulo anterior, apenas as splines cúbicas naturais são utilizadas na classe de modelos Poisson-gama semi-paramétricos considerada aqui. Porém, é facultativa a implementação de outros suavizadores nesta especificação de modelo semi-paramétrico. Tal como no modelo Poisson-gama paramétrico, a distribuição de µ t 1 condicionada em Y t 1 é gama. A distribuição de µ t condicionada em Y t 1 também é gama, com parâmetros a t t 1 e b t t 1. Então, as equações 2-13 e 2-14 de previsão do filtro Poisson-gama para o modelo com variáveis explicativas podem ser reescritas para o modelo semi-paramétrico como a t t 1 = ωa t 1 (3-4) b t t 1 = ωb t 1 exp ( ) η t + ηt (3-5) e as equações 2-15 e 2-16 de atualização do filtro para o modelo com variáveis explicativas com ajuste semi-paramétrico são a t = ωa t 1 + y t (3-6) b t = ωb t 1 + exp ( ) η t + + ηt (3-7) com t = τ + 1,..., n, em que τ é o índice da primeira observação não nula de y. A média e variância da distribuição preditiva do modelo com preditor híbrido permanecem as mesmas que em 2-9 e 2-10 respectivamente. Os parâmetros da distribuição do nível do modelo semi-paramétrico condicionada em Y t 1 agora são calculadas de acordo com 3-4 e 3-5. Os hiperparâmetros ω e β j são estimados por máxima verossimilhança, tal como na especificação paramétrica do modelo Poisson-gama, dada pela equação 2-8. As funções suaves g k (Xk s ) são estimadas pelo algoritmo backfitting abordado no capítulo anterior. A idéia básica da estimação do Poisson-gama semi-paramétrico consiste em estimar a parte paramétrica do modelo, que depende apenas de X p, por máxima verossimilhança. Dado o preditor linear, calcula-se um resíduo parcial devido ao ajuste paramétrico. Então, este resíduo parcial é usado como variável resposta para o ajuste não-paramétrico pelo algoritmo backfitting. O preditor não-paramétrico calculado pelo backfitting é agora introduzido na estimação paramétrica como um termo constante, parte do offset. Este processo é iterado até que a seqüência de valores da verossimilhança, L (ω, β j ) i, convirja para algum critério de parada do algoritmo.

32 Modelo Poisson-Gama Semi-Paramétrico 31 Inicialmente, é necessário definir uma forma de resíduo parcial devido ao ajuste da partição paramétrica do modelo. A dificuldade reside no fato de o preditor linear e o preditor não paramétrico não se combinarem diretamente com a equação de previsão do modelo, e sim por meio de um filtro iterativo. Ainda, devido a função de ligação exponencial, o nível da série e os preditores do modelo se relacionam em escalas diferentes. A fim de construir uma proposta de resíduo parcial na mesma escala do preditor não-paramétrico, considere-se que a equação 3-1 pode ser reescrita como µ t = µ t exp ( η t + + offset ) exp (ηt ). (3-8) Usando 2-11 e incluindo, sem prejuízo, o termo de offset na partição paramétrica do modelo, a seguinte forma também é equivalente µ t = µ + t exp (η t ) (3-9) em que µ + t é o nível do modelo Poisson-gama paramétrico. Considere-se o logaritmo da equação 3-9. O preditor não-paramétrico η t se combina de forma aditiva com o logaritmo do nível devido a partição paramétrica para formar o logaritmo do nível do modelo semi-paramétrico. Assim, pode ser escrita a seguinte expressão log µ t log µ + t = η t. (3-10) Então, é razoável definir o resíduo parcial devido ao ajuste paramétrico da forma rp t = log y t log ŷ + t t 1 (3-11) em que ŷ + t t 1 é o valor previsto pelo modelo considerando apenas a partição paramétrica do preditor, estimado de acordo com a equação 2-9. O processo de estimação do Poisson-gama semi-paramétrico pode ser sistematizado no algoritmo 3.1. Uma dificuldade dos modelos Poisson-gama semi-paramétricos é a falta de uma forma explícita para a associação das variáveis explicativas X s, no preditor não-paramétrico ηt, com a variável resposta Y. Tal limitação é inerente aos modelos Poisson-gama.

33 Modelo Poisson-Gama Semi-Paramétrico 32 Algoritmo 3.1 Estimação do Poisson-gama semi-paramétrico com backfitting 1. Ajusta-se um modelo Poisson-gama à partição paramétrica das covariáveis X p, obtendo-se as estimativas de máxima verossimilhança iniciais dos hiperparâmetros ω e β j. 2. Dado o preditor linear η + t + offset, calcula-se a previsão ŷ t t 1 devida à partição paramétrica do modelo. 3. Calcula-se o resíduo do ajuste paramétrico definido em 3-11, rp t = log y t log ŷ + t t 1 4. Estima-se a superfície de regressão não-paramétrica das covariáveis X s sobre o resíduo parcial rp via o algoritmo backfitting. Obtendo-se as funções g k (X s k ). 5. Dado o preditor não-paramétrico η t, faz-se offset = offset + η t 6. Reestima-se o modelo paramétrico usando os hiperparâmetros estimados ω e β j como valores iniciais e o novo offset. 7. Repete-se o processo a partir do item 2 até a convergência da seqüência L (ω, β j ) i. 3.2 Inferência no modelo semi-paramétrico Na maioria das aplicações, deseja-se avaliar a qualidade estatística do modelo estimado. Entretanto, não está completamente desenvolvida uma teoria distribucional exata dos estimadores para os modelos semiparamétricos. Alguma teoria assintótica está restrita à partição paramétrica do modelo. Assim, os procedimentos heurísticos propostos para inferência sobre σ 2 e para os efeitos dos preditores são derivados da regressão linear. É importante notar que na falta de uma teoria distribucional apropriada, estes procedimentos devem ser usados com cautela em testes de significância formais. Entretanto, oferecem uma orientação adequada para a seleção de modelos. Considere-se que a soma de funções das covariáveis no preditor nãoparamétrico incorporam uma estrutura paramétrica do modelo Poissongama usual, o offset. Então, as técnicas de diagnósticos dos modelos lineares generalizados podem ser utilizadas no Poisson-gama não-paramétrico tal

Exibir mais