Washington Leite Junger. Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade DISSERTAÇÃO DE MESTRADO. Engenharia Elétrica

Tamanho: px
Começar a partir da página:

Download "Washington Leite Junger. Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade DISSERTAÇÃO DE MESTRADO. Engenharia Elétrica"

Transcrição

1 Washington Leite Junger Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade DISSERTAÇÃO DE MESTRADO DEPARTAMENTO DE ENGENHARIA ELÉTRICA Programa de Pós graduação em Engenharia Elétrica Rio de Janeiro janeiro de 2004

2 Washington Leite Junger Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica da PUC-Rio Orientador: Prof. Cristiano Augusto Fernandes Co Orientador: Prof. Antonio Ponce de Leon Rio de Janeiro janeiro de 2004

3 Washington Leite Junger Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica do Centro Técnico Científico da PUC- Rio.Aprovada pela Comissão Examinadora abaixo assinada. Prof. Cristiano Augusto Fernandes Orientador Departamento de Engenharia Elétrica PUC-Rio Prof. Eduardo Lima Campos Escola Nacional de Ciências Estatísticas IBGE Prof. Antonieta D Alcântara de Queiroz Peres Departamento de Matemática e Estatística Uni-Rio Prof. José Eugenio Leal Coordenador Setorial do Centro Técnico Científico PUC-Rio Rio de Janeiro, 30 de janeiro de 2004

4 Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador. Washington Leite Junger Graduado em Estatística pelo Instituto de Matemática e Estatística da Universidade do Estado do Rio de Janeiro IME/UERJ. Nos últimos anos, tem atuado como pesquisador do Projeto ARES-Rio no Instituto de Medicina Social IMS/UERJ, em estudos epidemiológicos de associação entre poluição do ar e potenciais efeitos nocivos à saúde. Contexto em que o presente trabalho foi desenvolvido. Junger, Washington Leite Ficha Catalográfica Modelo Poisson-Gama Semi-Paramétrico/ Washington Leite Junger; orientador: Cristiano Augusto Fernandes; co orientador: Antonio Ponce de Leon. Rio de Janeiro : PUC-Rio, Departamento de Engenharia Elétrica, v., 82 f: il. ; 29,7 cm 1. Dissertação (mestrado) - Pontifícia Universidade Católica do Rio de Janeiro, Departamento de Engenharia Elétrica. Inclui referências bibliográficas. 1. Estatística. 2. Séries Temporais. 3. Regressão Não-paramétrica. 4. Epidemiologia. 5. Poluição do Ar. 6. Saúde. I. Fernandes, Cristiano Augusto. II. De Leon, Antonio Ponce. III. Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Engenharia Elétrica. IV. Título. CDD: 621.3

5 Agradecimentos Meus orientadores Cristiano e Ponce pela produtiva parceria. Toda a família por lidar com a minha ausência. Cristina pelo apoio pleno e incondicional. Andréia pela leitura e torcida. CAPES pelo suporte financeiro.

6 Resumo Junger, Washington Leite; Fernandes, Cristiano Augusto; De Leon, Antonio Ponce. Modelo Poisson-Gama Semi-Paramétrico. Rio de Janeiro, p. Dissertação de Mestrado Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro. Neste trabalho, os modelos Poisson-gama são estendidos para uma formulação mais geral onde o preditor linear das covariáveis é substituído por um preditor aditivo de funções genéricas destas covariáveis. Como nos modelos aditivos generalizados (MAG), as funções lineares das covariáveis constituem um caso particular de modelo aditivo e as funções suavizadores utilizadas são as splines cúbicas naturais. A formulação semi-paramétrica permite ampliar o campo de aplicação desta classe de modelos. Os modelos semi-paramétricos são estimados por um processo iterativo combinando maximização da verossimilhança e algoritmo backfitting. Todos os algoritmos de estimação e diagnósticos estão implementados nas linguagens de programação R e C. Palavras chave Modelos em espaço de estados, séries temporais, regressão nãoparamétrica, splines, epidemiologia, fatores de confusão, poluição do ar.

7 Abstract Junger, Washington Leite; Fernandes, Cristiano Augusto; De Leon, Antonio Ponce. Semiparametric Poisson-Gamma models : a roughness penalty approach. Rio de Janeiro, p. MSc. Dissertation Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro. This work is aimed at extending the Poisson-Gamma models towards a more general specification, where the linear predictor of covariates is replaced by an additive predictor of generic functions of these covariates. Just like the generalized additive models (GAM), the linear functions of covariates are a particular case of additive models and the natural cubic splines are used as smoothing functions. The semiparametric specification allows to enlarge the possibilities of application of these models. The semiparametric models are fitted by an iterative process that combines maximization of likelihood and backfitting algorithm. All the routines for model fitting and diagnostics are implemented in R and C programming languages. Keywords State space models, time series, nonparametric regression, splines, epidemiology, confounding factors, air pollution.

8 Sumário 1 Introdução 9 2 Revisão teórico-metodológica Modelos Poisson-gama Regressão não-paramétrica 15 3 Modelo Poisson-gama semi-paramétrico Especificação teórica Inferência no modelo semi-paramétrico Aspectos computacionais 35 4 Aplicação e comparação de modelos Aplicação em Epidemiologia Ambiental Comparação com outra classe de modelos 44 5 Conclusão 52 Referências Bibliográficas 54 A Código fonte em R 59 B CD-ROM com a Biblioteca pgam para R 82

9 Todas as religiões, artes e ciências são ramos da mesma árvore. Todas elas aspiram a enobrecer a vida do homem, elevando-a acima da esfera da mera existência física e conduzindo o indivíduo rumo à liberdade. Não foi por mero acaso que nossas mais antigas universidades se desenvolveram a partir de escolas eclesiásticas. Tanto as igrejas como as universidades na medida em que cumpram sua verdadeira função servem ao enobrecimento do indivíduo. Buscam cumprir essa elevada tarefa pela difusão do entendimento moral e cultural, renunciando ao uso da força bruta. Albert Einstein, Escritos da Maturidade.

10 1 Introdução Na análise de dados de séries temporais se assume, freqüentemente, que a forma funcional da associação das covariáveis com a variável resposta é linear. Contudo, se esta relação exibe um padrão complexo, esta abordagem torna a modelagem inadequada. Em algumas aplicações, como a análise de séries temporais epidemiológicas, o que se pretende usualmente é estimar o efeito de uma ou mais covariáveis que representam uma exposição sobre a variável resposta que corresponde a um desfecho de saúde. Entretanto, é necessário remover o efeito de covariáveis que constituem fatores de confusão. As formas paramétricas podem não ser suficientemente flexíveis para proporcionar o ajuste necessário para corrigir este efeito. Atualmente, os modelos aditivos generalizados (MAG) constituem a metodologia padrão para a análise de séries temporais epidemiológicas em estudos que investigam a associação de poluição do ar com eventos de saúde, como morbidade e mortalidade, devidos a doenças respiratórias e cardiovasculares. Os modelos aditivos generalizados permitem que funções genéricas das covariáveis sejam introduzidas no preditor aditivo. No caso trivial, estas funções são lineares. A associação de cada covariável com a variável resposta pode ser definida por uma função suave determinada pelos próprios dados. Estas funções são denominadas suavizadores. Na literatura referente à regressão não-paramétrica, há um grande número de funções suavizadoras. Entretanto, a família de funções mais utilizada é a spline. A spline cúbica natural é o suavizador mais frequentemente utilizado devido a características matemáticas que são atrativas para a análise estatística de dados e para diagnósticos de adequação do modelo. Não obstante constituir a metodologia padrão dos estudos de séries temporais em epidemiologia ambiental, os modelos aditivos generalizados não são capazes de ajustar adequadamente estruturas intrínsecas das séries temporais. Por exemplo, a autocorrelação precisa ser ajustada através de métodos ad hoc. A solução natural para o problema é a formulação de

11 Modelo Poisson-Gama Semi-Paramétrico 10 uma classe de modelos capazes de lidar com os componentes das séries temporais e que permitam associações não-lineares das covariáveis com a variável resposta. A classe de modelos Poisson-gama para séries temporais proposta por Harvey e Fernandes [20] constitui uma abordagem para a análise de dados de contagem, na qual as estruturas instrínsecas das séries temporais são devidamente ajustadas. Entretanto, estes modelos não permitem que associações mais complexas das covariáveis com a variável resposta sejam modeladas de forma não-paramétrica. Considere-se, então, uma classe de modelos capazes de incorporar no seu preditor formas não-paramétricas das covariáveis e que, ainda, sejam capazes de ajustar devidamente estruturas inerentes à dinâmica das séries temporais. Estes modelos possuiriam a adequação de um modelo próprio para séries temporais e a flexibilidade de um modelo aditivo generalizado. Neste trabalho é proposta a extensão dos modelos Poisson-gama para uma formulação mais geral na qual o preditor linear das covariáveis é substituído por um preditor aditivo de funções genéricas destas covariáveis. Como nos modelos aditivos generalizados, as funções lineares das covariáveis constituem um caso particular. As funções suavizadoras utilizadas neste trabalho são as splines cúbicas naturais, embora outros suavizadores possam ser facilmente incorporados ao modelo. O processo de estimação da partição paramétrica do modelo híbrido ou semi-paramétrico, como será referido a partir de agora, é obtida pelo método de maximização numérica da verossimilhança. A partição não-paramétrica é estimada pelo algoritmo backfitting. Os dois algoritmos de estimação combinados são iterados até que o valor da verossimilhança atinja um critério de convergência. Alguns procedimentos inferenciais são adaptados dos modelos lineares generalizados na falta de uma teoria distribucional adequada aos modelos semi-paramétricos. Os algoritmos de estimação dos modelos Poisson-gama semiparamétricos bem como ferramentas para diagnósticos da adequação do ajuste de modelos, foram implementados na forma de uma biblioteca nas linguagens R e C. Apesar de poderem ser executados em outros sistemas operacionais suportados pelo R, os códigos foram otimizados para execução sobre o sistema operacional Linux. A escolha da linguagem de programação e do sistema operacional concorda com a filosofia de software livre e código aberto. A extensão do modelo Poisson-gama para uma forma mais geral na qual seja possível introduzir funções não-paramétricas, sobretudo funções

12 Modelo Poisson-Gama Semi-Paramétrico 11 suaves dos dados como as splines cúbicas naturais, de forma aditiva no preditor linear permite ampliar o campo de aplicação desta classe de modelos. O trabalho está organizado da seguinte forma: No capítulo 2 é realizada uma revisão detalhada de teorias e métodos dos modelos Poisson-gama paramétricos e de regressão não-paramétrica com ênfase em splines cúbicas naturais e no algoritmo backfitting. No capítulo 3, os modelos Poisson-gama semi-paramétricos são especificados teoricamente, são apresentados alguns procedimentos de inferência estatística e detalhados os aspectos computacionais e algoritmo de estimação. O capítulo 4 consiste da aplicação do modelo semi-paramétrico a um problema de epidemiologia ambiental e comparação do modelo Poisson-gama semi-paramétrico com um modelo Poisson-gama paramétrico e um modelo aditivo generalizado na análise do mesmo problema de associação de poluição do ar com o número diário de internações de crianças por doenças respiratórias. O capítulo 5 conclui o trabalho apontando resultados e dificuldades. O código fonte dos programas encontra-se no anexo A. O anexo B, é um CD-ROM contendo o código fonte da bilioteca pgam e também sua versão compilada para o sistema operacional Windows, bem como as versões atuais do sistema R.

13 2 Revisão teórico-metodológica 2.1 Modelos Poisson-gama Os modelos Poisson-gama foram introduzidos como uma proposta de modelos para lidar com observações de séries temporais de processos de contagem. O problema consiste essencialmente em formular um modelo que forneça a distribuição de y t dado o passado da série, ou seja, a seqüência y 1,..., y t 1 denotada por Y t 1. A solução do problema reside no uso das distribuições conjugadas como as usadas no contexto bayesiano, contudo, a abordagem utilizada é a clássica [13]. Embora o artigo original [20] compreenda um maior número de distribuições não-gaussianas, neste trabalho, apenas a distribuição de Poisson é abordada. Considere-se a seqüência y 1,..., y n como n realizações de um processo estocástico de Poisson [29]. Para cada instante t a distribuição de y t condicionada no nível µ t é dada por p (y t µ t ) = µy t t e µ t y t!. (2-1) Suponha-se que a distribuição de µ t 1 condicionada em todas as observações da série até o instante t 1 seja gama com parâmetros a t 1 e b t 1 estimados a partir da seqüência Y t 1. Sob normalidade dos erros nas equações de um modelo de nível local gaussiano [21, 9], a média de µ t Y t 1 é igual a de µ t 1 Y t 1 e a variância é maior. Este mesmo comportamento pode ser replicado na distribuição gama aplicando aos parâmetros um fator menor que 1, denotado por ω e denominado fator de desconto. Ou seja, assume-se que a distribuição a priori p (µ t Y t 1 ) é uma gama com parâmetros a t t 1 e b t t 1 da forma a t t 1 = ωa t 1 (2-2) b t t 1 = ωb t 1 (2-3)

14 Modelo Poisson-Gama Semi-Paramétrico 13 com 0 < ω 1. As equações 2-2 e 2-3 são as equações de previsão do filtro Poisson-gama. Com a observação y t disponível, devido à conjugação das distribuições de probabilidades, a distribuição a posteriori p (µ t Y t ) também é gama com parâmetros dados por a t = ωa t 1 + y t (2-4) b t = ωb t (2-5) As equações 2-4 e 2-5 são as equações de atualização do filtro Poisson-gama. As equações de previsão e de atualização deste filtro podem, na prática, ser combinadas. Neste caso, apenas a t t 1 e b t t 1 são estimados [4]. A distribuição de µ t é difusa se a = 0 e b = 0. Entretanto, a iniciação das recursões do filtro no instante t = 0 com a 0 = 0 e b 0 = 0 permite a obtenção de uma distribuição própria para µ t no instante t = τ, em que τ é o índice da primeira observação com valor diferente de zero [20]. Condicionada em Y τ, a distribuição conjunta de y τ+1,..., y n é n p (y τ+1,..., y n ; ω) = p (y t Y t 1 ) (2-6) t=τ+1 e a função de densidade de probabilidade preditiva é dada por p (y t Y t 1 ) = 0 p (y t µ t ) p (µ t Y t 1 ) dµ t. (2-7) Para observações de um processo de Poisson e uma priori gama, a equação 2-7 leva a distribuição binomial negativa com parâmetros a t t 1 e b t t 1. A função de log-verossimilhança do hiperparâmetro ω a ser estimado é dada por log L (ω) = n log Γ ( ) a t t 1 + y t log yt! log Γ ( ) a t t 1 + t=τ+1 a t t 1 log b t t 1 ( a t t 1 + y t ) log ( 1 + bt t 1 ). (2-8) Das propriedades da binomial negativa se obtêm a média e a variância da distribuição preditiva dadas por E (y t Y t 1 ) = a t t 1 (2-9) b t t 1 V ar (y t Y t 1 ) = a ( ) t t bt t 1 (2-10) b 2 t t 1

15 Modelo Poisson-Gama Semi-Paramétrico 14 Usando substituições sucessivas, verifica-se que a função de previsão L passos à frente do modelo Poisson-gama sem variáveis explicativas equivale a um amortecimento exponencial ponderado (EWMA) das observações passadas com constante de suavização igual a 1 ω. Nos modelos com variáveis explicativas estas formas não são equivalentes [20]. Para introduzir variáveis explicativas no modelo Poisson-gama, considere-se que o efeito do nível do componente estrutural µ t da série temporal é separado do efeito das covariáveis no vetor x t. Este nível pode ser combinado de forma multiplicativa com uma função de ligação exponencial das covariáveis, denotada por exp ( ) η t +. Logo, a distribuição de yt condicionada em µ t é Poisson com média µ + t = µ t exp ( ) η t + (2-11) p η t + = β j x jt (2-12) j=1 em que η t + é o preditor linear. Seja gama a distribuição de µ t 1 condicionada em Y t 1. A distribuição de µ t condicionada em Y t 1 também é gama, com parâmetros a t t 1 e b t t 1. As médias de µ t 1 Y t 1 e µ t Y t 1 são iguais, porém a variância de µ t Y t 1 é maior que a de µ t 1 Y t 1 [20]. Então, as equações 2-2 e 2-3 de previsão do filtro Poisson-gama para o modelo com variáveis explicativas são dadas por a t t 1 = ωa t 1 (2-13) b t t 1 = ωb t 1 exp ( ) η t + (2-14) e as equações 2-4 e 2-5 de atualização do filtro para o modelo com variáveis explicativas são a t = ωa t 1 + y t (2-15) b t = ωb t 1 + exp ( ) η t + (2-16) com t = τ + 1,..., n. Os hiperparâmetros ω e β j são estimados pelo método da máxima verossimilhança cuja função é dada pela equação 2-8. A média e variância da distribuição preditiva do modelo com variáveis explicativas permanecem as mesmas que nas equações 2-9 e 2-10, exceto pelos parâmetros que agora são calculados como nas equações 2-13 e Muitas das técnicas de diagnóstico usualmente empregadas em mo-

16 Modelo Poisson-Gama Semi-Paramétrico 15 delos lineares generalizados (MLG) [28, 12] são válidos para os modelos Poisson-gama. Contudo, observa-se que para o diagnóstico que depende da distribuição deve tomar por referência a distribuição preditiva que é binomial negativa. Como exemplo, pode-se definir a função desvio para os modelos Poisson-gama da seguinte forma D (y; ˆµ) = 2 n t=τ+1 a t t 1 log ( at t 1 y t b t t 1 ) ( a t t 1 + y t ) log ( yt + a t t 1 ) ( 1 + bt t 1 ) yt. (2-17) O número de graus de liberdades do modelo ajustado é dado por n p τ [20]. Fazendo uso da equação 2-17, pode ser definido, por exemplo, o resíduo de desvio dado por r dt = sign(y t µ t ) d t em que d t é o valor da parcela da função desvio referente ao instante t [28]. Os resíduos de desvio são considerados superiores e mais apropriados para diagnóstico e validação de modelos que usam a abordagem dos modelos lineares generalizados que os resíduos de Pearson [30]. Outra possibilidade é o resíduo de desvio padronizado definido por r dpt = r dt / 1 h tt, em que r dt é o resíduo de desvio e a quantidade h tt é a contribuição da t-ésima observação para o valor previsto, ou seja, é o t-ésimo elemento da diagonal da matriz chapéu estimada. A matriz chapéu é equivalente à matriz de projeção dos modelos de regressão linear e não é definida explicitamente nos modelos Poisson-gama. Campos e colaboradores (2003) [4] propõem uma quantidade equivalente para h tt e conduzem um estudo de simulação para investigar a eficácia da padronização dos resíduos usando esta quantidade. 2.2 Regressão não-paramétrica Splines cúbicas Nos modelos lineares generalizados [28], a média de uma variável resposta Y é modelada como uma função linear p j=1 β jx j de um conjunto de covariáveis X 1,..., X p. Estes modelos assumem uma forma linear ou paramétrica para o efeito das covariáveis. Os MLG podem ser estendidos, substituindo o preditor linear η = p j=1 β jx j por um preditor aditivo η = p j=1 g j (X j ), em que g j (X j ), com j = 1,..., p, são funções quaisquer das covariáveis X 1,..., X p. Por não possuir restrição na forma

17 Modelo Poisson-Gama Semi-Paramétrico 16 funcional de nenhuma das covariáveis este modelo é dito não paramétrico. Na notação do preditor de ambos os modelos, o intercepto foi omitido por simplificação. Os modelos semi-paramétricos são aqueles nos quais uma ou mais funções g j (X j ) do preditor aditivo são lineares, ou seja, são da forma β j X j [22, 23, 3, 16]. Os pressupostos tradicionais dos modelos de regressão são relaxados e o problema agora passa a ser escolher as funções g j (X j ) de tal forma que alguma norma seja minimizada. A norma comumente utilizada na análise de regressão é a L 2. Então, é necessário escolher g tal que a soma dos quadrados dos resíduos seja mínima. Apesar de as funções trigonométricas e as funções polinomiais serem mais flexíveis que uma reta, essas ainda definem uma estrutura rígida para a associação entre as covariáveis e a variável resposta. Além disto, uma observação individual pode exercer efeitos imprevisíveis em outras regiões da curva. A escolha natural para funções g são funções suaves estimadas a partir dos próprios dados, tal que a soma de quadrados penalizada seja minimizada [18, 12]. Para estimar g considere-se minimizar o funcional S (g) = n Y i g (k i ) 2 + λ b i=1 a g 2 dx (2-18) em que k i, com i = 1,..., n, são pontos ordenados num intervalo [a, b] qualquer, g tem primeira e segunda derivadas contínuas g e g, o quadrado de g é uma função integrável e 0 < λ < é o parâmetro de suavização da curva g. A solução ĝ λ do problema de otimização acima é uma spline cúbica natural [11]. Suponha-se que a seqüência de pontos k 1,..., k n pertença ao intervalo [a, b] tal que a < k 1 < k 2 < < k n < b. Uma função g definida sobre o intervalo [a, b] é uma spline cúbica se satisfaz as seguintes condições: (1) sobre cada intervalo (a, k 1 ), (k 1, k 2 ), (k 2, k 3 ),..., (k n, b), g é uma função polinomial cúbica e (2) cada dois polinômios em partes vizinhos se conectam no ponto k i de tal modo que a própria g e sua primeira e segunda derivadas sejam contínuas em todos os pontos k i e, portanto, sobre todo o intervalo [a, b]. Pode ser definido então o espaço S [a, b] de todas as funções suaves g em [a, b]. Os pontos k i são chamados nós 1. A fim de simplificar a notação, defina-se k 0 = a e k n+1 = b os limites do intervalo sobre o qual a função g é definida. Uma representação natural de um polinômio em partes é da forma de 1 do termo em inglês knots.

18 Modelo Poisson-Gama Semi-Paramétrico 17 quatro coeficientes polinomiais g (x) = d i (x k i ) 3 + c i (x k i ) 2 + b i (x k i ) + a i (2-19) para k i x k i+1 e constantes a i, b i, c i, d i com i = 0,..., n. Uma spline cúbica no intervalo [k 0, k n+1 ] é dita spline cúbica natural se as segunda e terceira derivadas nos pontos k 0 e k n+1 são iguais a zero. A implicação destas condições é que d 0 = 0, c 0 = 0, d n = 0 e c n = 0, logo g é linear nos intervalos [k 0, k 1 ] e [k n, k n+1 ] [18]. Uma representação mais eficiente do ponto de vista computacional e matemático que aquela na equação 2-19 é a representação do valor da segunda derivada. Nesta representação, uma spline cúbica natural g é completamente especificada pelo seu valor e o valor da segunda derivada em cada nó k i. Supondo que g é uma spline cúbica natural com nós k 1,..., k n, defina-se g i = g (k i ) e γ i = g (k i ) para i = 1,..., n. Uma spline cúbica natural g tem segunda derivada nos pontos k 1 e k n igual a zero, logo γ 1 = 0 e γ n = 0. Considere-se os vetores g = (g 1,..., g n ) e γ = (γ 2,..., γ n 1 ). Os valores de g e de suas derivadas em qualquer ponto x podem ser calculados explicitamente em termos dos vetores g e γ. Deste modo g pode ser descrita em um gráfico com qualquer grau de precisão. A condição necessária e suficiente para que os vetores g e γ representem uma autêntica spline cúbica natural para uma dada seqüência de nós depende de duas matrizes R e Q. A matriz Q tem dimensão n (n 2) com elementos q ij, com i = 1,..., n e j = 2,..., n 1. Os elementos de Q têm a seguinte forma q j 1,j = h 1 j 1 q jj = h 1 j 1 h 1 j q j+1,j = h 1 j q ij = 0 se i j 2 (2-20) com h i = k i+1 k i. A matriz R é simétrica e tem dimensão (n 2) (n 2) com seus elementos dados por r ii = (1/3) (h i 1 + h i ) r i,i+1 = (1/6) h i r i+1,i = (1/6) h i r ij = 0 se i j 2 (2-21)

19 Modelo Poisson-Gama Semi-Paramétrico 18 com i = 2,..., n 1 e j = 2,..., n 1. A matriz R é estritamente positiva definida. Com as matrizes R e Q definidas, pode-se enunciar um dos teoremas que formam a base da interpolação e da suavização por splines. As provas desses teoremas podem ser consultadas em Green e Silverman (1985) [18]. Teorema 2.1 Os vetores g e γ especificam uma spline cúbica natural se e somente se Q g = Rγ (2-22) Se a condição acima é satisfeita, então o termo de penalização em 2-18 satisfaz b a g (x) 2 dx = γ Rγ = g QR 1 Q g. (2-23) A spline de interpolação tem como motivação mecânica um antigo dispositivo usado para desenhar cascos de navios e trilhos de linhas férreas. Considere-se que para cada nó k i existe um ponto (k i, z i ). Considere-se também uma peça de madeira ou metal flexível forçada a passar pelos pivôs fixos nos pontos dados (k i, z i ) nos nós k i e livre para tomar qualquer forma nos outros pontos. Com os pivôs presos nos nós, a lâmina toma a forma de mínima energia sujeita às restrições nos nós [18]. A fim de simplificar o entendimento da suavização por spline, considere-se a interpolação por spline. Seja S [a, b] o espaço de todas as funções g suaves no sentido de que possuem primeira e segunda derivadas contínuas. A curva mais suave em S [a, b] para interpolar os pontos dados é a que tem menor termo de penalização g 2 entre todas as curvas que interpolam os dados. Entre todas as curvas g em S [a, b] que interpolam os pontos (k i, z i ), aquela que minimiza g 2 é uma spline cúbica natural com nós em k i. Se n 2, então existe uma única spline cúbica natural que interpola os dados. Assim, o problema de minimizar o termo de penalização g 2 é equivalente a encontrar uma única spline cúbica natural com nós k i e valores g (k i ) = z i para todo i. Logo, uma spline cúbica natural é a solução de um sistema de equações lineares. O segundo teorema trata da unicidade da spline cúbica natural de interpolação. Teorema 2.2 Suponha-se n 2 e k 1 < < k n. Dados os valores z 1,..., z n, existe uma e apenas uma spline cúbica natural g com nós nos pontos k i que satisfaz para i = 1,..., n. g (k i ) = z i (2-24)

20 Modelo Poisson-Gama Semi-Paramétrico 19 A spline cúbica natural de interpolação é ótima em uma classe ainda maior de funções suaves. Seja S 2 [a, b] o espaço das funções contínuas e com primeira derivada contínua g sobre o intervalo [a, b]. Isto implica a existência de uma função g integrável tal que x a g (k) dk = g (x) g (a) para todo x [a, b]. Este resultado é garantido pelo terceiro teorema. Teorema 2.3 Suponha-se n 2 e que g é uma spline cúbica natural de interpolação com valores z 1,..., z n nos pontos k 1,..., k n satisfazendo a < k 1 < < k n < b. Seja g uma função em S 2 [a, b] tal que g (k i ) = z i para i = 1,..., n. Então g 2 = g 2. A igualdade só é satisfeita se g e g são idênticas. Nas aplicações estatísticas, o que se deseja é estimar uma curva cujos valores observados são realizações de uma variável aleatória, ou seja, sujeitos a erros aleatórios. Neste caso, o objetivo é obter uma curva g que suaviza os dados observados. Tal como no problema de interpolação, considere-se k 1,..., k n pontos pertencentes ao intervalo [a, b] tal que a < k 1 < < k n < b. Sejam y 1,..., y n observações de uma variável aleatória. A fim de garantir as condições do teorema 2.1, considere-se n 3 [18]. Dada uma função g em S 2 [a, b], seja S (g) a soma de quadrados penalizada como definida na equação A curva ĝ estimada será aquela que minimiza S (g) entre todas as funções do espaço S 2 [a, b]. Aplicando as propriedades das splines de interpolação, pode ser mostrado que a curva estimada ĝ é uma spline cúbica natural com nós nos pontos k i. Reescrevendo S (g) em função dos vetores g e γ e das matrizes R e Q é possível concluir que a função ótima ĝ existe e é única. Seja Y = (Y 1,..., Y n ). A soma de quadrados penalizada S (g) pode ser reescrita na forma matricial S (g) = (Y g) (Y g) + λg QR 1 Q g = g ( I + λqr 1 Q ) g 2Y g + Y. (2-25) Fazendo K = QR 1 Q, λk é não-negativa definida e portanto, (I + λk) é estritamente positiva definida. Logo, a função na equação 2-25 tem um único mínimo obtido pela expressão g = (I + λk) 1 Y. (2-26) O teorema 2.2 garante que o vetor g define unicamente uma spline g. Então, S (g) tem um único mínimo dado pela equação 2-26 sobre o espaço de todas as splines cúbicas naturais com nós nos pontos k i.

21 Modelo Poisson-Gama Semi-Paramétrico 20 Teorema 2.4 Suponha-se n 3 e que k 1,..., k n sejam pontos tais que a < k 1 < < k n < b. Dados os pontos Y 1,..., Y n e o parâmetro de suavização λ estritamente positivo e seja ĝ a spline cúbica natural com nós em k 1,..., k n tal que g = (I + λk) 1 Y. Então, para qualquer g S 2 [a, b], S (ĝ) S (g). (2-27) A igualdade só é satisfeita se g e ĝ são idênticas. Alguns algoritmos para encontrar ĝ, estimativa da curva g, estão descritos em detalhes em Green e Silverman (1985) [18]. A partir da equação 2-26 e considerando a natureza quadrática da equação 2-18, pode ser mostrado que ĝ é linear nas observações [33, 18], no sentido que existe uma matriz H (λ), tal que ĝ = H (λ) y (2-28) e H (λ) = (I + λk) 1. (2-29) Considere-se na regressão linear uma matriz H tal que ŷ = Hy e H = X (X X) 1 X. A matriz de suavização H (λ) tem um papel equivalente à matriz chapéu H da regressão linear, pois mapeia os valores observados y i nos valores previstos ĝ (k i ). Entretanto, H (λ) não pode ser interpretada como uma matriz de projeção [10]. Por analogia, podem ser estentidas à matriz H (λ) as propriedades básicas da matriz chapéu da regressão linear. Denote-se H (λ) a matriz chapéu da spline de regressão e os elementos h ii (λ) da diagonal principal os valores de influência. Os elementos de H (λ) têm a mesma interpretação que aqueles de H na regressão linear [10]. A fim de derivar as propriedades básicas de H (λ), considere-se uma matriz T de dimensão n m com os elementos t ij iguais a t j i, respectivamente, com i = 1,..., n e j = 0,..., m 1 e defina-se H = T (T T ) 1 T. (2-30) A matriz H é conhecida como a matriz chapéu da regressão polinomial. O teorema a seguir mostra as propriedades da matriz de suavização.

22 Modelo Poisson-Gama Semi-Paramétrico 21 Teorema 2.5 A matriz H (λ) = h ij (λ) satisfaz as seguintes propriedades: 0 h ii (λ) 1 (2-31) 1 h ij (λ) 1 (2-32) para i j h ii (λ) = 1 se e somente se h ij (λ) = 0 para todo i j e n j=1 h ij (λ) = 1. Ela e fortemente correlacionada com H = h ij no sentido que h ii (λ) h ii como λ se h ii 1 Ainda, h ij (λ) h ij como λ e para λ suficientemente grande com h ij 0, tanto h ij (λ) quanto h ij têm o mesmo sinal. Se λ 0 e h ii 1, então h ii (λ) 1. A prova deste teorema pode ser obtida em Eubank (1984) [10]. Seja e = (I H) y o vetor de resíduos de um modelo na regressão linear usual. Ainda por analogia, pode ser definido um vetor e λ tal que e λ = (I H (λ)) y e V ar (e λ ) = σ 2 (I H (λ)). E, como resultado do teorema 2.5, os elementos da matriz H (λ) podem ser utilizados como ferramenta de diagnóstico tal como a matriz chapéu dos modelos de regressão linear [10, 1]. As splines cúbicas também podem ser ponderadas e, neste caso, é atribuído um peso w i para cada observação y i. Esta abordagem é especialmente importante quando alguns pontos do conjunto de dados tem grande influência sobre os valores previstos ĝ (k i ). Estimar a função g, agora, consiste em minimizar o funcional S W (g) = n w i Y i g (k i ) 2 + λ b i=1 a g 2 dx (2-33) em que w i com i = 1,..., n. Se n 3 e λ e os pesos w i são estritamente positivos, então a função na equação 2-33 tem um único mínimo dado por g = (W + λk) 1 W Y (2-34) em que W é uma matriz diagonal de dimensão n n cujos elementos são os pesos w i com i = 1,..., n [18].

23 Modelo Poisson-Gama Semi-Paramétrico 22 As splines cúbicas podem ser generalizadas para polinômios de ordens mais elevadas se introduzindo condições nas derivadas de ordens superiores. A idéia de suavização por splines pode ser estendida para problemas de dimensão superior [39]. Entre as opções de estimação podem ser consideradas, por exemplo, a redução da dimensionalidade usando funções aditivas ajustadas de forma iterativa [22, 23] ou thin plate splines, na qual toda a hiper-superfície é ajustada de uma só vez [38, 37, 36] Seleção do parâmetro de suavização O parâmetro de suavização é denotado por λ e controla a contribuição do termo g 2 para S (g). Um dos problemas na estimação de g reside na escolha do valor de λ com melhor relação viés variância. Existem duas abordagens filosóficas para a escolha do parâmetro de suavização. Em alguns contextos, o parâmetro λ pode ser selecionado de forma empírica e subjetiva. Em outros casos, o parâmetro de suavização pode ser selecionado por um método automático. Então, os próprios dados determinam o valor de λ. O valor selecionado de forma automática pode ser também usado como valor inicial para um ajuste fino manual do parâmetro de suavização. No processo de seleção do parâmetro de suavização, é necessário minimizar uma medida global de erro como, por exemplo, a média do erro quadrático médio. O método mais comum para a seleção automática do parâmetro de suavização é a validação cruzada. Este método é motivado em termos de erro de previsão. Supondo um erro com média zero, a curva g tem a propriedade de que, dada uma observação y k, g (y k ) é a melhor previsão de y k em termos de erro quadrático médio. Então, é razoável escolher o estimador ĝ (k) tal que este dê o menor valor de y k ĝ (y k ) 2 para uma nova observação y k no ponto k. Na prática, como não há novas observações disponíveis, a validação cruzada reproduz o efeito de uma nova observação y k removendo a observação y i referente ao ponto k i do conjunto de dados [18, 17, 23]. Seja y i a observação referente ao ponto k i. Considere-se que y i é uma nova observação omitindo-a do conjunto de dados utilizado para a estimação da curva g. Denote-se por ĝ ( i) (k; λ) a curva estimada usando o parâmetro de suavização λ e sem a observação y i. Então, ĝ ( i) (k; λ) é a curva que minimiza Y j g (k j ) 2 + λ j i b a g 2 dx. (2-35)

24 Modelo Poisson-Gama Semi-Paramétrico 23 O ajuste da curva estimada ĝ ( i) pode ser avaliado se verificando quão bem ĝ ( i) (k i ; λ) prevê y i. Seja y i ĝ ( i) (k i ; λ) o resíduo referente à observação y i prevista pela curva ĝ ( i) estimada com n 1 observações e com parâmetro de suavização λ, que será denotado por resíduo deletado. Uma medida de ajuste orientada a previsão é o erro preditivo quadrático médio dado por EP Q (λ) = 1 n n E yi ĝ (k i ; λ) 2 (2-36) i=1 em que y i é a nova observação referente ao ponto k i e ĝ é a curva estimada com n observações e parâmetro λ. A validação cruzada é uma estimativa do erro preditivo quadrado médio [23, 12]. Dado que a escolha de qual observação y i é retirada do ajuste de ĝ ( i), uma avaliação total da adequação do parâmetro de suavização λ pode ser obtida por meio da função escore da validação cruzada V C (λ) = 1 n n yi ĝ ( i) (k i ; λ) 2. (2-37) i=1 O objetivo da validação cruzada é encontrar o valor de λ que minimiza V C (λ). Não há garantias de que a função na equação 2-37 tenha um único mínimo. Uma busca numa grade de valores de λ pode ser o melhor método para a minimização [18]. Para calcular V C (λ) não é necessário resolver n problemas de suavização separados para achar n curvas ĝ ( i). Usando o fato de que a curva g depende linearmente dos dados y, como mostra a equação 2-28, pode ser desenvolvida uma forma computacionalmente econômica para calcular o escore V C (λ). Teorema 2.6 A função escore da validação cruzada satisfaz a seguinte equação V C (λ) = 1 n n i=1 2 yi ĝ (k i ) (2-38) 1 h ii (λ) em que ĝ é a spline calculada a partir de todo o conjunto de dados (k i, y i ), onde i = 1,..., n, com parâmetro de suavização λ. O teorema 2.6, cuja demostração pode ser consultada em Green e Silverman (1985) [18], mostra que uma vez conhecidos os elementos h ii (λ) da diagonal principal da matriz de suavização, o escore da validação cruzada pode ser calculado a partir dos resíduos em torno da spline estimada com todas as n observações. Usando uma abordagem semelhante àquela dos resíduos deletados no contexto de regressão linear [6], obtém-se o resíduo deletado

25 Modelo Poisson-Gama Semi-Paramétrico 24 y i ĝ ( i) (k i ) = y i ĝ (k i ) 1 h ii (λ). (2-39) Uma extensão da validação cruzada é validação cruzada generalizada [7, 36, 18, 22, 23]. A idéia básica da validação cruzada generalizada é substituir o fator 1 h ii (λ) na equação 2-39 por 1 (1/n) trh (λ). Por analogia a 2-38, a função escore da validação cruzada é então obtida da forma V CG (λ) = 1 n i=1 y i ĝ (k i ) 2 n 1 (1/n) trh (λ) 2 (2-40) em que ĝ é a spline calculada a partir de todo o conjunto de dados (k i, y i ), onde i = 1,..., n, com parâmetro de suavização λ. A função V CG (λ) deve ser minimizada sobre os valores de λ. A validação cruzada e a validação cruzada generalizada podem ser facilmente estendidas para seleção do parâmetro de suavização λ em splines cúbicas ponderadas [7, 36, 18] Graus de liberdade do suavizador A quantidade de suavização de um estimador pode ser expressa em termos do número de parâmetros estimados ou graus de liberdade do suavizador. Esta quantidade tem sua motivação na regressão clássica e é referida como graus de liberdade equivalentes. Suponha-se que a curva g esteja sendo estimada por uma regressão paramétrica. Assumindo que os parâmetros sejam identificáveis com base nas obsevações, a matriz H é uma projeção sobre um espaço de dimensão k. Então, o número de parâmetros ajustados é k, assim como o traço de H é igual a k. Logo, o número de graus de liberdade do modelo é igual ao traço de H. O número de graus de liberdade dos resíduos é n k que é dado por tr (I H) [18, 23, 3]. Por analogia, os graus de liberdade equivalentes dos resíduos na regressão por spline são definidos por GLER = tri H (λ) (2-41) em que H (λ) é a matriz de suavização associada com o parâmetro de suavização λ. Os números de graus de liberdade equivalentes dos resíduos variam de 0 quando λ = 0, a curva g interpola todos os pontos e a matriz H (λ) é a identidade, até n 2 quando λ = e a curva g é a reta de regressão linear. O número de graus de liberdade equivalentes está associado com a

26 Modelo Poisson-Gama Semi-Paramétrico 25 relação viés variância do estimador da curva g. Da definição de validação cruzada generalizada, esta pode ser escrita em função do número de graus de liberdade equivalentes dos resíduos da forma V CG (λ) = n em que SQR é a soma de quadrados dos resíduos. SQR (GLER) 2 (2-42) A definição de graus de liberdade equivalentes é discutida mais profundamente em Buja, Hastie e Tibshirani (1989) [3] e Hastie e Tibshirani (1990) [23] Algoritmo de estimação com múltiplas covariáveis Modelos nos quais se tenta estabelecer a dependência de uma variável resposta Y com apenas uma covariável X não caracterizam uma ferramenta apropriada para a análise estatística de problemas complexos. Por analogia aos modelos de regressão linear clássica, na regressão não-paramétrica um modelo no qual Y depende de uma função de apenas uma covariável X pode ser escrito da forma Y = g (X) + ε (2-43) em que ε é um vetor de erros independentemente distribuídos. A estimação do modelo 2-43 foi discutida ao longo desta seção. Entretanto, este modelo não tem muita utilidade na prática. Admita-se, agora, que X é um vetor aleatório de dimensão p da forma X = (X 1,..., X p ). Suponha-se um modelo no qual a dependência da variável Y é expressa como uma combinação de funções dos componentes do vetor X. Então, um modelo com múltiplas covariáveis pode ser formulado de acordo com a seguinte equação Y = g 1 (X 1 ) + + g p (X p ) + ε (2-44) onde g j, com j = 1,..., p, são curvas suaves das covariáveis X j, respectivamente, e ε é um vetor de erros independentemente distribuídos. Na notação dos modelos lineares generalizados [28, 12, 23], o modelo 2-44 pode ser reescrito da seguinte forma E (Y X) = f (η)

27 Modelo Poisson-Gama Semi-Paramétrico 26 η = p g j (X j ) (2-45) j=1 tal que f ( ) é a inversa da função de ligação apropriada para a família de distribuição de Y, η é o preditor aditivo da função de regressão e, por simplificação e sem perda de generalidade, o intercepto é igual a 0. O problema agora consiste em estimar as funções g j dados os valores observados de X j. Note-se que para algum j, g j pode ser linear, isto é, da forma g j = β j X j e, neste caso, o modelo é dito semi-paramétrico. Como cada covariável no modelo aditivo é representada separadamente, a característica de interpretabilidade é herdada do modelo linear, isto é, a variabilidade de superfície estimada depende apenas da covariável X s quando todas as outras covariáveis X j s são fixadas. Devido a esta simplificação, os modelos aditivos são aproximações da verdadeira superfície de regressão por uma soma de funções individuais dos preditores. Entretanto, os modelos aditivos não lidam de forma trivial com interações entre os preditores [23, 14]. Os suavizadores multidimensionais de alta dimensão não funcionam adequadamente pois herdam a esparsividade das amostras de dimensão alta, a chamada maldição da dimensionalidade [14]. Uma discussão detalhada da abordagem dos suavizadores multidimensionais de baixa ordem, por exemplo, thin plate splines pode ser consultada em Wood (2003) [38], Wood(2000) [37], Wahba (2000) [36] e Green e Silverman (1994) [18]. Os modelos aditivos caracterizam uma abordagem para lidar com problemas de alta dimensão, decompondo-os em problemas de baixa dimensão, normalmente d = 1 [14, 22]. Considere-se estimar as funções g 1,..., g p do modelo aditivo O modelo pode ser estimado por meio do algoritmo backfitting, também conhecido como projection pursuit [22, 14, 12]. O algoritmo consiste em estimar uma função g s dadas as estimativas das funções g j s, com j = 1,..., p, num procedimento iterativo até que um critério de convergência seja satisfeito. Um exemplo de critério de convergência pode ser dado pela diferença entre a soma de quadrados dos resíduos entre duas iterações consecutivas comparado com um valor fixo tão pequeno quanto se deseje. No algoritmo 2.1, m é o contador de iterações, R s é o resíduo parcial do modelo aditivo com todas as curvas g j s, h s ( ) é uma função suavizadora arbitrária aplicada à covariável X s e SQR é a soma de quadrados dos resíduos. A regressão por projection pursuit é uma forma direta de atacar o

28 Modelo Poisson-Gama Semi-Paramétrico 27 Algoritmo 2.1 O algoritmo backfitting 1. Inicia-se g (0) 1 = = g (0) p = 0 e m = 0 2. Itera-se: m = m + 1 Para j = 1 até p faz-se: 3. Estima-se s 1 R s = Y g (m) j (X j ) j=1 p j=s+1 g (m) s = h s (R s X s ) g (m 1) j (X j ) 4. Até que SQR = Y p j=1 j (X j ) ɛ g (m) problema da dimensionalidade. Considere-se o modelo Y = K h k (α kx) + ε (2-46) k=1 no qual α k X denota uma projeção unidimensional do vetor X, h k é uma função univariada arbitrária da projeção e os erros são independentes de X com média zero e variância σ 2. O algoritmo constrói a superfície de regressão escolhendo as projeções definidas pelo vetor α k. As direções α k e o número de termos K, em 2-46, são escolhidos de forma a oferecer o melhor ajuste aos dados. O algoritmo backfitting é um algoritmo Gauss- Seidel para solução de sistemas de equações [5]. Se os suavizadores h ( ) são operadores de projeção, a convergência do algorimo é garantida. Alguns suavizadores como as splines embora não sejam operadores de projeção, possuem as propriedades requeridas para a convergência [23]. O modelo 2-46 procura explicar a variabilidade da variável resposta não por uma seqüência suavizada, mas por uma soma de suavizações de várias seqüências da variável resposta induzida por várias combinações lineares do preditor [14]. Nos modelos de regressão linear múltipla, a interpretação dos coeficientes pode ser seriamente comprometida se existe colinearidade entre as covariáveis. Um fenômeno análogo pode ocorrer nos modelos não-paramétricos

29 Modelo Poisson-Gama Semi-Paramétrico 28 chamado concurvidade 2. Seus efeitos na interpretação das curvas individuais nos modelos aditivos ainda não são bem conhecidos [22]. 2 do termo em inglês concurvity.

30 3 Modelo Poisson-gama semi-paramétrico 3.1 Especificação teórica Considere-se estender o modelo Poisson-gama descrito no capítulo anterior para uma especificação semi-paramétrica. Nesta especificação, o preditor linear em 2-12 é substituído por preditor híbrido paramétrico e suavizado que é combinado de forma multiplicativa com o nível do modelo sem variável explicativa. Seja o vetor X t particionado da forma X = (X p t, Xt s ), tal que X p sejam as covariáveis que compõem a partição paramétrica do preditor e X s são as covariáveis que compõem a partição não-paramétrica do preditor do modelo. Sem perda de generalidade, de forma equivalente a equação 2-11, a distribuição de y t condicional em µ t é Poisson com média dada por µ t = µ t exp ( η t + + ηt + offset) (3-1) p η t + = β j X p j (3-2) η t = j=1 s g k (Xk s ) (3-3) k=1 em que µ t é o nível da série temporal y, η t + é a partição paramétrica do preditor e ηt é a partição não-paramétrica do preditor do modelo. Por simplificação da notação, as partições paramétrica e não-paramétrica do preditor serão referidas como preditor paramétrico e preditor não-paramétrico, respectivamente. É importante notar que η+ t é uma particularização de ηt na qual as funções g ( ) são lineares. O modelo 3-1 tem p + s variáveis explicativas. O termo offset tem a mesma função que o offset dos modelos lineares generalizados, isto é, representa uma covariável ou uma função de covariáveis com coeficiente linear igual a 1. Hastie e Tibshirani (1986 e 1990) [22, 23] discutem detalhadamente

31 Modelo Poisson-Gama Semi-Paramétrico 30 um número de opções para as funções suavizadoras g ( ). Entretanto, devido às boas propriedades matemáticas abordadas no capítulo anterior, apenas as splines cúbicas naturais são utilizadas na classe de modelos Poisson-gama semi-paramétricos considerada aqui. Porém, é facultativa a implementação de outros suavizadores nesta especificação de modelo semi-paramétrico. Tal como no modelo Poisson-gama paramétrico, a distribuição de µ t 1 condicionada em Y t 1 é gama. A distribuição de µ t condicionada em Y t 1 também é gama, com parâmetros a t t 1 e b t t 1. Então, as equações 2-13 e 2-14 de previsão do filtro Poisson-gama para o modelo com variáveis explicativas podem ser reescritas para o modelo semi-paramétrico como a t t 1 = ωa t 1 (3-4) b t t 1 = ωb t 1 exp ( ) η t + ηt (3-5) e as equações 2-15 e 2-16 de atualização do filtro para o modelo com variáveis explicativas com ajuste semi-paramétrico são a t = ωa t 1 + y t (3-6) b t = ωb t 1 + exp ( ) η t + + ηt (3-7) com t = τ + 1,..., n, em que τ é o índice da primeira observação não nula de y. A média e variância da distribuição preditiva do modelo com preditor híbrido permanecem as mesmas que em 2-9 e 2-10 respectivamente. Os parâmetros da distribuição do nível do modelo semi-paramétrico condicionada em Y t 1 agora são calculadas de acordo com 3-4 e 3-5. Os hiperparâmetros ω e β j são estimados por máxima verossimilhança, tal como na especificação paramétrica do modelo Poisson-gama, dada pela equação 2-8. As funções suaves g k (Xk s ) são estimadas pelo algoritmo backfitting abordado no capítulo anterior. A idéia básica da estimação do Poisson-gama semi-paramétrico consiste em estimar a parte paramétrica do modelo, que depende apenas de X p, por máxima verossimilhança. Dado o preditor linear, calcula-se um resíduo parcial devido ao ajuste paramétrico. Então, este resíduo parcial é usado como variável resposta para o ajuste não-paramétrico pelo algoritmo backfitting. O preditor não-paramétrico calculado pelo backfitting é agora introduzido na estimação paramétrica como um termo constante, parte do offset. Este processo é iterado até que a seqüência de valores da verossimilhança, L (ω, β j ) i, convirja para algum critério de parada do algoritmo.

32 Modelo Poisson-Gama Semi-Paramétrico 31 Inicialmente, é necessário definir uma forma de resíduo parcial devido ao ajuste da partição paramétrica do modelo. A dificuldade reside no fato de o preditor linear e o preditor não paramétrico não se combinarem diretamente com a equação de previsão do modelo, e sim por meio de um filtro iterativo. Ainda, devido a função de ligação exponencial, o nível da série e os preditores do modelo se relacionam em escalas diferentes. A fim de construir uma proposta de resíduo parcial na mesma escala do preditor não-paramétrico, considere-se que a equação 3-1 pode ser reescrita como µ t = µ t exp ( η t + + offset ) exp (ηt ). (3-8) Usando 2-11 e incluindo, sem prejuízo, o termo de offset na partição paramétrica do modelo, a seguinte forma também é equivalente µ t = µ + t exp (η t ) (3-9) em que µ + t é o nível do modelo Poisson-gama paramétrico. Considere-se o logaritmo da equação 3-9. O preditor não-paramétrico η t se combina de forma aditiva com o logaritmo do nível devido a partição paramétrica para formar o logaritmo do nível do modelo semi-paramétrico. Assim, pode ser escrita a seguinte expressão log µ t log µ + t = η t. (3-10) Então, é razoável definir o resíduo parcial devido ao ajuste paramétrico da forma rp t = log y t log ŷ + t t 1 (3-11) em que ŷ + t t 1 é o valor previsto pelo modelo considerando apenas a partição paramétrica do preditor, estimado de acordo com a equação 2-9. O processo de estimação do Poisson-gama semi-paramétrico pode ser sistematizado no algoritmo 3.1. Uma dificuldade dos modelos Poisson-gama semi-paramétricos é a falta de uma forma explícita para a associação das variáveis explicativas X s, no preditor não-paramétrico ηt, com a variável resposta Y. Tal limitação é inerente aos modelos Poisson-gama.

33 Modelo Poisson-Gama Semi-Paramétrico 32 Algoritmo 3.1 Estimação do Poisson-gama semi-paramétrico com backfitting 1. Ajusta-se um modelo Poisson-gama à partição paramétrica das covariáveis X p, obtendo-se as estimativas de máxima verossimilhança iniciais dos hiperparâmetros ω e β j. 2. Dado o preditor linear η + t + offset, calcula-se a previsão ŷ t t 1 devida à partição paramétrica do modelo. 3. Calcula-se o resíduo do ajuste paramétrico definido em 3-11, rp t = log y t log ŷ + t t 1 4. Estima-se a superfície de regressão não-paramétrica das covariáveis X s sobre o resíduo parcial rp via o algoritmo backfitting. Obtendo-se as funções g k (X s k ). 5. Dado o preditor não-paramétrico η t, faz-se offset = offset + η t 6. Reestima-se o modelo paramétrico usando os hiperparâmetros estimados ω e β j como valores iniciais e o novo offset. 7. Repete-se o processo a partir do item 2 até a convergência da seqüência L (ω, β j ) i. 3.2 Inferência no modelo semi-paramétrico Na maioria das aplicações, deseja-se avaliar a qualidade estatística do modelo estimado. Entretanto, não está completamente desenvolvida uma teoria distribucional exata dos estimadores para os modelos semiparamétricos. Alguma teoria assintótica está restrita à partição paramétrica do modelo. Assim, os procedimentos heurísticos propostos para inferência sobre σ 2 e para os efeitos dos preditores são derivados da regressão linear. É importante notar que na falta de uma teoria distribucional apropriada, estes procedimentos devem ser usados com cautela em testes de significância formais. Entretanto, oferecem uma orientação adequada para a seleção de modelos. Considere-se que a soma de funções das covariáveis no preditor nãoparamétrico incorporam uma estrutura paramétrica do modelo Poissongama usual, o offset. Então, as técnicas de diagnósticos dos modelos lineares generalizados podem ser utilizadas no Poisson-gama não-paramétrico tal

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42 CE062c - GAMLSS Silva, J.P; Taconeli, C.A. 09 de outubro, 2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42 Por que GAMLSS? Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro,

Leia mais

Disciplina de Modelos Lineares Professora Ariane Ferreira

Disciplina de Modelos Lineares Professora Ariane Ferreira Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável

Leia mais

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS 1 Diversas distribuições podem ser consideradas para a modelagem de dados positivos com distribuição contínua e assimétrica, como, por exemplo, as

Leia mais

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3 Séries temporais A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3.1. Princípios fundamentais Conforme Box et al. (1994), uma

Leia mais

3 Modelos e metodologias comparadas

3 Modelos e metodologias comparadas 3 Modelos e metodologias comparadas Este capítulo tem o propósito de listar algumas das alternativas existentes na literatura que envolve classificação, e serão utilizadas neste trabalho sendo comparadas

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

REGRESSÃO E CORRELAÇÃO

REGRESSÃO E CORRELAÇÃO REGRESSÃO E CORRELAÇÃO A interpretação moderna da regressão A análise de regressão diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis explanatórias,

Leia mais

Análise de Dados Categóricos

Análise de Dados Categóricos 1/43 Análise de Dados Categóricos Modelo de Regressão de Poisson Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Departamento de Estatística Universidade Federal de Minas Gerais 2/43 Revisão:

Leia mais

4 Modelos de Regressão Dinâmica

4 Modelos de Regressão Dinâmica 4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

Modelo de Regressão Múltipla

Modelo de Regressão Múltipla Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

étodos uméricos INTERPOLAÇÃO, EXTRAPOLAÇÃO, APROXIMAÇÃO E AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno

étodos uméricos INTERPOLAÇÃO, EXTRAPOLAÇÃO, APROXIMAÇÃO E AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno étodos uméricos INTERPOLAÇÃO, EXTRAPOLAÇÃO, APROXIMAÇÃO E AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Introdução Solução de equações não lineares

Leia mais

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions Redes RBF: Função de Base Radial Redes Neurais A Rede RBF O LP é baseado em unidades que calculam uma função não-linear do produto escalar do vetor de entrada e um vetor de peso. A rede RBF pertence a

Leia mais

Cálculo Numérico BCC760

Cálculo Numérico BCC760 Cálculo Numérico BCC760 Resolução de Sistemas de Equações Lineares Simultâneas Departamento de Computação Página da disciplina http://www.decom.ufop.br/bcc760/ 1 Introdução! Definição Uma equação é dita

Leia mais

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares 1 / 0 AGA 0505- Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares Laerte Sodré Jr. 1o. semestre, 018 modelos modelagem dos dados dado um conjunto de dados,

Leia mais

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3. 3. Ajuste do Modelo 4. Modelo Restrito Resíduos Resíduos 1 M = I- X(X X) -1 X Hipóteses do modelo Linearidade significa ser linear nos parâmetros. Identificação: Só existe um único conjunto de parâmetros

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

2 Modelos Não Lineares

2 Modelos Não Lineares Modelos Não Lineares 17 2 Modelos Não Lineares 2.1. Introdução Nos últimos anos, muitos modelos não-lineares para a análise de séries temporais têm sido propostos. Na econometria clássica, os modelos de

Leia mais

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo 1 Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 9 de Abril de 2015 2 3 Função Deviance Podemos ver o ajuste de um modelo a um conjunto de dados como: uma forma

Leia mais

INSTITUTO SUPERIOR TÉCNICO Mestrado Integrado em Engenharia Física Tecnológica Ano Lectivo: 2007/2008 Semestre: 1 o

INSTITUTO SUPERIOR TÉCNICO Mestrado Integrado em Engenharia Física Tecnológica Ano Lectivo: 2007/2008 Semestre: 1 o INSTITUTO SUPERIOR TÉCNICO Mestrado Integrado em Engenharia Física Tecnológica Ano Lectivo: 27/28 Semestre: o MATEMÁTICA COMPUTACIONAL Exercícios [4 Sendo A M n (C) mostre que: (a) n A 2 A n A 2 ; (b)

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 12 Regressão com Variáveis Não-Estacionárias Considere três processos estocásticos definidos pelas seguintes

Leia mais

MAP Segundo exercício programa Splines cúbicos

MAP Segundo exercício programa Splines cúbicos MAP-2121 - Segundo exercício programa - 26 Splines Cúbicos Instruções gerais - Os exercícios computacionais pedidos na disciplina Cálculo Numérico têm por objetivo fundamental familiarizar o aluno com

Leia mais

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000)

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) 5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) A primeira parte deste capítulo, referente à passagem dos modelos estocásticos para as equações do Filtro de Kalman, já foi previamente

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um

Leia mais

Prof. MSc. David Roza José 1/26

Prof. MSc. David Roza José 1/26 1/26 Mínimos Quadrados Geral e Regressão Não Linear Objetivos: Implementar a regressão polinomial; Implementar regressão múltipla linear; Entender a formulação do modelo linear geral de mínimos quadrados;

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise

Leia mais

3 Especificação Estatística da Dispersão dos Modos de Polarização em Cabos de Fibra Óptica

3 Especificação Estatística da Dispersão dos Modos de Polarização em Cabos de Fibra Óptica em Enlaces Ópticos 0 3 Especificação Estatística da Dispersão dos Modos de Polarização em Cabos de Fibra Óptica Teoria básica da especificação estatística da dispersão dos modos de polarização em cabos

Leia mais

Métodos Numéricos Interpolação / Aproximação. Renato S. Silva, Regina C. Almeida

Métodos Numéricos Interpolação / Aproximação. Renato S. Silva, Regina C. Almeida Métodos Numéricos Interpolação / Aproximação Renato S. Silva, Regina C. Almeida Interpolação / Aproximação situação: uma fábrica despeja dejetos no leito de um rio; objetivo: determinar a quantidade de

Leia mais

Estudo de Periodicidade dos Dados de Poluição Atmosférica na Estimação de Efeitos na Saúde no Município do Rio de Janeiro

Estudo de Periodicidade dos Dados de Poluição Atmosférica na Estimação de Efeitos na Saúde no Município do Rio de Janeiro Carla Fernandes de Mello Estudo de Periodicidade dos Dados de Poluição Atmosférica na Estimação de Efeitos na Saúde no Município do Rio de Janeiro Dissertação de Mestrado Dissertação apresentada como requisito

Leia mais

Modelos Lineares Generalizados

Modelos Lineares Generalizados Modelos Lineares Generalizados Emilly Malveira de Lima Análise de Dados Categóricos Universidade Federal de Minas Gerais - UFMG 10 de Maio de 2018 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 1 / 20

Leia mais

Disciplina de Modelos Lineares

Disciplina de Modelos Lineares Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique

Leia mais

Esse material foi extraído de Barbetta (2007 cap 13)

Esse material foi extraído de Barbetta (2007 cap 13) Esse material foi extraído de Barbetta (2007 cap 13) - Predizer valores de uma variável dependente (Y) em função de uma variável independente (X). - Conhecer o quanto variações de X podem afetar Y. Exemplos

Leia mais

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Transformações e Ponderação para corrigir violações do modelo

Transformações e Ponderação para corrigir violações do modelo Transformações e Ponderação para corrigir violações do modelo Diagnóstico na análise de regressão Relembrando suposições Os erros do modelo tem média zero e variância constante. Os erros do modelo tem

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Análise de Regressão EST036

Análise de Regressão EST036 Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem

Leia mais

Estimadores, pontual e intervalar, para dados com censuras intervalar

Estimadores, pontual e intervalar, para dados com censuras intervalar Estimadores, pontual e intervalar, para dados com censuras intervalar Débora Ohara, Estela Maris Pereira Bereta, Teresa Cristina Martins Dias Resumo Dados com censura intervalar ocorrem com frequência

Leia mais

CE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística

CE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística CE085 - Estatística Inferencial Função de Verossimilhança e suas derivadas Prof. Wagner Hugo Bonat Laboratório de Estatística e Geoinformação - LEG Curso de Bacharelado em Estatatística Universidade Federal

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

PUC-GOIÁS - Departamento de Computação

PUC-GOIÁS - Departamento de Computação PUC-GOIÁS - Departamento de Computação Fundamentos IV/Enfase Clarimar J. Coelho Goiânia, 28/05/2014 O que é interpolação polinomial? Ideia básica Permite construir um novo conjunto de dados a partir de

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review

Leia mais

Modelagem Computacional. Parte 8 2

Modelagem Computacional. Parte 8 2 Mestrado em Modelagem e Otimização - RC/UFG Modelagem Computacional Parte 8 2 Prof. Thiago Alves de Queiroz 2/2016 2 [Cap. 10 e 11] BURDEN, R. L.; FAIRES, J. D. Numerical Analysis (9th ed). Cengage Learning,

Leia mais

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO Regressão simples: desvantagem de apenas uma variável independente explicando y mantendo ceteris paribus as demais (ou

Leia mais

Coeficiente de determinação R 2 no modelo de regressão linear normal

Coeficiente de determinação R 2 no modelo de regressão linear normal Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br

Leia mais

6 MÉTODO DE ELEMENTOS FINITOS - MEF

6 MÉTODO DE ELEMENTOS FINITOS - MEF 6 MÉTODO DE ELEMENTOS FINITOS - MEF O Método de Elementos Finitos é uma técnica de discretização de um problema descrito na Formulação Fraca, na qual o domínio é aproximado por um conjunto de subdomínios

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa REGRESSÃO LINEAR Parte I Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015 Onde Estamos Para onde vamos Inferência Esta5s6ca se resumindo a uma equação

Leia mais

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta)

PROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta) PROVAS Ciência da Computação 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta) Ajuste de Curvas Objetivo Ajustar curvas pelo método dos mínimos quadrados 1 - INTRODUÇÃO Em geral, experimentos

Leia mais

p( y θ ) depende de um parâmetro desconhecido θ.

p( y θ ) depende de um parâmetro desconhecido θ. 55Modelação, Identificação e Controlo Digital 55 Método de Máxima Verosimilhança (Maximum Likelihood) Seja y uma variável aleatória (v. a.) cuja densidade de probabilidade p( y θ ) depende de um parâmetro

Leia mais

2 Modelos em Espaço de Estado Lineares: Formulação Geral

2 Modelos em Espaço de Estado Lineares: Formulação Geral 2 Modelos em Espaço de Estado Lineares: Formulação Geral 2.1 Definição Geral de um Modelo Linear Apresenta-se uma definição de modelos em EE lineares que seja a mais geral e flexível possível, e que segue

Leia mais

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. De forma geral, a prova manteve o padrão das questões da

Leia mais

AULA 8 - MQO em regressão múltipla:

AULA 8 - MQO em regressão múltipla: AULA 8 - MQO em regressão múltipla: Definição, Estimação e Propriedades Algébricas Susan Schommer Econometria I - IE/UFRJ Regressão Múltipla: Definição e Derivação A partir de agora vamos alterar o nosso

Leia mais

Ajuste de dados por mínimos quadrados

Ajuste de dados por mínimos quadrados Cálculo Numérico por mínimos quadrados Prof. Daniel G. Alfaro Vigo dgalfaro@dcc.ufrj.br Departamento de Ciência da Computação IM UFRJ Motivação: População do Brasil Ano População (milhões) 1960 70, 992343

Leia mais

2 FUNDAMENTACÃO TEÓRICA

2 FUNDAMENTACÃO TEÓRICA 2 FUNDAMENTACÃO TEÓRICA Este capítulo apresenta os modelos de séries temporais chamados estruturais, nos quais o valor das observações é visto como composto de uma parte sistemática, modelada por uma equação

Leia mais

6 Ajuste de mínimos quadrados

6 Ajuste de mínimos quadrados 6 Ajuste de mínimos quadrados polinomial No capítulo anterior estudamos como encontrar um polinômio de grau m que interpola um conjunto de n pontos {{x i, f i }} n Tipicamente quando m < n esse polinômio

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 1 de Setembro de 2014 3 O modelo de regressão linear é dado por Y i = β 0 + β 1 x i + ɛ i onde ɛ i iid N(0,σ 2 ). O erro

Leia mais

Experimentos de Previsão da Estrutura a Termo da Taxa de Juros Americana: Reversão à Media, Inércia e Influência de Variáveis Macroeconômicas

Experimentos de Previsão da Estrutura a Termo da Taxa de Juros Americana: Reversão à Media, Inércia e Influência de Variáveis Macroeconômicas João Marco Braga da Cunha Experimentos de Previsão da Estrutura a Termo da Taxa de Juros Americana: Reversão à Media, Inércia e Influência de Variáveis Macroeconômicas Dissertação de Mestrado Dissertação

Leia mais

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão para dados correlacionados. Cibele Russo Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo

Leia mais

Curvas e Superfícies. 35M34 Sala 3E1 Bruno Motta de Carvalho DIMAp Sala 15 Ramal 227 DIM102

Curvas e Superfícies. 35M34 Sala 3E1 Bruno Motta de Carvalho DIMAp Sala 15 Ramal 227 DIM102 Curvas e Superfícies 35M34 Sala 3E1 Bruno Motta de Carvalho DIMAp Sala 15 Ramal 227 1 Introdução A modelagem e desenho de curvas suaves são necessárias em várias aplicações de computação gráfica, seja

Leia mais

Multicolinariedade e Autocorrelação

Multicolinariedade e Autocorrelação Multicolinariedade e Autocorrelação Introdução Em regressão múltipla, se não existe relação linear entre as variáveis preditoras, as variáveis são ortogonais. Na maioria das aplicações os regressores não

Leia mais

Tópicos de Estatística Espacial Geoestatística

Tópicos de Estatística Espacial Geoestatística Tópicos de Estatística Espacial Geoestatística Anderson Castro Soares de Oliveira Geoestatística A geoestatística é uma análise espacial que considera que a variável em estudo se distribui continuamente

Leia mais

A Metodologia de Box & Jenkins

A Metodologia de Box & Jenkins A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de

Leia mais

AULA 11 Heteroscedasticidade

AULA 11 Heteroscedasticidade 1 AULA 11 Heteroscedasticidade Ernesto F. L. Amaral 30 de julho de 2012 Análise de Regressão Linear (MQ 2012) www.ernestoamaral.com/mq12reg.html Fonte: Wooldridge, Jeffrey M. Introdução à econometria:

Leia mais

CCI-22 FORMALIZAÇÃO CCI-22 MODOS DE SE OBTER P N (X) Prof. Paulo André CCI - 22 MATEMÁTICA COMPUTACIONAL INTERPOLAÇÃO

CCI-22 FORMALIZAÇÃO CCI-22 MODOS DE SE OBTER P N (X) Prof. Paulo André CCI - 22 MATEMÁTICA COMPUTACIONAL INTERPOLAÇÃO CCI - MATEMÁTICA COMPUTACIONAL INTERPOLAÇÃO Prof. Paulo André ttp://www.comp.ita.br/~pauloac pauloac@ita.br Sala 0 Prédio da Computação -Gregory DEFINIÇÃO Em matemática computacional, interpolar significa

Leia mais

AULAS 25 E 26 Heteroscedasticidade

AULAS 25 E 26 Heteroscedasticidade 1 AULAS 25 E 26 Heteroscedasticidade Ernesto F. L. Amaral 10 e 15 de junho de 2010 Métodos Quantitativos de Avaliação de Políticas Públicas (DCP 030D) Fonte: Wooldridge, Jeffrey M. Introdução à econometria:

Leia mais

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE A análise de deviance é uma generalização, para modelos lineares generalizados, da análise de variância. No caso de modelos lineares, utiliza-se

Leia mais

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano CÁLCULO NUMÉRICO Profa. Dra. Yara de Souza Tadano yaratadano@utfpr.edu.br Aula 4 Ajuste de Curvas AJUSTE DE CURVAS Cálculo Numérico 3/55 Introdução Em geral, experimentos geram uma gama de dados que devem

Leia mais

Modelos Lineares Generalizados - Componentes do Modelo

Modelos Lineares Generalizados - Componentes do Modelo Modelos Lineares Generalizados - Componentes do Modelo Erica Castilho Rodrigues 01 de Abril de 2014 3 Vejamos agora quais as componentes de um Modelo Linear Generalizado. Temos um conjunto de variáveis

Leia mais

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra Análise da Regressão múltipla: MQO Assintótico Capítulo 5 do Wooldridge Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades

Leia mais

Notas de Aula de Cálculo Numérico

Notas de Aula de Cálculo Numérico IM-Universidade Federal do Rio de Janeiro Departamento de Ciência da Computação Notas de Aula de Cálculo Numérico Lista de Exercícios Prof. a Angela Gonçalves 3 1. Erros 1) Converta os seguintes números

Leia mais

Planejamento de Experimentos

Planejamento de Experimentos Planejamento de Experimentos 1 6.4 Os Modelos fatoriais 2 k : o caso geral. O modelo estatístico para um plano 2 k inclui k ( k 2 ( k ) ) efeitos principais efeitos de interação de ordem 2 efeitos de interação

Leia mais

Econometria para Avaliação de Políticas Públicas

Econometria para Avaliação de Políticas Públicas Aula 2: O Método de Diferenças em Diferenças Itaú Social 11/01/2016 Método extremamente popular nos últimos quinze anos. Exemplos de aplicação são os mais diversos: avaliação de programas de treinamento,

Leia mais

LISTA DE EXERCÍCIOS - AJUSTE DE MÍNIMOS QUADRADOS Cálculo Numérico para Geociências Prof. Eduardo Colli

LISTA DE EXERCÍCIOS - AJUSTE DE MÍNIMOS QUADRADOS Cálculo Numérico para Geociências Prof. Eduardo Colli LISA DE EXERCÍCIOS - AJUSE DE MÍNIMOS QUADRADOS Cálculo Numérico para Geociências - 009 - Prof. Eduardo Colli Em todos os casos, convencionamos ter um conjunto de dados (, ), com i = 1,..., N. Faça o gráfico

Leia mais

Regressão Local (LOESS)

Regressão Local (LOESS) Regressão Local (LOESS) Wagner Hugo Bonat 14 de novembro de 2007 1 Regressão Local Regressão Local (Loess) é um método não paramétrico que estima curvas e superfícies através de suavização (smoothing).

Leia mais

Método do Lagrangiano aumentado

Método do Lagrangiano aumentado Método do Lagrangiano aumentado Marina Andretta ICMC-USP 23 de novembro de 2010 Marina Andretta (ICMC-USP) sme0212 - Otimização não-linear 23 de novembro de 2010 1 / 17 Problema com restrições gerais Vamos

Leia mais

Ajuste de mínimos quadrados

Ajuste de mínimos quadrados Capítulo 5 Ajuste de mínimos quadrados 5 Ajuste de mínimos quadrados polinomial No capítulo anterior estudamos como encontrar um polinômio de grau m que interpola um conjunto de n pontos {{x i, f i }}

Leia mais

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague Econometria IV Modelos Lineares de Séries Temporais Fernando Chague 2016 Estacionariedade Estacionariedade Inferência estatística em séries temporais requer alguma forma de estacionariedade dos dados Intuição:

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos 1 Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 27 de Setembro de 2016 2 3 O modelo de regressão linear é dado por 3 O modelo de regressão linear é dado por Y i = β

Leia mais

Métodos Quantitativos para Avaliação de Políticas Públicas

Métodos Quantitativos para Avaliação de Políticas Públicas ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Leia mais

Gibbs Sampler para ANOVA e Misturas

Gibbs Sampler para ANOVA e Misturas Gibbs Sampler para ANOVA e Misturas Renato Assunção - DCC, UFMG Outubro de 014 1 Modelo ANOVA: componentes de variância Suponha que temos K grupos ou classes. Em cada grupo, temos um certo número de dados

Leia mais

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves Capítulo 9 - Regressão Linear Simples RLS: Notas breves Regressão Linear Simples Estrutura formal do modelo de Regressão Linear Simples RLS: Y i = β 0 + β 1 x i + ε i, 1 onde Y i : variável resposta ou

Leia mais

Katia Lorena Sáez Carrillo. Modelos de Espaço de Estados Gama-Gama: Aplicação a uma série de chuva TESE DE DOUTORADO

Katia Lorena Sáez Carrillo. Modelos de Espaço de Estados Gama-Gama: Aplicação a uma série de chuva TESE DE DOUTORADO Katia Lorena Sáez Carrillo Modelos de Espaço de Estados Gama-Gama: Aplicação a uma série de chuva TESE DE DOUTORADO DEPARTAMENTO DE ENGENHARIA ELÉTRICA Programa de Pós-Graduação em Engenharia Mecânica

Leia mais

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO

Leia mais

Análise de regressão linear simples. Diagrama de dispersão

Análise de regressão linear simples. Diagrama de dispersão Introdução Análise de regressão linear simples Departamento de Matemática Escola Superior de Tecnologia de Viseu A análise de regressão estuda o relacionamento entre uma variável chamada a variável dependente

Leia mais

7 Conclusões e desenvolvimentos futuros

7 Conclusões e desenvolvimentos futuros 7 Conclusões e desenvolvimentos futuros 7.1 Conclusões Este trabalho apresentou novas soluções para a determinação da posição de terminais de comunicações móveis com base em medidas de ToA. Nos métodos

Leia mais

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO

Leia mais

AULA 1 - Modelos determinísticos vs Probabiĺısticos

AULA 1 - Modelos determinísticos vs Probabiĺısticos AULA 1 - Modelos determinísticos vs Probabiĺısticos Susan Schommer Econometria I - IE/UFRJ O que é Econometria? Aplicação de métodos estatísticos e matemáticos para analisar os dados econômicos, com o

Leia mais