Washington Leite Junger. Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade DISSERTAÇÃO DE MESTRADO. Engenharia Elétrica
|
|
- João Pedro Chaplin Meneses
- 6 Há anos
- Visualizações:
Transcrição
1 Washington Leite Junger Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade DISSERTAÇÃO DE MESTRADO DEPARTAMENTO DE ENGENHARIA ELÉTRICA Programa de Pós graduação em Engenharia Elétrica Rio de Janeiro janeiro de 2004
2 Washington Leite Junger Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica da PUC-Rio Orientador: Prof. Cristiano Augusto Fernandes Co Orientador: Prof. Antonio Ponce de Leon Rio de Janeiro janeiro de 2004
3 Washington Leite Junger Modelo Poisson-Gama Semi-Paramétrico Uma Abordagem de Penalização por Rugosidade Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós graduação em Engenharia Elétrica do Departamento de Engenharia Elétrica do Centro Técnico Científico da PUC- Rio.Aprovada pela Comissão Examinadora abaixo assinada. Prof. Cristiano Augusto Fernandes Orientador Departamento de Engenharia Elétrica PUC-Rio Prof. Eduardo Lima Campos Escola Nacional de Ciências Estatísticas IBGE Prof. Antonieta D Alcântara de Queiroz Peres Departamento de Matemática e Estatística Uni-Rio Prof. José Eugenio Leal Coordenador Setorial do Centro Técnico Científico PUC-Rio Rio de Janeiro, 30 de janeiro de 2004
4 Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador. Washington Leite Junger Graduado em Estatística pelo Instituto de Matemática e Estatística da Universidade do Estado do Rio de Janeiro IME/UERJ. Nos últimos anos, tem atuado como pesquisador do Projeto ARES-Rio no Instituto de Medicina Social IMS/UERJ, em estudos epidemiológicos de associação entre poluição do ar e potenciais efeitos nocivos à saúde. Contexto em que o presente trabalho foi desenvolvido. Junger, Washington Leite Ficha Catalográfica Modelo Poisson-Gama Semi-Paramétrico/ Washington Leite Junger; orientador: Cristiano Augusto Fernandes; co orientador: Antonio Ponce de Leon. Rio de Janeiro : PUC-Rio, Departamento de Engenharia Elétrica, v., 82 f: il. ; 29,7 cm 1. Dissertação (mestrado) - Pontifícia Universidade Católica do Rio de Janeiro, Departamento de Engenharia Elétrica. Inclui referências bibliográficas. 1. Estatística. 2. Séries Temporais. 3. Regressão Não-paramétrica. 4. Epidemiologia. 5. Poluição do Ar. 6. Saúde. I. Fernandes, Cristiano Augusto. II. De Leon, Antonio Ponce. III. Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Engenharia Elétrica. IV. Título. CDD: 621.3
5 Agradecimentos Meus orientadores Cristiano e Ponce pela produtiva parceria. Toda a família por lidar com a minha ausência. Cristina pelo apoio pleno e incondicional. Andréia pela leitura e torcida. CAPES pelo suporte financeiro.
6 Resumo Junger, Washington Leite; Fernandes, Cristiano Augusto; De Leon, Antonio Ponce. Modelo Poisson-Gama Semi-Paramétrico. Rio de Janeiro, p. Dissertação de Mestrado Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro. Neste trabalho, os modelos Poisson-gama são estendidos para uma formulação mais geral onde o preditor linear das covariáveis é substituído por um preditor aditivo de funções genéricas destas covariáveis. Como nos modelos aditivos generalizados (MAG), as funções lineares das covariáveis constituem um caso particular de modelo aditivo e as funções suavizadores utilizadas são as splines cúbicas naturais. A formulação semi-paramétrica permite ampliar o campo de aplicação desta classe de modelos. Os modelos semi-paramétricos são estimados por um processo iterativo combinando maximização da verossimilhança e algoritmo backfitting. Todos os algoritmos de estimação e diagnósticos estão implementados nas linguagens de programação R e C. Palavras chave Modelos em espaço de estados, séries temporais, regressão nãoparamétrica, splines, epidemiologia, fatores de confusão, poluição do ar.
7 Abstract Junger, Washington Leite; Fernandes, Cristiano Augusto; De Leon, Antonio Ponce. Semiparametric Poisson-Gamma models : a roughness penalty approach. Rio de Janeiro, p. MSc. Dissertation Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro. This work is aimed at extending the Poisson-Gamma models towards a more general specification, where the linear predictor of covariates is replaced by an additive predictor of generic functions of these covariates. Just like the generalized additive models (GAM), the linear functions of covariates are a particular case of additive models and the natural cubic splines are used as smoothing functions. The semiparametric specification allows to enlarge the possibilities of application of these models. The semiparametric models are fitted by an iterative process that combines maximization of likelihood and backfitting algorithm. All the routines for model fitting and diagnostics are implemented in R and C programming languages. Keywords State space models, time series, nonparametric regression, splines, epidemiology, confounding factors, air pollution.
8 Sumário 1 Introdução 9 2 Revisão teórico-metodológica Modelos Poisson-gama Regressão não-paramétrica 15 3 Modelo Poisson-gama semi-paramétrico Especificação teórica Inferência no modelo semi-paramétrico Aspectos computacionais 35 4 Aplicação e comparação de modelos Aplicação em Epidemiologia Ambiental Comparação com outra classe de modelos 44 5 Conclusão 52 Referências Bibliográficas 54 A Código fonte em R 59 B CD-ROM com a Biblioteca pgam para R 82
9 Todas as religiões, artes e ciências são ramos da mesma árvore. Todas elas aspiram a enobrecer a vida do homem, elevando-a acima da esfera da mera existência física e conduzindo o indivíduo rumo à liberdade. Não foi por mero acaso que nossas mais antigas universidades se desenvolveram a partir de escolas eclesiásticas. Tanto as igrejas como as universidades na medida em que cumpram sua verdadeira função servem ao enobrecimento do indivíduo. Buscam cumprir essa elevada tarefa pela difusão do entendimento moral e cultural, renunciando ao uso da força bruta. Albert Einstein, Escritos da Maturidade.
10 1 Introdução Na análise de dados de séries temporais se assume, freqüentemente, que a forma funcional da associação das covariáveis com a variável resposta é linear. Contudo, se esta relação exibe um padrão complexo, esta abordagem torna a modelagem inadequada. Em algumas aplicações, como a análise de séries temporais epidemiológicas, o que se pretende usualmente é estimar o efeito de uma ou mais covariáveis que representam uma exposição sobre a variável resposta que corresponde a um desfecho de saúde. Entretanto, é necessário remover o efeito de covariáveis que constituem fatores de confusão. As formas paramétricas podem não ser suficientemente flexíveis para proporcionar o ajuste necessário para corrigir este efeito. Atualmente, os modelos aditivos generalizados (MAG) constituem a metodologia padrão para a análise de séries temporais epidemiológicas em estudos que investigam a associação de poluição do ar com eventos de saúde, como morbidade e mortalidade, devidos a doenças respiratórias e cardiovasculares. Os modelos aditivos generalizados permitem que funções genéricas das covariáveis sejam introduzidas no preditor aditivo. No caso trivial, estas funções são lineares. A associação de cada covariável com a variável resposta pode ser definida por uma função suave determinada pelos próprios dados. Estas funções são denominadas suavizadores. Na literatura referente à regressão não-paramétrica, há um grande número de funções suavizadoras. Entretanto, a família de funções mais utilizada é a spline. A spline cúbica natural é o suavizador mais frequentemente utilizado devido a características matemáticas que são atrativas para a análise estatística de dados e para diagnósticos de adequação do modelo. Não obstante constituir a metodologia padrão dos estudos de séries temporais em epidemiologia ambiental, os modelos aditivos generalizados não são capazes de ajustar adequadamente estruturas intrínsecas das séries temporais. Por exemplo, a autocorrelação precisa ser ajustada através de métodos ad hoc. A solução natural para o problema é a formulação de
11 Modelo Poisson-Gama Semi-Paramétrico 10 uma classe de modelos capazes de lidar com os componentes das séries temporais e que permitam associações não-lineares das covariáveis com a variável resposta. A classe de modelos Poisson-gama para séries temporais proposta por Harvey e Fernandes [20] constitui uma abordagem para a análise de dados de contagem, na qual as estruturas instrínsecas das séries temporais são devidamente ajustadas. Entretanto, estes modelos não permitem que associações mais complexas das covariáveis com a variável resposta sejam modeladas de forma não-paramétrica. Considere-se, então, uma classe de modelos capazes de incorporar no seu preditor formas não-paramétricas das covariáveis e que, ainda, sejam capazes de ajustar devidamente estruturas inerentes à dinâmica das séries temporais. Estes modelos possuiriam a adequação de um modelo próprio para séries temporais e a flexibilidade de um modelo aditivo generalizado. Neste trabalho é proposta a extensão dos modelos Poisson-gama para uma formulação mais geral na qual o preditor linear das covariáveis é substituído por um preditor aditivo de funções genéricas destas covariáveis. Como nos modelos aditivos generalizados, as funções lineares das covariáveis constituem um caso particular. As funções suavizadoras utilizadas neste trabalho são as splines cúbicas naturais, embora outros suavizadores possam ser facilmente incorporados ao modelo. O processo de estimação da partição paramétrica do modelo híbrido ou semi-paramétrico, como será referido a partir de agora, é obtida pelo método de maximização numérica da verossimilhança. A partição não-paramétrica é estimada pelo algoritmo backfitting. Os dois algoritmos de estimação combinados são iterados até que o valor da verossimilhança atinja um critério de convergência. Alguns procedimentos inferenciais são adaptados dos modelos lineares generalizados na falta de uma teoria distribucional adequada aos modelos semi-paramétricos. Os algoritmos de estimação dos modelos Poisson-gama semiparamétricos bem como ferramentas para diagnósticos da adequação do ajuste de modelos, foram implementados na forma de uma biblioteca nas linguagens R e C. Apesar de poderem ser executados em outros sistemas operacionais suportados pelo R, os códigos foram otimizados para execução sobre o sistema operacional Linux. A escolha da linguagem de programação e do sistema operacional concorda com a filosofia de software livre e código aberto. A extensão do modelo Poisson-gama para uma forma mais geral na qual seja possível introduzir funções não-paramétricas, sobretudo funções
12 Modelo Poisson-Gama Semi-Paramétrico 11 suaves dos dados como as splines cúbicas naturais, de forma aditiva no preditor linear permite ampliar o campo de aplicação desta classe de modelos. O trabalho está organizado da seguinte forma: No capítulo 2 é realizada uma revisão detalhada de teorias e métodos dos modelos Poisson-gama paramétricos e de regressão não-paramétrica com ênfase em splines cúbicas naturais e no algoritmo backfitting. No capítulo 3, os modelos Poisson-gama semi-paramétricos são especificados teoricamente, são apresentados alguns procedimentos de inferência estatística e detalhados os aspectos computacionais e algoritmo de estimação. O capítulo 4 consiste da aplicação do modelo semi-paramétrico a um problema de epidemiologia ambiental e comparação do modelo Poisson-gama semi-paramétrico com um modelo Poisson-gama paramétrico e um modelo aditivo generalizado na análise do mesmo problema de associação de poluição do ar com o número diário de internações de crianças por doenças respiratórias. O capítulo 5 conclui o trabalho apontando resultados e dificuldades. O código fonte dos programas encontra-se no anexo A. O anexo B, é um CD-ROM contendo o código fonte da bilioteca pgam e também sua versão compilada para o sistema operacional Windows, bem como as versões atuais do sistema R.
13 2 Revisão teórico-metodológica 2.1 Modelos Poisson-gama Os modelos Poisson-gama foram introduzidos como uma proposta de modelos para lidar com observações de séries temporais de processos de contagem. O problema consiste essencialmente em formular um modelo que forneça a distribuição de y t dado o passado da série, ou seja, a seqüência y 1,..., y t 1 denotada por Y t 1. A solução do problema reside no uso das distribuições conjugadas como as usadas no contexto bayesiano, contudo, a abordagem utilizada é a clássica [13]. Embora o artigo original [20] compreenda um maior número de distribuições não-gaussianas, neste trabalho, apenas a distribuição de Poisson é abordada. Considere-se a seqüência y 1,..., y n como n realizações de um processo estocástico de Poisson [29]. Para cada instante t a distribuição de y t condicionada no nível µ t é dada por p (y t µ t ) = µy t t e µ t y t!. (2-1) Suponha-se que a distribuição de µ t 1 condicionada em todas as observações da série até o instante t 1 seja gama com parâmetros a t 1 e b t 1 estimados a partir da seqüência Y t 1. Sob normalidade dos erros nas equações de um modelo de nível local gaussiano [21, 9], a média de µ t Y t 1 é igual a de µ t 1 Y t 1 e a variância é maior. Este mesmo comportamento pode ser replicado na distribuição gama aplicando aos parâmetros um fator menor que 1, denotado por ω e denominado fator de desconto. Ou seja, assume-se que a distribuição a priori p (µ t Y t 1 ) é uma gama com parâmetros a t t 1 e b t t 1 da forma a t t 1 = ωa t 1 (2-2) b t t 1 = ωb t 1 (2-3)
14 Modelo Poisson-Gama Semi-Paramétrico 13 com 0 < ω 1. As equações 2-2 e 2-3 são as equações de previsão do filtro Poisson-gama. Com a observação y t disponível, devido à conjugação das distribuições de probabilidades, a distribuição a posteriori p (µ t Y t ) também é gama com parâmetros dados por a t = ωa t 1 + y t (2-4) b t = ωb t (2-5) As equações 2-4 e 2-5 são as equações de atualização do filtro Poisson-gama. As equações de previsão e de atualização deste filtro podem, na prática, ser combinadas. Neste caso, apenas a t t 1 e b t t 1 são estimados [4]. A distribuição de µ t é difusa se a = 0 e b = 0. Entretanto, a iniciação das recursões do filtro no instante t = 0 com a 0 = 0 e b 0 = 0 permite a obtenção de uma distribuição própria para µ t no instante t = τ, em que τ é o índice da primeira observação com valor diferente de zero [20]. Condicionada em Y τ, a distribuição conjunta de y τ+1,..., y n é n p (y τ+1,..., y n ; ω) = p (y t Y t 1 ) (2-6) t=τ+1 e a função de densidade de probabilidade preditiva é dada por p (y t Y t 1 ) = 0 p (y t µ t ) p (µ t Y t 1 ) dµ t. (2-7) Para observações de um processo de Poisson e uma priori gama, a equação 2-7 leva a distribuição binomial negativa com parâmetros a t t 1 e b t t 1. A função de log-verossimilhança do hiperparâmetro ω a ser estimado é dada por log L (ω) = n log Γ ( ) a t t 1 + y t log yt! log Γ ( ) a t t 1 + t=τ+1 a t t 1 log b t t 1 ( a t t 1 + y t ) log ( 1 + bt t 1 ). (2-8) Das propriedades da binomial negativa se obtêm a média e a variância da distribuição preditiva dadas por E (y t Y t 1 ) = a t t 1 (2-9) b t t 1 V ar (y t Y t 1 ) = a ( ) t t bt t 1 (2-10) b 2 t t 1
15 Modelo Poisson-Gama Semi-Paramétrico 14 Usando substituições sucessivas, verifica-se que a função de previsão L passos à frente do modelo Poisson-gama sem variáveis explicativas equivale a um amortecimento exponencial ponderado (EWMA) das observações passadas com constante de suavização igual a 1 ω. Nos modelos com variáveis explicativas estas formas não são equivalentes [20]. Para introduzir variáveis explicativas no modelo Poisson-gama, considere-se que o efeito do nível do componente estrutural µ t da série temporal é separado do efeito das covariáveis no vetor x t. Este nível pode ser combinado de forma multiplicativa com uma função de ligação exponencial das covariáveis, denotada por exp ( ) η t +. Logo, a distribuição de yt condicionada em µ t é Poisson com média µ + t = µ t exp ( ) η t + (2-11) p η t + = β j x jt (2-12) j=1 em que η t + é o preditor linear. Seja gama a distribuição de µ t 1 condicionada em Y t 1. A distribuição de µ t condicionada em Y t 1 também é gama, com parâmetros a t t 1 e b t t 1. As médias de µ t 1 Y t 1 e µ t Y t 1 são iguais, porém a variância de µ t Y t 1 é maior que a de µ t 1 Y t 1 [20]. Então, as equações 2-2 e 2-3 de previsão do filtro Poisson-gama para o modelo com variáveis explicativas são dadas por a t t 1 = ωa t 1 (2-13) b t t 1 = ωb t 1 exp ( ) η t + (2-14) e as equações 2-4 e 2-5 de atualização do filtro para o modelo com variáveis explicativas são a t = ωa t 1 + y t (2-15) b t = ωb t 1 + exp ( ) η t + (2-16) com t = τ + 1,..., n. Os hiperparâmetros ω e β j são estimados pelo método da máxima verossimilhança cuja função é dada pela equação 2-8. A média e variância da distribuição preditiva do modelo com variáveis explicativas permanecem as mesmas que nas equações 2-9 e 2-10, exceto pelos parâmetros que agora são calculados como nas equações 2-13 e Muitas das técnicas de diagnóstico usualmente empregadas em mo-
16 Modelo Poisson-Gama Semi-Paramétrico 15 delos lineares generalizados (MLG) [28, 12] são válidos para os modelos Poisson-gama. Contudo, observa-se que para o diagnóstico que depende da distribuição deve tomar por referência a distribuição preditiva que é binomial negativa. Como exemplo, pode-se definir a função desvio para os modelos Poisson-gama da seguinte forma D (y; ˆµ) = 2 n t=τ+1 a t t 1 log ( at t 1 y t b t t 1 ) ( a t t 1 + y t ) log ( yt + a t t 1 ) ( 1 + bt t 1 ) yt. (2-17) O número de graus de liberdades do modelo ajustado é dado por n p τ [20]. Fazendo uso da equação 2-17, pode ser definido, por exemplo, o resíduo de desvio dado por r dt = sign(y t µ t ) d t em que d t é o valor da parcela da função desvio referente ao instante t [28]. Os resíduos de desvio são considerados superiores e mais apropriados para diagnóstico e validação de modelos que usam a abordagem dos modelos lineares generalizados que os resíduos de Pearson [30]. Outra possibilidade é o resíduo de desvio padronizado definido por r dpt = r dt / 1 h tt, em que r dt é o resíduo de desvio e a quantidade h tt é a contribuição da t-ésima observação para o valor previsto, ou seja, é o t-ésimo elemento da diagonal da matriz chapéu estimada. A matriz chapéu é equivalente à matriz de projeção dos modelos de regressão linear e não é definida explicitamente nos modelos Poisson-gama. Campos e colaboradores (2003) [4] propõem uma quantidade equivalente para h tt e conduzem um estudo de simulação para investigar a eficácia da padronização dos resíduos usando esta quantidade. 2.2 Regressão não-paramétrica Splines cúbicas Nos modelos lineares generalizados [28], a média de uma variável resposta Y é modelada como uma função linear p j=1 β jx j de um conjunto de covariáveis X 1,..., X p. Estes modelos assumem uma forma linear ou paramétrica para o efeito das covariáveis. Os MLG podem ser estendidos, substituindo o preditor linear η = p j=1 β jx j por um preditor aditivo η = p j=1 g j (X j ), em que g j (X j ), com j = 1,..., p, são funções quaisquer das covariáveis X 1,..., X p. Por não possuir restrição na forma
17 Modelo Poisson-Gama Semi-Paramétrico 16 funcional de nenhuma das covariáveis este modelo é dito não paramétrico. Na notação do preditor de ambos os modelos, o intercepto foi omitido por simplificação. Os modelos semi-paramétricos são aqueles nos quais uma ou mais funções g j (X j ) do preditor aditivo são lineares, ou seja, são da forma β j X j [22, 23, 3, 16]. Os pressupostos tradicionais dos modelos de regressão são relaxados e o problema agora passa a ser escolher as funções g j (X j ) de tal forma que alguma norma seja minimizada. A norma comumente utilizada na análise de regressão é a L 2. Então, é necessário escolher g tal que a soma dos quadrados dos resíduos seja mínima. Apesar de as funções trigonométricas e as funções polinomiais serem mais flexíveis que uma reta, essas ainda definem uma estrutura rígida para a associação entre as covariáveis e a variável resposta. Além disto, uma observação individual pode exercer efeitos imprevisíveis em outras regiões da curva. A escolha natural para funções g são funções suaves estimadas a partir dos próprios dados, tal que a soma de quadrados penalizada seja minimizada [18, 12]. Para estimar g considere-se minimizar o funcional S (g) = n Y i g (k i ) 2 + λ b i=1 a g 2 dx (2-18) em que k i, com i = 1,..., n, são pontos ordenados num intervalo [a, b] qualquer, g tem primeira e segunda derivadas contínuas g e g, o quadrado de g é uma função integrável e 0 < λ < é o parâmetro de suavização da curva g. A solução ĝ λ do problema de otimização acima é uma spline cúbica natural [11]. Suponha-se que a seqüência de pontos k 1,..., k n pertença ao intervalo [a, b] tal que a < k 1 < k 2 < < k n < b. Uma função g definida sobre o intervalo [a, b] é uma spline cúbica se satisfaz as seguintes condições: (1) sobre cada intervalo (a, k 1 ), (k 1, k 2 ), (k 2, k 3 ),..., (k n, b), g é uma função polinomial cúbica e (2) cada dois polinômios em partes vizinhos se conectam no ponto k i de tal modo que a própria g e sua primeira e segunda derivadas sejam contínuas em todos os pontos k i e, portanto, sobre todo o intervalo [a, b]. Pode ser definido então o espaço S [a, b] de todas as funções suaves g em [a, b]. Os pontos k i são chamados nós 1. A fim de simplificar a notação, defina-se k 0 = a e k n+1 = b os limites do intervalo sobre o qual a função g é definida. Uma representação natural de um polinômio em partes é da forma de 1 do termo em inglês knots.
18 Modelo Poisson-Gama Semi-Paramétrico 17 quatro coeficientes polinomiais g (x) = d i (x k i ) 3 + c i (x k i ) 2 + b i (x k i ) + a i (2-19) para k i x k i+1 e constantes a i, b i, c i, d i com i = 0,..., n. Uma spline cúbica no intervalo [k 0, k n+1 ] é dita spline cúbica natural se as segunda e terceira derivadas nos pontos k 0 e k n+1 são iguais a zero. A implicação destas condições é que d 0 = 0, c 0 = 0, d n = 0 e c n = 0, logo g é linear nos intervalos [k 0, k 1 ] e [k n, k n+1 ] [18]. Uma representação mais eficiente do ponto de vista computacional e matemático que aquela na equação 2-19 é a representação do valor da segunda derivada. Nesta representação, uma spline cúbica natural g é completamente especificada pelo seu valor e o valor da segunda derivada em cada nó k i. Supondo que g é uma spline cúbica natural com nós k 1,..., k n, defina-se g i = g (k i ) e γ i = g (k i ) para i = 1,..., n. Uma spline cúbica natural g tem segunda derivada nos pontos k 1 e k n igual a zero, logo γ 1 = 0 e γ n = 0. Considere-se os vetores g = (g 1,..., g n ) e γ = (γ 2,..., γ n 1 ). Os valores de g e de suas derivadas em qualquer ponto x podem ser calculados explicitamente em termos dos vetores g e γ. Deste modo g pode ser descrita em um gráfico com qualquer grau de precisão. A condição necessária e suficiente para que os vetores g e γ representem uma autêntica spline cúbica natural para uma dada seqüência de nós depende de duas matrizes R e Q. A matriz Q tem dimensão n (n 2) com elementos q ij, com i = 1,..., n e j = 2,..., n 1. Os elementos de Q têm a seguinte forma q j 1,j = h 1 j 1 q jj = h 1 j 1 h 1 j q j+1,j = h 1 j q ij = 0 se i j 2 (2-20) com h i = k i+1 k i. A matriz R é simétrica e tem dimensão (n 2) (n 2) com seus elementos dados por r ii = (1/3) (h i 1 + h i ) r i,i+1 = (1/6) h i r i+1,i = (1/6) h i r ij = 0 se i j 2 (2-21)
19 Modelo Poisson-Gama Semi-Paramétrico 18 com i = 2,..., n 1 e j = 2,..., n 1. A matriz R é estritamente positiva definida. Com as matrizes R e Q definidas, pode-se enunciar um dos teoremas que formam a base da interpolação e da suavização por splines. As provas desses teoremas podem ser consultadas em Green e Silverman (1985) [18]. Teorema 2.1 Os vetores g e γ especificam uma spline cúbica natural se e somente se Q g = Rγ (2-22) Se a condição acima é satisfeita, então o termo de penalização em 2-18 satisfaz b a g (x) 2 dx = γ Rγ = g QR 1 Q g. (2-23) A spline de interpolação tem como motivação mecânica um antigo dispositivo usado para desenhar cascos de navios e trilhos de linhas férreas. Considere-se que para cada nó k i existe um ponto (k i, z i ). Considere-se também uma peça de madeira ou metal flexível forçada a passar pelos pivôs fixos nos pontos dados (k i, z i ) nos nós k i e livre para tomar qualquer forma nos outros pontos. Com os pivôs presos nos nós, a lâmina toma a forma de mínima energia sujeita às restrições nos nós [18]. A fim de simplificar o entendimento da suavização por spline, considere-se a interpolação por spline. Seja S [a, b] o espaço de todas as funções g suaves no sentido de que possuem primeira e segunda derivadas contínuas. A curva mais suave em S [a, b] para interpolar os pontos dados é a que tem menor termo de penalização g 2 entre todas as curvas que interpolam os dados. Entre todas as curvas g em S [a, b] que interpolam os pontos (k i, z i ), aquela que minimiza g 2 é uma spline cúbica natural com nós em k i. Se n 2, então existe uma única spline cúbica natural que interpola os dados. Assim, o problema de minimizar o termo de penalização g 2 é equivalente a encontrar uma única spline cúbica natural com nós k i e valores g (k i ) = z i para todo i. Logo, uma spline cúbica natural é a solução de um sistema de equações lineares. O segundo teorema trata da unicidade da spline cúbica natural de interpolação. Teorema 2.2 Suponha-se n 2 e k 1 < < k n. Dados os valores z 1,..., z n, existe uma e apenas uma spline cúbica natural g com nós nos pontos k i que satisfaz para i = 1,..., n. g (k i ) = z i (2-24)
20 Modelo Poisson-Gama Semi-Paramétrico 19 A spline cúbica natural de interpolação é ótima em uma classe ainda maior de funções suaves. Seja S 2 [a, b] o espaço das funções contínuas e com primeira derivada contínua g sobre o intervalo [a, b]. Isto implica a existência de uma função g integrável tal que x a g (k) dk = g (x) g (a) para todo x [a, b]. Este resultado é garantido pelo terceiro teorema. Teorema 2.3 Suponha-se n 2 e que g é uma spline cúbica natural de interpolação com valores z 1,..., z n nos pontos k 1,..., k n satisfazendo a < k 1 < < k n < b. Seja g uma função em S 2 [a, b] tal que g (k i ) = z i para i = 1,..., n. Então g 2 = g 2. A igualdade só é satisfeita se g e g são idênticas. Nas aplicações estatísticas, o que se deseja é estimar uma curva cujos valores observados são realizações de uma variável aleatória, ou seja, sujeitos a erros aleatórios. Neste caso, o objetivo é obter uma curva g que suaviza os dados observados. Tal como no problema de interpolação, considere-se k 1,..., k n pontos pertencentes ao intervalo [a, b] tal que a < k 1 < < k n < b. Sejam y 1,..., y n observações de uma variável aleatória. A fim de garantir as condições do teorema 2.1, considere-se n 3 [18]. Dada uma função g em S 2 [a, b], seja S (g) a soma de quadrados penalizada como definida na equação A curva ĝ estimada será aquela que minimiza S (g) entre todas as funções do espaço S 2 [a, b]. Aplicando as propriedades das splines de interpolação, pode ser mostrado que a curva estimada ĝ é uma spline cúbica natural com nós nos pontos k i. Reescrevendo S (g) em função dos vetores g e γ e das matrizes R e Q é possível concluir que a função ótima ĝ existe e é única. Seja Y = (Y 1,..., Y n ). A soma de quadrados penalizada S (g) pode ser reescrita na forma matricial S (g) = (Y g) (Y g) + λg QR 1 Q g = g ( I + λqr 1 Q ) g 2Y g + Y. (2-25) Fazendo K = QR 1 Q, λk é não-negativa definida e portanto, (I + λk) é estritamente positiva definida. Logo, a função na equação 2-25 tem um único mínimo obtido pela expressão g = (I + λk) 1 Y. (2-26) O teorema 2.2 garante que o vetor g define unicamente uma spline g. Então, S (g) tem um único mínimo dado pela equação 2-26 sobre o espaço de todas as splines cúbicas naturais com nós nos pontos k i.
21 Modelo Poisson-Gama Semi-Paramétrico 20 Teorema 2.4 Suponha-se n 3 e que k 1,..., k n sejam pontos tais que a < k 1 < < k n < b. Dados os pontos Y 1,..., Y n e o parâmetro de suavização λ estritamente positivo e seja ĝ a spline cúbica natural com nós em k 1,..., k n tal que g = (I + λk) 1 Y. Então, para qualquer g S 2 [a, b], S (ĝ) S (g). (2-27) A igualdade só é satisfeita se g e ĝ são idênticas. Alguns algoritmos para encontrar ĝ, estimativa da curva g, estão descritos em detalhes em Green e Silverman (1985) [18]. A partir da equação 2-26 e considerando a natureza quadrática da equação 2-18, pode ser mostrado que ĝ é linear nas observações [33, 18], no sentido que existe uma matriz H (λ), tal que ĝ = H (λ) y (2-28) e H (λ) = (I + λk) 1. (2-29) Considere-se na regressão linear uma matriz H tal que ŷ = Hy e H = X (X X) 1 X. A matriz de suavização H (λ) tem um papel equivalente à matriz chapéu H da regressão linear, pois mapeia os valores observados y i nos valores previstos ĝ (k i ). Entretanto, H (λ) não pode ser interpretada como uma matriz de projeção [10]. Por analogia, podem ser estentidas à matriz H (λ) as propriedades básicas da matriz chapéu da regressão linear. Denote-se H (λ) a matriz chapéu da spline de regressão e os elementos h ii (λ) da diagonal principal os valores de influência. Os elementos de H (λ) têm a mesma interpretação que aqueles de H na regressão linear [10]. A fim de derivar as propriedades básicas de H (λ), considere-se uma matriz T de dimensão n m com os elementos t ij iguais a t j i, respectivamente, com i = 1,..., n e j = 0,..., m 1 e defina-se H = T (T T ) 1 T. (2-30) A matriz H é conhecida como a matriz chapéu da regressão polinomial. O teorema a seguir mostra as propriedades da matriz de suavização.
22 Modelo Poisson-Gama Semi-Paramétrico 21 Teorema 2.5 A matriz H (λ) = h ij (λ) satisfaz as seguintes propriedades: 0 h ii (λ) 1 (2-31) 1 h ij (λ) 1 (2-32) para i j h ii (λ) = 1 se e somente se h ij (λ) = 0 para todo i j e n j=1 h ij (λ) = 1. Ela e fortemente correlacionada com H = h ij no sentido que h ii (λ) h ii como λ se h ii 1 Ainda, h ij (λ) h ij como λ e para λ suficientemente grande com h ij 0, tanto h ij (λ) quanto h ij têm o mesmo sinal. Se λ 0 e h ii 1, então h ii (λ) 1. A prova deste teorema pode ser obtida em Eubank (1984) [10]. Seja e = (I H) y o vetor de resíduos de um modelo na regressão linear usual. Ainda por analogia, pode ser definido um vetor e λ tal que e λ = (I H (λ)) y e V ar (e λ ) = σ 2 (I H (λ)). E, como resultado do teorema 2.5, os elementos da matriz H (λ) podem ser utilizados como ferramenta de diagnóstico tal como a matriz chapéu dos modelos de regressão linear [10, 1]. As splines cúbicas também podem ser ponderadas e, neste caso, é atribuído um peso w i para cada observação y i. Esta abordagem é especialmente importante quando alguns pontos do conjunto de dados tem grande influência sobre os valores previstos ĝ (k i ). Estimar a função g, agora, consiste em minimizar o funcional S W (g) = n w i Y i g (k i ) 2 + λ b i=1 a g 2 dx (2-33) em que w i com i = 1,..., n. Se n 3 e λ e os pesos w i são estritamente positivos, então a função na equação 2-33 tem um único mínimo dado por g = (W + λk) 1 W Y (2-34) em que W é uma matriz diagonal de dimensão n n cujos elementos são os pesos w i com i = 1,..., n [18].
23 Modelo Poisson-Gama Semi-Paramétrico 22 As splines cúbicas podem ser generalizadas para polinômios de ordens mais elevadas se introduzindo condições nas derivadas de ordens superiores. A idéia de suavização por splines pode ser estendida para problemas de dimensão superior [39]. Entre as opções de estimação podem ser consideradas, por exemplo, a redução da dimensionalidade usando funções aditivas ajustadas de forma iterativa [22, 23] ou thin plate splines, na qual toda a hiper-superfície é ajustada de uma só vez [38, 37, 36] Seleção do parâmetro de suavização O parâmetro de suavização é denotado por λ e controla a contribuição do termo g 2 para S (g). Um dos problemas na estimação de g reside na escolha do valor de λ com melhor relação viés variância. Existem duas abordagens filosóficas para a escolha do parâmetro de suavização. Em alguns contextos, o parâmetro λ pode ser selecionado de forma empírica e subjetiva. Em outros casos, o parâmetro de suavização pode ser selecionado por um método automático. Então, os próprios dados determinam o valor de λ. O valor selecionado de forma automática pode ser também usado como valor inicial para um ajuste fino manual do parâmetro de suavização. No processo de seleção do parâmetro de suavização, é necessário minimizar uma medida global de erro como, por exemplo, a média do erro quadrático médio. O método mais comum para a seleção automática do parâmetro de suavização é a validação cruzada. Este método é motivado em termos de erro de previsão. Supondo um erro com média zero, a curva g tem a propriedade de que, dada uma observação y k, g (y k ) é a melhor previsão de y k em termos de erro quadrático médio. Então, é razoável escolher o estimador ĝ (k) tal que este dê o menor valor de y k ĝ (y k ) 2 para uma nova observação y k no ponto k. Na prática, como não há novas observações disponíveis, a validação cruzada reproduz o efeito de uma nova observação y k removendo a observação y i referente ao ponto k i do conjunto de dados [18, 17, 23]. Seja y i a observação referente ao ponto k i. Considere-se que y i é uma nova observação omitindo-a do conjunto de dados utilizado para a estimação da curva g. Denote-se por ĝ ( i) (k; λ) a curva estimada usando o parâmetro de suavização λ e sem a observação y i. Então, ĝ ( i) (k; λ) é a curva que minimiza Y j g (k j ) 2 + λ j i b a g 2 dx. (2-35)
24 Modelo Poisson-Gama Semi-Paramétrico 23 O ajuste da curva estimada ĝ ( i) pode ser avaliado se verificando quão bem ĝ ( i) (k i ; λ) prevê y i. Seja y i ĝ ( i) (k i ; λ) o resíduo referente à observação y i prevista pela curva ĝ ( i) estimada com n 1 observações e com parâmetro de suavização λ, que será denotado por resíduo deletado. Uma medida de ajuste orientada a previsão é o erro preditivo quadrático médio dado por EP Q (λ) = 1 n n E yi ĝ (k i ; λ) 2 (2-36) i=1 em que y i é a nova observação referente ao ponto k i e ĝ é a curva estimada com n observações e parâmetro λ. A validação cruzada é uma estimativa do erro preditivo quadrado médio [23, 12]. Dado que a escolha de qual observação y i é retirada do ajuste de ĝ ( i), uma avaliação total da adequação do parâmetro de suavização λ pode ser obtida por meio da função escore da validação cruzada V C (λ) = 1 n n yi ĝ ( i) (k i ; λ) 2. (2-37) i=1 O objetivo da validação cruzada é encontrar o valor de λ que minimiza V C (λ). Não há garantias de que a função na equação 2-37 tenha um único mínimo. Uma busca numa grade de valores de λ pode ser o melhor método para a minimização [18]. Para calcular V C (λ) não é necessário resolver n problemas de suavização separados para achar n curvas ĝ ( i). Usando o fato de que a curva g depende linearmente dos dados y, como mostra a equação 2-28, pode ser desenvolvida uma forma computacionalmente econômica para calcular o escore V C (λ). Teorema 2.6 A função escore da validação cruzada satisfaz a seguinte equação V C (λ) = 1 n n i=1 2 yi ĝ (k i ) (2-38) 1 h ii (λ) em que ĝ é a spline calculada a partir de todo o conjunto de dados (k i, y i ), onde i = 1,..., n, com parâmetro de suavização λ. O teorema 2.6, cuja demostração pode ser consultada em Green e Silverman (1985) [18], mostra que uma vez conhecidos os elementos h ii (λ) da diagonal principal da matriz de suavização, o escore da validação cruzada pode ser calculado a partir dos resíduos em torno da spline estimada com todas as n observações. Usando uma abordagem semelhante àquela dos resíduos deletados no contexto de regressão linear [6], obtém-se o resíduo deletado
25 Modelo Poisson-Gama Semi-Paramétrico 24 y i ĝ ( i) (k i ) = y i ĝ (k i ) 1 h ii (λ). (2-39) Uma extensão da validação cruzada é validação cruzada generalizada [7, 36, 18, 22, 23]. A idéia básica da validação cruzada generalizada é substituir o fator 1 h ii (λ) na equação 2-39 por 1 (1/n) trh (λ). Por analogia a 2-38, a função escore da validação cruzada é então obtida da forma V CG (λ) = 1 n i=1 y i ĝ (k i ) 2 n 1 (1/n) trh (λ) 2 (2-40) em que ĝ é a spline calculada a partir de todo o conjunto de dados (k i, y i ), onde i = 1,..., n, com parâmetro de suavização λ. A função V CG (λ) deve ser minimizada sobre os valores de λ. A validação cruzada e a validação cruzada generalizada podem ser facilmente estendidas para seleção do parâmetro de suavização λ em splines cúbicas ponderadas [7, 36, 18] Graus de liberdade do suavizador A quantidade de suavização de um estimador pode ser expressa em termos do número de parâmetros estimados ou graus de liberdade do suavizador. Esta quantidade tem sua motivação na regressão clássica e é referida como graus de liberdade equivalentes. Suponha-se que a curva g esteja sendo estimada por uma regressão paramétrica. Assumindo que os parâmetros sejam identificáveis com base nas obsevações, a matriz H é uma projeção sobre um espaço de dimensão k. Então, o número de parâmetros ajustados é k, assim como o traço de H é igual a k. Logo, o número de graus de liberdade do modelo é igual ao traço de H. O número de graus de liberdade dos resíduos é n k que é dado por tr (I H) [18, 23, 3]. Por analogia, os graus de liberdade equivalentes dos resíduos na regressão por spline são definidos por GLER = tri H (λ) (2-41) em que H (λ) é a matriz de suavização associada com o parâmetro de suavização λ. Os números de graus de liberdade equivalentes dos resíduos variam de 0 quando λ = 0, a curva g interpola todos os pontos e a matriz H (λ) é a identidade, até n 2 quando λ = e a curva g é a reta de regressão linear. O número de graus de liberdade equivalentes está associado com a
26 Modelo Poisson-Gama Semi-Paramétrico 25 relação viés variância do estimador da curva g. Da definição de validação cruzada generalizada, esta pode ser escrita em função do número de graus de liberdade equivalentes dos resíduos da forma V CG (λ) = n em que SQR é a soma de quadrados dos resíduos. SQR (GLER) 2 (2-42) A definição de graus de liberdade equivalentes é discutida mais profundamente em Buja, Hastie e Tibshirani (1989) [3] e Hastie e Tibshirani (1990) [23] Algoritmo de estimação com múltiplas covariáveis Modelos nos quais se tenta estabelecer a dependência de uma variável resposta Y com apenas uma covariável X não caracterizam uma ferramenta apropriada para a análise estatística de problemas complexos. Por analogia aos modelos de regressão linear clássica, na regressão não-paramétrica um modelo no qual Y depende de uma função de apenas uma covariável X pode ser escrito da forma Y = g (X) + ε (2-43) em que ε é um vetor de erros independentemente distribuídos. A estimação do modelo 2-43 foi discutida ao longo desta seção. Entretanto, este modelo não tem muita utilidade na prática. Admita-se, agora, que X é um vetor aleatório de dimensão p da forma X = (X 1,..., X p ). Suponha-se um modelo no qual a dependência da variável Y é expressa como uma combinação de funções dos componentes do vetor X. Então, um modelo com múltiplas covariáveis pode ser formulado de acordo com a seguinte equação Y = g 1 (X 1 ) + + g p (X p ) + ε (2-44) onde g j, com j = 1,..., p, são curvas suaves das covariáveis X j, respectivamente, e ε é um vetor de erros independentemente distribuídos. Na notação dos modelos lineares generalizados [28, 12, 23], o modelo 2-44 pode ser reescrito da seguinte forma E (Y X) = f (η)
27 Modelo Poisson-Gama Semi-Paramétrico 26 η = p g j (X j ) (2-45) j=1 tal que f ( ) é a inversa da função de ligação apropriada para a família de distribuição de Y, η é o preditor aditivo da função de regressão e, por simplificação e sem perda de generalidade, o intercepto é igual a 0. O problema agora consiste em estimar as funções g j dados os valores observados de X j. Note-se que para algum j, g j pode ser linear, isto é, da forma g j = β j X j e, neste caso, o modelo é dito semi-paramétrico. Como cada covariável no modelo aditivo é representada separadamente, a característica de interpretabilidade é herdada do modelo linear, isto é, a variabilidade de superfície estimada depende apenas da covariável X s quando todas as outras covariáveis X j s são fixadas. Devido a esta simplificação, os modelos aditivos são aproximações da verdadeira superfície de regressão por uma soma de funções individuais dos preditores. Entretanto, os modelos aditivos não lidam de forma trivial com interações entre os preditores [23, 14]. Os suavizadores multidimensionais de alta dimensão não funcionam adequadamente pois herdam a esparsividade das amostras de dimensão alta, a chamada maldição da dimensionalidade [14]. Uma discussão detalhada da abordagem dos suavizadores multidimensionais de baixa ordem, por exemplo, thin plate splines pode ser consultada em Wood (2003) [38], Wood(2000) [37], Wahba (2000) [36] e Green e Silverman (1994) [18]. Os modelos aditivos caracterizam uma abordagem para lidar com problemas de alta dimensão, decompondo-os em problemas de baixa dimensão, normalmente d = 1 [14, 22]. Considere-se estimar as funções g 1,..., g p do modelo aditivo O modelo pode ser estimado por meio do algoritmo backfitting, também conhecido como projection pursuit [22, 14, 12]. O algoritmo consiste em estimar uma função g s dadas as estimativas das funções g j s, com j = 1,..., p, num procedimento iterativo até que um critério de convergência seja satisfeito. Um exemplo de critério de convergência pode ser dado pela diferença entre a soma de quadrados dos resíduos entre duas iterações consecutivas comparado com um valor fixo tão pequeno quanto se deseje. No algoritmo 2.1, m é o contador de iterações, R s é o resíduo parcial do modelo aditivo com todas as curvas g j s, h s ( ) é uma função suavizadora arbitrária aplicada à covariável X s e SQR é a soma de quadrados dos resíduos. A regressão por projection pursuit é uma forma direta de atacar o
28 Modelo Poisson-Gama Semi-Paramétrico 27 Algoritmo 2.1 O algoritmo backfitting 1. Inicia-se g (0) 1 = = g (0) p = 0 e m = 0 2. Itera-se: m = m + 1 Para j = 1 até p faz-se: 3. Estima-se s 1 R s = Y g (m) j (X j ) j=1 p j=s+1 g (m) s = h s (R s X s ) g (m 1) j (X j ) 4. Até que SQR = Y p j=1 j (X j ) ɛ g (m) problema da dimensionalidade. Considere-se o modelo Y = K h k (α kx) + ε (2-46) k=1 no qual α k X denota uma projeção unidimensional do vetor X, h k é uma função univariada arbitrária da projeção e os erros são independentes de X com média zero e variância σ 2. O algoritmo constrói a superfície de regressão escolhendo as projeções definidas pelo vetor α k. As direções α k e o número de termos K, em 2-46, são escolhidos de forma a oferecer o melhor ajuste aos dados. O algoritmo backfitting é um algoritmo Gauss- Seidel para solução de sistemas de equações [5]. Se os suavizadores h ( ) são operadores de projeção, a convergência do algorimo é garantida. Alguns suavizadores como as splines embora não sejam operadores de projeção, possuem as propriedades requeridas para a convergência [23]. O modelo 2-46 procura explicar a variabilidade da variável resposta não por uma seqüência suavizada, mas por uma soma de suavizações de várias seqüências da variável resposta induzida por várias combinações lineares do preditor [14]. Nos modelos de regressão linear múltipla, a interpretação dos coeficientes pode ser seriamente comprometida se existe colinearidade entre as covariáveis. Um fenômeno análogo pode ocorrer nos modelos não-paramétricos
29 Modelo Poisson-Gama Semi-Paramétrico 28 chamado concurvidade 2. Seus efeitos na interpretação das curvas individuais nos modelos aditivos ainda não são bem conhecidos [22]. 2 do termo em inglês concurvity.
30 3 Modelo Poisson-gama semi-paramétrico 3.1 Especificação teórica Considere-se estender o modelo Poisson-gama descrito no capítulo anterior para uma especificação semi-paramétrica. Nesta especificação, o preditor linear em 2-12 é substituído por preditor híbrido paramétrico e suavizado que é combinado de forma multiplicativa com o nível do modelo sem variável explicativa. Seja o vetor X t particionado da forma X = (X p t, Xt s ), tal que X p sejam as covariáveis que compõem a partição paramétrica do preditor e X s são as covariáveis que compõem a partição não-paramétrica do preditor do modelo. Sem perda de generalidade, de forma equivalente a equação 2-11, a distribuição de y t condicional em µ t é Poisson com média dada por µ t = µ t exp ( η t + + ηt + offset) (3-1) p η t + = β j X p j (3-2) η t = j=1 s g k (Xk s ) (3-3) k=1 em que µ t é o nível da série temporal y, η t + é a partição paramétrica do preditor e ηt é a partição não-paramétrica do preditor do modelo. Por simplificação da notação, as partições paramétrica e não-paramétrica do preditor serão referidas como preditor paramétrico e preditor não-paramétrico, respectivamente. É importante notar que η+ t é uma particularização de ηt na qual as funções g ( ) são lineares. O modelo 3-1 tem p + s variáveis explicativas. O termo offset tem a mesma função que o offset dos modelos lineares generalizados, isto é, representa uma covariável ou uma função de covariáveis com coeficiente linear igual a 1. Hastie e Tibshirani (1986 e 1990) [22, 23] discutem detalhadamente
31 Modelo Poisson-Gama Semi-Paramétrico 30 um número de opções para as funções suavizadoras g ( ). Entretanto, devido às boas propriedades matemáticas abordadas no capítulo anterior, apenas as splines cúbicas naturais são utilizadas na classe de modelos Poisson-gama semi-paramétricos considerada aqui. Porém, é facultativa a implementação de outros suavizadores nesta especificação de modelo semi-paramétrico. Tal como no modelo Poisson-gama paramétrico, a distribuição de µ t 1 condicionada em Y t 1 é gama. A distribuição de µ t condicionada em Y t 1 também é gama, com parâmetros a t t 1 e b t t 1. Então, as equações 2-13 e 2-14 de previsão do filtro Poisson-gama para o modelo com variáveis explicativas podem ser reescritas para o modelo semi-paramétrico como a t t 1 = ωa t 1 (3-4) b t t 1 = ωb t 1 exp ( ) η t + ηt (3-5) e as equações 2-15 e 2-16 de atualização do filtro para o modelo com variáveis explicativas com ajuste semi-paramétrico são a t = ωa t 1 + y t (3-6) b t = ωb t 1 + exp ( ) η t + + ηt (3-7) com t = τ + 1,..., n, em que τ é o índice da primeira observação não nula de y. A média e variância da distribuição preditiva do modelo com preditor híbrido permanecem as mesmas que em 2-9 e 2-10 respectivamente. Os parâmetros da distribuição do nível do modelo semi-paramétrico condicionada em Y t 1 agora são calculadas de acordo com 3-4 e 3-5. Os hiperparâmetros ω e β j são estimados por máxima verossimilhança, tal como na especificação paramétrica do modelo Poisson-gama, dada pela equação 2-8. As funções suaves g k (Xk s ) são estimadas pelo algoritmo backfitting abordado no capítulo anterior. A idéia básica da estimação do Poisson-gama semi-paramétrico consiste em estimar a parte paramétrica do modelo, que depende apenas de X p, por máxima verossimilhança. Dado o preditor linear, calcula-se um resíduo parcial devido ao ajuste paramétrico. Então, este resíduo parcial é usado como variável resposta para o ajuste não-paramétrico pelo algoritmo backfitting. O preditor não-paramétrico calculado pelo backfitting é agora introduzido na estimação paramétrica como um termo constante, parte do offset. Este processo é iterado até que a seqüência de valores da verossimilhança, L (ω, β j ) i, convirja para algum critério de parada do algoritmo.
32 Modelo Poisson-Gama Semi-Paramétrico 31 Inicialmente, é necessário definir uma forma de resíduo parcial devido ao ajuste da partição paramétrica do modelo. A dificuldade reside no fato de o preditor linear e o preditor não paramétrico não se combinarem diretamente com a equação de previsão do modelo, e sim por meio de um filtro iterativo. Ainda, devido a função de ligação exponencial, o nível da série e os preditores do modelo se relacionam em escalas diferentes. A fim de construir uma proposta de resíduo parcial na mesma escala do preditor não-paramétrico, considere-se que a equação 3-1 pode ser reescrita como µ t = µ t exp ( η t + + offset ) exp (ηt ). (3-8) Usando 2-11 e incluindo, sem prejuízo, o termo de offset na partição paramétrica do modelo, a seguinte forma também é equivalente µ t = µ + t exp (η t ) (3-9) em que µ + t é o nível do modelo Poisson-gama paramétrico. Considere-se o logaritmo da equação 3-9. O preditor não-paramétrico η t se combina de forma aditiva com o logaritmo do nível devido a partição paramétrica para formar o logaritmo do nível do modelo semi-paramétrico. Assim, pode ser escrita a seguinte expressão log µ t log µ + t = η t. (3-10) Então, é razoável definir o resíduo parcial devido ao ajuste paramétrico da forma rp t = log y t log ŷ + t t 1 (3-11) em que ŷ + t t 1 é o valor previsto pelo modelo considerando apenas a partição paramétrica do preditor, estimado de acordo com a equação 2-9. O processo de estimação do Poisson-gama semi-paramétrico pode ser sistematizado no algoritmo 3.1. Uma dificuldade dos modelos Poisson-gama semi-paramétricos é a falta de uma forma explícita para a associação das variáveis explicativas X s, no preditor não-paramétrico ηt, com a variável resposta Y. Tal limitação é inerente aos modelos Poisson-gama.
33 Modelo Poisson-Gama Semi-Paramétrico 32 Algoritmo 3.1 Estimação do Poisson-gama semi-paramétrico com backfitting 1. Ajusta-se um modelo Poisson-gama à partição paramétrica das covariáveis X p, obtendo-se as estimativas de máxima verossimilhança iniciais dos hiperparâmetros ω e β j. 2. Dado o preditor linear η + t + offset, calcula-se a previsão ŷ t t 1 devida à partição paramétrica do modelo. 3. Calcula-se o resíduo do ajuste paramétrico definido em 3-11, rp t = log y t log ŷ + t t 1 4. Estima-se a superfície de regressão não-paramétrica das covariáveis X s sobre o resíduo parcial rp via o algoritmo backfitting. Obtendo-se as funções g k (X s k ). 5. Dado o preditor não-paramétrico η t, faz-se offset = offset + η t 6. Reestima-se o modelo paramétrico usando os hiperparâmetros estimados ω e β j como valores iniciais e o novo offset. 7. Repete-se o processo a partir do item 2 até a convergência da seqüência L (ω, β j ) i. 3.2 Inferência no modelo semi-paramétrico Na maioria das aplicações, deseja-se avaliar a qualidade estatística do modelo estimado. Entretanto, não está completamente desenvolvida uma teoria distribucional exata dos estimadores para os modelos semiparamétricos. Alguma teoria assintótica está restrita à partição paramétrica do modelo. Assim, os procedimentos heurísticos propostos para inferência sobre σ 2 e para os efeitos dos preditores são derivados da regressão linear. É importante notar que na falta de uma teoria distribucional apropriada, estes procedimentos devem ser usados com cautela em testes de significância formais. Entretanto, oferecem uma orientação adequada para a seleção de modelos. Considere-se que a soma de funções das covariáveis no preditor nãoparamétrico incorporam uma estrutura paramétrica do modelo Poissongama usual, o offset. Então, as técnicas de diagnósticos dos modelos lineares generalizados podem ser utilizadas no Poisson-gama não-paramétrico tal
Ralph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:
Leia maisAula 2 Uma breve revisão sobre modelos lineares
Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar
Leia maisCE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42
CE062c - GAMLSS Silva, J.P; Taconeli, C.A. 09 de outubro, 2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42 Por que GAMLSS? Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro,
Leia maisDisciplina de Modelos Lineares Professora Ariane Ferreira
Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável
Leia maisMODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS
MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS 1 Diversas distribuições podem ser consideradas para a modelagem de dados positivos com distribuição contínua e assimétrica, como, por exemplo, as
Leia maisA análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).
3 Séries temporais A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3.1. Princípios fundamentais Conforme Box et al. (1994), uma
Leia mais3 Modelos e metodologias comparadas
3 Modelos e metodologias comparadas Este capítulo tem o propósito de listar algumas das alternativas existentes na literatura que envolve classificação, e serão utilizadas neste trabalho sendo comparadas
Leia maisCONHECIMENTOS ESPECÍFICOS
fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de
Leia mais4 Modelos Lineares Generalizados
4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da
Leia maisAnálise de Dados Longitudinais Aula
1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva
Leia maisREGRESSÃO E CORRELAÇÃO
REGRESSÃO E CORRELAÇÃO A interpretação moderna da regressão A análise de regressão diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis explanatórias,
Leia maisAnálise de Dados Categóricos
1/43 Análise de Dados Categóricos Modelo de Regressão de Poisson Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Departamento de Estatística Universidade Federal de Minas Gerais 2/43 Revisão:
Leia mais4 Modelos de Regressão Dinâmica
4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:
Leia maisTécnicas computacionais em probabilidade e estatística II
Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.
Leia maisModelo de Regressão Múltipla
Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão
Leia maisCC-226 Aula 07 - Estimação de Parâmetros
CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições
Leia maisétodos uméricos INTERPOLAÇÃO, EXTRAPOLAÇÃO, APROXIMAÇÃO E AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno
étodos uméricos INTERPOLAÇÃO, EXTRAPOLAÇÃO, APROXIMAÇÃO E AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA
Leia maisESTATÍSTICA COMPUTACIONAL
ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Introdução Solução de equações não lineares
Leia maisRedes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions
Redes RBF: Função de Base Radial Redes Neurais A Rede RBF O LP é baseado em unidades que calculam uma função não-linear do produto escalar do vetor de entrada e um vetor de peso. A rede RBF pertence a
Leia maisCálculo Numérico BCC760
Cálculo Numérico BCC760 Resolução de Sistemas de Equações Lineares Simultâneas Departamento de Computação Página da disciplina http://www.decom.ufop.br/bcc760/ 1 Introdução! Definição Uma equação é dita
Leia maisAGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares
1 / 0 AGA 0505- Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares Laerte Sodré Jr. 1o. semestre, 018 modelos modelagem dos dados dado um conjunto de dados,
Leia maisEconometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.
3. Ajuste do Modelo 4. Modelo Restrito Resíduos Resíduos 1 M = I- X(X X) -1 X Hipóteses do modelo Linearidade significa ser linear nos parâmetros. Identificação: Só existe um único conjunto de parâmetros
Leia maisAnálise de Regressão Linear Simples e
Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável
Leia maisRESOLUÇÃO Nº 01/2016
Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista
Leia mais2 Modelos Não Lineares
Modelos Não Lineares 17 2 Modelos Não Lineares 2.1. Introdução Nos últimos anos, muitos modelos não-lineares para a análise de séries temporais têm sido propostos. Na econometria clássica, os modelos de
Leia maisModelos Lineares Generalizados - Verificação do Ajuste do Modelo
1 Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 9 de Abril de 2015 2 3 Função Deviance Podemos ver o ajuste de um modelo a um conjunto de dados como: uma forma
Leia maisINSTITUTO SUPERIOR TÉCNICO Mestrado Integrado em Engenharia Física Tecnológica Ano Lectivo: 2007/2008 Semestre: 1 o
INSTITUTO SUPERIOR TÉCNICO Mestrado Integrado em Engenharia Física Tecnológica Ano Lectivo: 27/28 Semestre: o MATEMÁTICA COMPUTACIONAL Exercícios [4 Sendo A M n (C) mostre que: (a) n A 2 A n A 2 ; (b)
Leia maisSéries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12
em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 12 Regressão com Variáveis Não-Estacionárias Considere três processos estocásticos definidos pelas seguintes
Leia maisMAP Segundo exercício programa Splines cúbicos
MAP-2121 - Segundo exercício programa - 26 Splines Cúbicos Instruções gerais - Os exercícios computacionais pedidos na disciplina Cálculo Numérico têm por objetivo fundamental familiarizar o aluno com
Leia mais5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000)
5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) A primeira parte deste capítulo, referente à passagem dos modelos estocásticos para as equações do Filtro de Kalman, já foi previamente
Leia maisModelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados
Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um
Leia maisProf. MSc. David Roza José 1/26
1/26 Mínimos Quadrados Geral e Regressão Não Linear Objetivos: Implementar a regressão polinomial; Implementar regressão múltipla linear; Entender a formulação do modelo linear geral de mínimos quadrados;
Leia maisAULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012
1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à
Leia maisFundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual
Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise
Leia mais3 Especificação Estatística da Dispersão dos Modos de Polarização em Cabos de Fibra Óptica
em Enlaces Ópticos 0 3 Especificação Estatística da Dispersão dos Modos de Polarização em Cabos de Fibra Óptica Teoria básica da especificação estatística da dispersão dos modos de polarização em cabos
Leia maisMétodos Numéricos Interpolação / Aproximação. Renato S. Silva, Regina C. Almeida
Métodos Numéricos Interpolação / Aproximação Renato S. Silva, Regina C. Almeida Interpolação / Aproximação situação: uma fábrica despeja dejetos no leito de um rio; objetivo: determinar a quantidade de
Leia maisEstudo de Periodicidade dos Dados de Poluição Atmosférica na Estimação de Efeitos na Saúde no Município do Rio de Janeiro
Carla Fernandes de Mello Estudo de Periodicidade dos Dados de Poluição Atmosférica na Estimação de Efeitos na Saúde no Município do Rio de Janeiro Dissertação de Mestrado Dissertação apresentada como requisito
Leia maisModelos Lineares Generalizados
Modelos Lineares Generalizados Emilly Malveira de Lima Análise de Dados Categóricos Universidade Federal de Minas Gerais - UFMG 10 de Maio de 2018 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 1 / 20
Leia maisDisciplina de Modelos Lineares
Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique
Leia maisEsse material foi extraído de Barbetta (2007 cap 13)
Esse material foi extraído de Barbetta (2007 cap 13) - Predizer valores de uma variável dependente (Y) em função de uma variável independente (X). - Conhecer o quanto variações de X podem afetar Y. Exemplos
Leia maisA Importância da Estatística na Pesquisa Científica e na Tomada de Decisão
A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística
Leia maisInferência Estatistica
Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisTransformações e Ponderação para corrigir violações do modelo
Transformações e Ponderação para corrigir violações do modelo Diagnóstico na análise de regressão Relembrando suposições Os erros do modelo tem média zero e variância constante. Os erros do modelo tem
Leia maisCONHECIMENTOS ESPECÍFICOS
CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões
Leia maisAnálise de Regressão EST036
Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem
Leia maisEstimadores, pontual e intervalar, para dados com censuras intervalar
Estimadores, pontual e intervalar, para dados com censuras intervalar Débora Ohara, Estela Maris Pereira Bereta, Teresa Cristina Martins Dias Resumo Dados com censura intervalar ocorrem com frequência
Leia maisCE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística
CE085 - Estatística Inferencial Função de Verossimilhança e suas derivadas Prof. Wagner Hugo Bonat Laboratório de Estatística e Geoinformação - LEG Curso de Bacharelado em Estatatística Universidade Federal
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisPUC-GOIÁS - Departamento de Computação
PUC-GOIÁS - Departamento de Computação Fundamentos IV/Enfase Clarimar J. Coelho Goiânia, 28/05/2014 O que é interpolação polinomial? Ideia básica Permite construir um novo conjunto de dados a partir de
Leia maisSéries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9
em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review
Leia maisModelagem Computacional. Parte 8 2
Mestrado em Modelagem e Otimização - RC/UFG Modelagem Computacional Parte 8 2 Prof. Thiago Alves de Queiroz 2/2016 2 [Cap. 10 e 11] BURDEN, R. L.; FAIRES, J. D. Numerical Analysis (9th ed). Cengage Learning,
Leia maisRESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO
RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO Regressão simples: desvantagem de apenas uma variável independente explicando y mantendo ceteris paribus as demais (ou
Leia maisCoeficiente de determinação R 2 no modelo de regressão linear normal
Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br
Leia mais6 MÉTODO DE ELEMENTOS FINITOS - MEF
6 MÉTODO DE ELEMENTOS FINITOS - MEF O Método de Elementos Finitos é uma técnica de discretização de um problema descrito na Formulação Fraca, na qual o domínio é aproximado por um conjunto de subdomínios
Leia maisFAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES
FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a
Leia maisREGRESSÃO LINEAR Parte I. Flávia F. Feitosa
REGRESSÃO LINEAR Parte I Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015 Onde Estamos Para onde vamos Inferência Esta5s6ca se resumindo a uma equação
Leia maisPROVAS Ciência da Computação. 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta)
PROVAS Ciência da Computação 2 a Prova: 13/02/2014 (Quinta) Reavaliação: 20/02/2014 (Quinta) Ajuste de Curvas Objetivo Ajustar curvas pelo método dos mínimos quadrados 1 - INTRODUÇÃO Em geral, experimentos
Leia maisp( y θ ) depende de um parâmetro desconhecido θ.
55Modelação, Identificação e Controlo Digital 55 Método de Máxima Verosimilhança (Maximum Likelihood) Seja y uma variável aleatória (v. a.) cuja densidade de probabilidade p( y θ ) depende de um parâmetro
Leia mais2 Modelos em Espaço de Estado Lineares: Formulação Geral
2 Modelos em Espaço de Estado Lineares: Formulação Geral 2.1 Definição Geral de um Modelo Linear Apresenta-se uma definição de modelos em EE lineares que seja a mais geral e flexível possível, e que segue
Leia maisCaros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.
Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. De forma geral, a prova manteve o padrão das questões da
Leia maisAULA 8 - MQO em regressão múltipla:
AULA 8 - MQO em regressão múltipla: Definição, Estimação e Propriedades Algébricas Susan Schommer Econometria I - IE/UFRJ Regressão Múltipla: Definição e Derivação A partir de agora vamos alterar o nosso
Leia maisAjuste de dados por mínimos quadrados
Cálculo Numérico por mínimos quadrados Prof. Daniel G. Alfaro Vigo dgalfaro@dcc.ufrj.br Departamento de Ciência da Computação IM UFRJ Motivação: População do Brasil Ano População (milhões) 1960 70, 992343
Leia mais2 FUNDAMENTACÃO TEÓRICA
2 FUNDAMENTACÃO TEÓRICA Este capítulo apresenta os modelos de séries temporais chamados estruturais, nos quais o valor das observações é visto como composto de uma parte sistemática, modelada por uma equação
Leia mais6 Ajuste de mínimos quadrados
6 Ajuste de mínimos quadrados polinomial No capítulo anterior estudamos como encontrar um polinômio de grau m que interpola um conjunto de n pontos {{x i, f i }} n Tipicamente quando m < n esse polinômio
Leia maisModelos de Regressão Linear Simples - Análise de Resíduos
Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 1 de Setembro de 2014 3 O modelo de regressão linear é dado por Y i = β 0 + β 1 x i + ɛ i onde ɛ i iid N(0,σ 2 ). O erro
Leia maisExperimentos de Previsão da Estrutura a Termo da Taxa de Juros Americana: Reversão à Media, Inércia e Influência de Variáveis Macroeconômicas
João Marco Braga da Cunha Experimentos de Previsão da Estrutura a Termo da Taxa de Juros Americana: Reversão à Media, Inércia e Influência de Variáveis Macroeconômicas Dissertação de Mestrado Dissertação
Leia maisModelos de regressão para dados correlacionados. Cibele Russo
Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo
Leia maisCurvas e Superfícies. 35M34 Sala 3E1 Bruno Motta de Carvalho DIMAp Sala 15 Ramal 227 DIM102
Curvas e Superfícies 35M34 Sala 3E1 Bruno Motta de Carvalho DIMAp Sala 15 Ramal 227 1 Introdução A modelagem e desenho de curvas suaves são necessárias em várias aplicações de computação gráfica, seja
Leia maisMulticolinariedade e Autocorrelação
Multicolinariedade e Autocorrelação Introdução Em regressão múltipla, se não existe relação linear entre as variáveis preditoras, as variáveis são ortogonais. Na maioria das aplicações os regressores não
Leia maisTópicos de Estatística Espacial Geoestatística
Tópicos de Estatística Espacial Geoestatística Anderson Castro Soares de Oliveira Geoestatística A geoestatística é uma análise espacial que considera que a variável em estudo se distribui continuamente
Leia maisA Metodologia de Box & Jenkins
A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de
Leia maisAULA 11 Heteroscedasticidade
1 AULA 11 Heteroscedasticidade Ernesto F. L. Amaral 30 de julho de 2012 Análise de Regressão Linear (MQ 2012) www.ernestoamaral.com/mq12reg.html Fonte: Wooldridge, Jeffrey M. Introdução à econometria:
Leia maisCCI-22 FORMALIZAÇÃO CCI-22 MODOS DE SE OBTER P N (X) Prof. Paulo André CCI - 22 MATEMÁTICA COMPUTACIONAL INTERPOLAÇÃO
CCI - MATEMÁTICA COMPUTACIONAL INTERPOLAÇÃO Prof. Paulo André ttp://www.comp.ita.br/~pauloac pauloac@ita.br Sala 0 Prédio da Computação -Gregory DEFINIÇÃO Em matemática computacional, interpolar significa
Leia maisAULAS 25 E 26 Heteroscedasticidade
1 AULAS 25 E 26 Heteroscedasticidade Ernesto F. L. Amaral 10 e 15 de junho de 2010 Métodos Quantitativos de Avaliação de Políticas Públicas (DCP 030D) Fonte: Wooldridge, Jeffrey M. Introdução à econometria:
Leia maisINFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE
INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE A análise de deviance é uma generalização, para modelos lineares generalizados, da análise de variância. No caso de modelos lineares, utiliza-se
Leia maisCÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano
CÁLCULO NUMÉRICO Profa. Dra. Yara de Souza Tadano yaratadano@utfpr.edu.br Aula 4 Ajuste de Curvas AJUSTE DE CURVAS Cálculo Numérico 3/55 Introdução Em geral, experimentos geram uma gama de dados que devem
Leia maisModelos Lineares Generalizados - Componentes do Modelo
Modelos Lineares Generalizados - Componentes do Modelo Erica Castilho Rodrigues 01 de Abril de 2014 3 Vejamos agora quais as componentes de um Modelo Linear Generalizado. Temos um conjunto de variáveis
Leia maisAnálise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra
Análise da Regressão múltipla: MQO Assintótico Capítulo 5 do Wooldridge Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades
Leia maisNotas de Aula de Cálculo Numérico
IM-Universidade Federal do Rio de Janeiro Departamento de Ciência da Computação Notas de Aula de Cálculo Numérico Lista de Exercícios Prof. a Angela Gonçalves 3 1. Erros 1) Converta os seguintes números
Leia maisPlanejamento de Experimentos
Planejamento de Experimentos 1 6.4 Os Modelos fatoriais 2 k : o caso geral. O modelo estatístico para um plano 2 k inclui k ( k 2 ( k ) ) efeitos principais efeitos de interação de ordem 2 efeitos de interação
Leia maisEconometria para Avaliação de Políticas Públicas
Aula 2: O Método de Diferenças em Diferenças Itaú Social 11/01/2016 Método extremamente popular nos últimos quinze anos. Exemplos de aplicação são os mais diversos: avaliação de programas de treinamento,
Leia maisLISTA DE EXERCÍCIOS - AJUSTE DE MÍNIMOS QUADRADOS Cálculo Numérico para Geociências Prof. Eduardo Colli
LISA DE EXERCÍCIOS - AJUSE DE MÍNIMOS QUADRADOS Cálculo Numérico para Geociências - 009 - Prof. Eduardo Colli Em todos os casos, convencionamos ter um conjunto de dados (, ), com i = 1,..., N. Faça o gráfico
Leia maisRegressão Local (LOESS)
Regressão Local (LOESS) Wagner Hugo Bonat 14 de novembro de 2007 1 Regressão Local Regressão Local (Loess) é um método não paramétrico que estima curvas e superfícies através de suavização (smoothing).
Leia maisMétodo do Lagrangiano aumentado
Método do Lagrangiano aumentado Marina Andretta ICMC-USP 23 de novembro de 2010 Marina Andretta (ICMC-USP) sme0212 - Otimização não-linear 23 de novembro de 2010 1 / 17 Problema com restrições gerais Vamos
Leia maisAjuste de mínimos quadrados
Capítulo 5 Ajuste de mínimos quadrados 5 Ajuste de mínimos quadrados polinomial No capítulo anterior estudamos como encontrar um polinômio de grau m que interpola um conjunto de n pontos {{x i, f i }}
Leia maisEconometria IV Modelos Lineares de Séries Temporais. Fernando Chague
Econometria IV Modelos Lineares de Séries Temporais Fernando Chague 2016 Estacionariedade Estacionariedade Inferência estatística em séries temporais requer alguma forma de estacionariedade dos dados Intuição:
Leia maisEconometria em Finanças e Atuária
Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente
Leia maisModelos de Regressão Linear Simples - Análise de Resíduos
1 Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 27 de Setembro de 2016 2 3 O modelo de regressão linear é dado por 3 O modelo de regressão linear é dado por Y i = β
Leia maisMétodos Quantitativos para Avaliação de Políticas Públicas
ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26
Leia maisGibbs Sampler para ANOVA e Misturas
Gibbs Sampler para ANOVA e Misturas Renato Assunção - DCC, UFMG Outubro de 014 1 Modelo ANOVA: componentes de variância Suponha que temos K grupos ou classes. Em cada grupo, temos um certo número de dados
Leia maisCapítulo 9 - Regressão Linear Simples (RLS): Notas breves
Capítulo 9 - Regressão Linear Simples RLS: Notas breves Regressão Linear Simples Estrutura formal do modelo de Regressão Linear Simples RLS: Y i = β 0 + β 1 x i + ε i, 1 onde Y i : variável resposta ou
Leia maisKatia Lorena Sáez Carrillo. Modelos de Espaço de Estados Gama-Gama: Aplicação a uma série de chuva TESE DE DOUTORADO
Katia Lorena Sáez Carrillo Modelos de Espaço de Estados Gama-Gama: Aplicação a uma série de chuva TESE DE DOUTORADO DEPARTAMENTO DE ENGENHARIA ELÉTRICA Programa de Pós-Graduação em Engenharia Mecânica
Leia maisétodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO
Leia maisAnálise de regressão linear simples. Diagrama de dispersão
Introdução Análise de regressão linear simples Departamento de Matemática Escola Superior de Tecnologia de Viseu A análise de regressão estuda o relacionamento entre uma variável chamada a variável dependente
Leia mais7 Conclusões e desenvolvimentos futuros
7 Conclusões e desenvolvimentos futuros 7.1 Conclusões Este trabalho apresentou novas soluções para a determinação da posição de terminais de comunicações móveis com base em medidas de ToA. Nos métodos
Leia maisétodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO
Leia maisAULA 1 - Modelos determinísticos vs Probabiĺısticos
AULA 1 - Modelos determinísticos vs Probabiĺısticos Susan Schommer Econometria I - IE/UFRJ O que é Econometria? Aplicação de métodos estatísticos e matemáticos para analisar os dados econômicos, com o
Leia mais