Estrutura de covariância espacial multivariada não separável

Transcrição

1 Estrutura de covariância espacial multivariada não separável Rafael Santos Erbisti Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2015

2 Estrutura de covariância espacial multivariada não separável Rafael Santos Erbisti Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obtenção do título de Mestre em Estatística. Aprovada por: Thaís Cristina Oliveira da Fonseca DME/IM - UFRJ - Orientadora. Mariane Branco Alves DME/IM - UFRJ - Coorientadora. Alexandra Mello Schmidt DME/IM - UFRJ. Juliano Junqueira Assunção Dpto. Economia - PUC Rio. Rio de Janeiro, RJ - Brasil 2015 ii

3 CIP - Catalogação na Publicação E65e Erbisti, Rafael Santos Estrutura de covariância espacial multivariada não separável / Rafael Santos Erbisti. -- Rio de Janeiro, f. Orientadora: Thaís Cristina Oliveira da Fonseca. Coorientadora: Mariane Branco Alves. Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, Instituto de Matemática, Programa de Pós-Graduação em Estatística, geoestatística. 2. funções de covariância cruzada. 3. funções de covariância espacial multivariada não separáveis. 4. dimensões latentes. 5. inferência bayesiana. I. Fonseca, Thaís Cristina Oliveira da, orient. II. Alves, Mariane Branco, coorient. III. Título. Elaborado pelo Sistema de Geração Automática da UFRJ com os dados fornecidos pelo(a) autor(a). iii

4 Aos meus pais, pela educação, exemplo e incentivo que sempre deram. iv

5 Agradecimentos A todos que contribuíram para a realização deste trabalho, fica expresso aqui minha gratidão, especialmente: As minhas orientadoras, Thais Fonseca e Mariane Alves, pela disponibilidade e dedicação. Agradeço por poder trabalhar com tão excelentes profissionais. O conhecimento e experiência transmitidos por vocês foram essenciais para meu desenvolvimento. Aos meus pais, Renzo Erbisti e Bellanir Erbisti, por sempre acreditarem e me apoiarem em todos os momentos. Sem vocês nada disso seria possível. A minha irmã, Juliana Erbisti, pelo companheirismo e amizade de toda a vida. A Paloma Rocha, por me apoiar em todos os momentos, me ajudando no que fosse preciso, sempre com muito amor, carinho e paciência. Agradeço aos amigos Caroline Ponce, Juliana Freitas e Luiz Fernando Costa, que me acompanharam durante esses dois anos de mestrado. Dividimos experiências, preocupações e madrugas em claro, mas também dividimos alegrias, muitas risadas e bons momentos, principalmente às terças-feiras, quando, depois de horas de estudo, pedíamos pizza para aliviar o estresse. A Paulo Tafner e Carolina Botelho, por todo apoio e colaboração. A professora Alexandra Schmidt, pelo apoio e incentivo que recebi desde a conversa que tivemos ao final do processo seletivo do mestrado. Agradeço a todos os professores do programa de pós-graduação em Estatística da UFRJ que, de alguma forma, contribuíram para a minha formação. v

6 Resumo A aplicação de modelos espaciais tem crescido substancialmente em diversas áreas, como, por exemplo, nas ciências ambientais, ciências climáticas e agricultura. O objetivo deste trabalho é introduzir uma nova classe de funções de covariância não separável para dados espaciais multivariados. Com isso, precisamos especificar uma função de covariância cruzada válida, que define a dependência entre componentes do vetor resposta entre as localizações. Entretanto, sabemos que funções de covariância cruzada não são simples de serem especificadas. A função de covariância não separável proposta é baseada na combinação convexa de funções de covariância separáveis e em dimensões latentes que representam as componentes. A partir de algumas proposições foi observado que a estrutura de covariância encontrada é válida e flexível. Além disso, utilizamos aproximações de matrizes de covariância cheia a partir do produto de Kronecker de duas matrizes separáveis de menor dimensão. Essas aproximações foram aplicadas apenas na função de verossimilhança para que a interpretação do modelo não fosse desconsiderada. Analisamos o caso mais simples do modelo proposto e encontramos resultados bastante satisfatórios. Vimos também que há a necessidade de estudar outras especificações da função proposta. Palavras-Chaves: geoestatística, modelos espaciais multivariados, funções de covariância cruzada, funções de covariância espacial multivariada não separáveis, dimensões latentes, inferência bayesiana. vi

7 Abstract Spatial models have been increasingly applied in several areas, such as environmental science, climate science and agriculture. This work aimed to introduce a new class of nonseparable covariance functions for multivariate spatial data. Therefore, we have to specify a valid cross-covariance function, which defines the dependency of the response vector components between the locations. However, we know that cross-covariance functions are not easily specified. In this work, we propose a nonseparable covariance function that is based on the convex combination of separable covariance functions and on the latent dimensions that represent the components. Based on some propositions, it was observed that this covariance structure is valid and flexible. Moreover, we use approximations of full-covariance matrices from the Kronecker product of two separable matrices of minor dimensions. These approximations have been applied only to the likelihood function in order to not disregard the interpretation of the model. We analyzed the simplest case of the proposed model and satisfactory results were obtained. Furthermore, we observed that it is necessary to study other specifications of the proposed function. Keywords: geostatistics, multivariate spatial models, cross covariance functions, nonseparable multivariate spatial covariance, functions, latent dimensions, bayesian inference. vii

8 Sumário 1 Introdução 1 2 Modelos para análise geoestatística Introdução Modelo univariado Modelo multivariado Modelos separáveis Limitações dos modelos separáveis Algumas propostas de modelos multivariados Modelo proposto Introdução Representação por mistura Introdução Representação por mistura proposta Estrutura de covariância não separável Função proposta Reparametrização Alguns modelos Conclusões Procedimento de inferência Introdução viii

9 4.2 Inferência Bayesiana Especificações Previsão Aproximações separáveis Introdução Solução do problema PPKCC Erro de aproximação Comportamento do erro de aproximação Utilizando a aproximação separável Exemplos simulados Introdução Simulação Simulação Comentários Conclusões e trabalhos futuros 49 ix

10 Lista de Tabelas 5.1 Resumo das distribuições a posteriori de cada modelo Resumo da distribuição a posteriori x

11 Lista de Figuras 5.1 Erro de Aproximação por Separabilidade variando o valor do parâmetro de separabilidade α 0. Linha vermelha avalia o erro utilizando duas componentes (p = 2) e a linha preta com três componentes (p = 3). (a) Mesmos alcances espaciais. (b) Alcances espaciais diferentes para cada componente Resumo das observações simuladas: (a) localizações. (b) matriz de covariância. (c) histograma da componente 1. (d) histograma da componente Curvas de contorno da função de verossimilhança. (1) curvas em preto: estrutura de covariância não separável. (2) curvas em vermelho: estrutura de covariância aproximada Curvas a posteriori e curva a priori. (1) curva vermelha: posteriori estrutura aproximada. (2) curva preta: posteriori estrutura não separável. (3) curva azul tracejada: priori Previsões e erro quadrático médio (EQM). (1) pontos vermelhos: valores observados. (2) pontos pretos: valores preditos Cadeias da distribuição a posteriori. (1) linha azul: valor verdadeiro Histograma da distribuição a posteriori. (1) linha vermelha: verdadeiro valor Funções de covariância: mediana a posteriori (linha azul cheia), intervalo de credibilidade de 95% (linha azul tracejada), função do modelo original (linha verde cheia) Cadeias da distribuição a posteriori. (1) linha azul: valor verdadeiro xi

12 6.5 Funções de covariância: mediana a posteriori (linha azul cheia), intervalo de credibilidade de 95% (linha azul tracejada), função do modelo original (linha verde cheia) xii

13 Capítulo 1 Introdução A estatística espacial é a área da estatística que estuda métodos para a coleta, descrição, visualização, modelagem e análise de dados que possuem coordenadas geográficas, ou seja, é a área na qual se considera a importância do arranjo espacial na análise ou interpretação dos resultados. De fato, na avaliação de certos tipos de fenômenos a utilização da dimensão espacial pode trazer resultados mais realistas do que quando a ignoramos. Por exemplo, ao tratarmos dados sobre preços de imóveis na cidade do Rio de Janeiro fica clara a importância de considerar informações sobre localizações geográficas na modelagem, já que muitos fatores espaciais podem influenciar o preço de um imóvel, tais como proximidade de regiões de favela, tipos de transportes públicos no entorno etc. Os diferentes tipos de dados espaciais são geralmente classificados de acordo com sua natureza. De maneira geral, podemos dizer que a estatística espacial pode ser dividida em três grandes áreas: processos pontuais, dados de área e geoestatística (Cressie, 1993). Neste trabalho iremos nos concentrar em dados georreferenciados, que segundo Schmidt e Sansó (2006), são obtidos a partir de localizações fixas ao longo de uma região de interesse, possivelmente em diferentes instantes do tempo. Ao analisar observações desse tipo, espera-se que medidas feitas em localizações próximas entre si sejam altamente correlacionadas, enquanto que para localizações separadas por grandes distâncias, ocorra um comportamento mais independente. Como exemplo, podemos considerar a temperatura medida nas estações meteorológicas de Copacabana, Ipanema e Bangu. É razoável pensar que haja um comportamento semelhante entre as temperaturas de Copacabana e 1

14 Ipanema, porém, as temperaturas de Copacabana e Bangu tendem a ser independentes, devido à distância entre essas duas regiões. Com isso, é natural pensar que o principal interesse na modelagem de dados georreferenciados é especificar uma função que capte essa dependência espacial. Neste contexto, a função que desempenha esse papel é a função de covariância. A utilização de funções de covariância estacionárias e isotrópicas é bastante comum. Segundo Schmidt e Sansó (2006) estacionariedade exige que as funções de média e covariância sejam invariantes sob translações e isotropia corresponde a uma simetria radial onde a dependência entre localizações é determinada, simplesmente, pela distância entre elas. A aplicação de modelos espaciais tem crescido substancialmente em diversas áreas. Frequentemente, as observações são multivariadas, isto é, há um vetor de respostas em diversas localizações ao longo do espaço. Em outras palavras, dada a localização, é possível obter informações sobre diferentes componentes, por exemplo, estações de monitoramento do ar podem medir níveis de diversos poluentes, tais como ozônio, monóxido de carbono, óxidos de nitrogênio, material particulado etc. A literatura sobre abordagens capazes de modelar dados espaciais multivariados é extensa. Banerjee et al. (2004) apresentam alguns métodos de modelagem para dados dessa natureza. Um deles está baseado na ideia de separabilidade. De fato, o uso de modelos separáveis é conveniente, pois a matriz de covariância pode ser expressa como um produto de Kronecker de matrizes menores vindas da dimensão espacial e do vetor de respostas e, assim, determinantes e inversas são facilmente obtidos, fornecendo considerável ganho computacional. Entretanto, essa abordagem possui algumas desvantagens que serão discutidas neste trabalho. Outro método bastante conhecido é o modelo de coregionalização linear (MCL), que permite modelar dados multivariados utilizando alcances diferentes e estrutura de covariância não separável. Este modelo e suas generalizações estão descritos e muito bem definidos em Banerjee et al. (2004). Apanasovich e Genton (2010) apresentam uma classe geral de modelos flexíveis e computacionalmente viáveis. Um dos objetivos do artigo é representar o vetor de com- 2

15 ponentes a partir de dimensões latentes (pontos) no espaço k-dimensional, 1 k p, p sendo o número de componentes. O objetivo deste trabalho é introduzir uma classe de modelos de covariância não separável para dados multivariados espaciais baseada na ideia de Fonseca e Steel (2011) e também na representação do vetor de componentes apresentada por Apanasovich e Genton (2010). A partir de algumas proposições é possível observar que a estrutura de covariância encontrada é válida e flexível. Ademais, a matriz de covariância não necessariamente será simétrica. Este trabalho está organizado em sete capítulos, incluindo este. O segundo capítulo especifica os modelos univariado e multivariado com estrutura separável. Além disso, faz uma breve revisão sobre as princiais características dos modelos de coregionalização linear e da proposta de Apanasovich e Genton (2010). O capítulo 3 introduz uma nova classe de modelos de covariância não separável baseado na ideia de Fonseca e Steel (2011) e na definição de dimensões latentes proposta por Apanasovich e Genton (2010). O quarto capítulo apresenta o procedimento de inferência feito na estimação do modelo proposto. O capítulo 5 mostra como encontrar aproximações separáveis para a matriz de covariância cheia com estrutura não separável. O penúltimo capítulo apresenta simulações que analisam o desempenho do modelo proposto em captar e gerar estruturas separáveis. Por fim, o capítulo 7 apresenta as conclusões e trabalhos futuros desta pesquisa. 3

16 Capítulo 2 Modelos para análise geoestatística 2.1 Introdução Segundo Cressie (1993), os dados geoestatísticos podem ser considerados uma realização de um processo estocástico {Y (s) : s D}, onde D é um subconjunto de R d com volume d-dimensional positivo. Em outras palavras, o índice espacial s varia continuamente ao longo da região D. Geralmente d = 2 (latitude e longitude) ou d = 3 (por exemplo, latitude, longitude e altitude). A principal discussão sobre a análise de dados espaciais se refere ao modo de se fazer inferência sobre o processo espacial Y (s) e, posteriormente, prever em localizações novas ou não medidas (Banerjee et al., 2004). Antes de definir os modelos utilizados para tratar dados geoestatísticos, apresentaremos os conceitos de estacionaridade e isotropia descritos em Banerjee et al. (2004). Assim, assuma que o processo espacial tenha média µ(s) = E[Y (s)] e que a variância de Y (s) exista para todo s D. Portanto, o processo é dito fracamente estacionário se a média é constante para toda localização s D (isto é, µ(s) = µ) e se Cov(Y (s), Y (s )) = C(s s ), para todo s, s D. Note que essa última condição implica que a covariância entre quaisquer duas localizações s e s pode ser resumida a partir de uma função de covariância que depende apenas da distância entre s e s. Baseado em Schmidt e Sansó (2006), a isotropia é uma restrição mais forte, pois corresponde a uma simetria radial onde a função que define a dependência entre localizações é determinada 4

17 pela distância entre elas. Em outras palavras, C(s, s ) = C( s s ), onde s s denota a distância euclidiana entre s e s. Observe que quando um processo é estacionário e isotrópico, sua variância é constante e os elementos da matriz de covariância podem ser escritos como a multiplicação de σ 2 (variância) e uma função de correlação válida (isto é, positiva definida) que depende da distância euclidiana das localizações e de um vetor paramétrico. É de se esperar que a função de correlação seja monótona não-crescente e que exista algum parâmetro que controle seu decaimento, já que é ela a responsável pela suavidade do processo. Há diversas funções de correlação válidas existentes na literatura. Aqui, vamos listar duas delas: 1. Família exponencial potência { ( ) } θ2 h ρ(h; Θ) = exp θ 1 (2.1) onde h é a distância euclidiana entre dois pontos no espaço, θ 2 (0, 2]. Quando θ 2 = 2 temos um caso particular da função de correlação gaussiana. Quando θ 2 = 1 obtemos a função de correlação exponencial. 2. Família cauchy ( ( ) ) θ3 θ2 h ρ(h; Θ) = 1 + (2.2) θ 1 onde h é a distância euclidiana entre dois pontos no espaço, θ 1 > 0, θ 2 (0, 2] e θ 3 > 0. Frequentemente, Y (s) segue um processo gaussiano e com isso, precisamos especificar apenas o primeiro e o segundo momentos da distribuição. Neste trabalho, todos os processos espaciais analisados são gaussianos. Antes de começarmos a apresentar os modelos geoestatísticos é importante definir o conceito de alcances espaciais. Para tratar disso, voltaremos ao exemplo citado no capítulo 1. Vimos que é natural assumir que as temperaturas medidas nas estações meteorológicas de Copacabana e Ipanema tendem a ter uma maior correlação do que as temperaturas de Copacabana e Bangu, pois os dois primeiros bairros são vizinhos e 5

18 estão localizados próximos ao mar e também porque há uma grande distância geográfica entre Bangu e a Zona Sul, sendo Bangu um bairro afastado da orla da cidade. Assim, é razoável pensar que a correlação diminui conforme a distância aumenta, porém, como saber qual é o valor da distância na qual a correlação cai para valores desprezíveis? O alcance espacial é justamente o valor dessa distância. Nas próximas seções são apresentados alguns métodos para análise de dados geoestatísticos. 2.2 Modelo univariado Esta seção introduz a análise de processos espaciais a partir do caso mais simples, isto é, processos que analisam a dependência espacial de apenas uma componente. Para isso, considere o processo espacial {Y (s) : s D}, onde D R d. Normalmente, em geoestatística, dadas as observações do processo de interesse em n localizações, Y = [Y (s 1 ), Y (s 2 ),..., Y (s n )] T, assume-se que Y µ, Σ N n (µ, Σ) onde µ é um vetor de dimensão n representando a média do processo e Σ é uma matriz n n que representa a estrutura de covariância. A partir disso, podemos descrever o processo Y(.) através do modelo Y = Xβ + ε (2.3) onde X representa a matriz das variáveis explicativas, β é o vetor de parâmetros das regressoras e ε é o erro aleatório tal que ε N n (0, Σ). Sabe-se que cada elemento da matriz de covariância depende somente da variância do processo e de uma função de correlação espacial válida. Considerando um processo estacionário de segunda ordem (fracamente estacionário), temos que Cov[Y (s), Y (s )] = C(s s ) = C(h), s, s D depende apenas das distâncias entre as localizações s e s, h = s - s. Portanto, a matriz de covariância será dada por Σ = σ 2 ρ(h, Φ) 6

19 onde σ 2 é a variância do processo e ρ(., Φ) é uma função de correlação válida. Observe que Φ é o vetor paramétrico que descreve a função de correlação. 2.3 Modelo multivariado Quando se faz inferência com base em dados multivariados, como por exemplo, diferentes fatores climáticos mensurados em estações meteorológicas, o objetivo principal é identificar a dependência entre as variáveis medidas em todas as localizações. Para isso, denotaremos Y(s) como o vetor de variáveis aleatórias na localização s, de dimensão p 1, ou seja, Y = [Y(s 1 ), Y(s 2 ),..., Y(s n )] T, onde Y i (s) representa a i-ésima variável, i = 1, 2,..., p, na localização s D. Deste modo, se Y é dito um processo gaussiano, para defini-lo, precisamos determinar apenas dois objetos de análise: a função de média e as funções de covariância cruzada (Apanasovich et al., 2012). A função de covariância cruzada válida irá definir a dependência entre as componentes do vetor resposta. Entretanto, sabe-se que funções de covariância cruzada não são simples de serem especificadas, pois para qualquer número de localizações e qualquer escolha dessas localizações, a matriz de covariância resultante deve ser positiva definida (Gelfand e Banerjee, 2010). De acordo com Banerjee et al. (2004), o objeto crucial é a covariância cruzada C(s, s ) Cov(Y(s), Y(s )), que é uma matriz de dimensão p p e não necessariamente simétrica (isto é, Cov(Y i (s), Y j (s )) não precisa ser igual a Cov(Y j (s), Y i (s ))). De acordo com Wackernagel (1995), as funções de covariância cruzada C ij (h), do conjunto de p variáveis aleatórias Y i (s), podem ser definidas da seguinte maneira: Se E[Y i (s)] = m i, s D; i = 1, 2,..., p então, a estrutura de covariância cruzada é definida como E[(Y i (s) m i )(Y j (s + h) m j )] = C ij (h), s, s + h D; i, j = 1, 2,..., p onde a média de cada variável Y i (s), em cada localização do domínio, é igual à constante m i. 7

20 2.3.1 Modelos separáveis Para modelar dados dessa natureza podemos utilizar uma forma bem simples, baseada na ideia de separabilidade. Para definir a estrutura de covariância de modo separável vamos considerar {Y(s) : s D R 2 ; Y R p } sendo um campo aleatório multivariado. Por exemplo, Y(s) pode ser formado pelas componentes (Temperatura, Umidade)(s). A função de covariância cruzada para duas componentes i e j do vetor Y, entre duas localizações quaisquer s e s, pode ser descrita por C ij (s, s ) = a ij ρ(s, s ) (2.4) onde A = {a ij } é uma matriz positiva definida p p e ρ(s, s ) é uma função de correlação válida. Como Y é formado por um empilhamento das observações nas n localizações, a matriz de covariância resultante é Σ = R A (2.5) onde R ij = ρ(s i, s j ) e denota o produto de Kronecker. Note que Σ será positiva definida desde que R e A também sejam. A utilização de modelos espaciais com estrutura separável é bastante comum. A justificativa é simples. A matriz de covariância cheia Σ, de dimensão np np, pode ser escrita a partir do produto de Kronecker de duas matrizes de menor dimensões (p p e n n). A partir das propriedades do produto de Kronecker, é possível calcular a inversa e o determinante de Σ da seguinte maneira: Σ 1 = R 1 A 1 Σ = R p A n De fato, é mais conveniente em termos computacionais utilizar a estrutura definida na equação 2.4, porém, este tipo de modelagem possui algumas limitações Limitações dos modelos separáveis Banerjee et al. (2004) apresentam algumas limitações associadas ao modelo separável. Segundo os autores, a estrutura de covariância será simétrica, ou seja, Cov(Y i (s), Y j (s )) = 8

21 Cov(Y j (s), Y i (s )) para todo i, j, s e s. Além disso, se ρ for estacionário, a correlação generalizada é dada por Cov(Y i (s), Y j (s + h)) Cov(Yi (s), Y i (s + h))cov(y j (s), Y j (s + h)) = a ij aii a jj independente de s e h. A última restrição citada pelos autores é que se a correlação espacial ρ for isotrópica e estritamente decrescente, então o alcance espacial será idêntico para cada componente de Y(s). Essa última limitação apresentada pode ser entendida de outra maneira. Considere os processos espaciais univariados {Y (s) : s D} e {X(s) : s D}, onde D R 2, conforme definido na seção 2.2. Logo, são obtidos os seguintes vetores Y = [Y (s 1 ), Y (s 2 ),..., Y (s n )] T e X = [X(s 1 ), X(s 2 ),..., X(s n )] T. Sabe-se que é possível representar a relação linear espacial abaixo para qualquer ponto no domínio E[Y X] = β 0 + β 1 X (2.6) Para garantir a relação definida em (2.6), considere o vetor empilhado (X, Y) T, de dimensão 2n 1, com distribuição Normal Multivariada e estrutura de covariância separável, como definido em 2.4, isto é, X Y N 2n (µ, Σ), Σ = A R Dada esta distribuição, note que X N n (µ x, a 11 R) e Y N n (µ y, a 22 R). Assim, a partir das propriedades da distribuição normal multivariada, é possível observar que Y X N n (µ, Σ ), onde µ = µ y + (a 12 R)(a 11 R) 1 (X µ x ) = µ y + a 12 a 11 RR 1 (X µ x ) = µ y + a 12 a 11 (X µ x ) = µ y a 12 a 11 µ x + a 12 a 11 X 9

22 e Σ = a 22 R (a 12 R)(a 11 R) 1 (a 12 R) = a 22 R a2 12 a 11 RR 1 R = a 22 R a2 12 R a ( 11 ) = a 22 a2 12 R a 11 Portanto, a distribuição de Y X pode ser escrita da seguinte maneira: Y X N n (β 0 + β 1 X, σ 2 R), onde β 0 = µ y a 12 a 11 µ x β 1 = a 12 a 11 σ 2 = a 22 a2 12 a 11 Entretanto, fazendo a análise de maneira contrária, ou seja, se partirmos do ponto em que definimos X N n (µ x, a 11 R) e Y X N n (β 0 + β 1 X, σ 2 S), onde S é uma matriz qualquer que determina a dependência espacial, teremos que a estrutura de covariância de Y será Cov[Y i, Y j ] = σ 2 S ij + β 2 1a 11 R ij = a 22 S ij a2 12 a 11 S ij + a2 12 a 11 R ij (2.7) Neste caso, é fácil observar que para obtermos o caso separável devemos fazer uma restrição quanto à estrutura de S. De fato, a equação 2.7 será igual a a 22 R, isto é, equivalente ao caso separável se, e somente se, S = R, ou seja, se a dependência espacial de Y X for a mesma de X Algumas propostas de modelos multivariados Nesta seção, serão apresentadas, de maneira resumida, algumas abordagens utilizadas no procedimento de estimação de processos espaciais multivariados. Iremos descrever duas propostas já exitentes na literatura com o objetivo de analisar suas principais características para, posteriormente, relacioná-las com as propriedades do modelo proposto neste trabalho. 10

23 Inicialmente, descreveremos os modelos de coregionalização especificados em Banerjee et al. (2004). O modelo mais simples de coregionalização linear (MCL) 1 é da forma Y(s) = Aw(s), onde A é uma matriz p p e as componentes de w(s), w j (s), j = 1, 2,..., p, são processos espaciais independentes e identicamente distribuídos. Assim, se os processos w j (s) têm média igual a zero, são estacionários com variância igual a um e cov(w j (s), w j (s )) = ρ(s s ), então E(Y(s)) = 0 e a matriz de covariância cruzada associada a Y(s) é dada por Σ Y(s),Y(s ) C(s s ) = ρ(s s )AA T É possível observar que se fizermos AA T = T obtemos a especificação da estrutura de covariância separável, conforme equação 2.4. Ainda baseado em Banerjee et al. (2004), podemos descrever um MCL mais geral se novamente especificarmos Y(s) = Aw(s), porém, desta vez, considerando os processos w j (s) independentes mas não identicamente distribuídos. Portanto, sejam w j (s) processos com média µ j, variância 1 e função de correlação estacionária ρ j (h). Então, temos que E[Y(s)] = Aµ, onde µ = {µ 1,..., µ p } T, e a matriz de covariância cruzada obtida agora é Σ Y(s),Y(s ) C(s s ) = p ρ j (s s )T j onde T j = a j a T j, com a j sendo a j-ésima coluna de A. Segundo os autores, uma observação importante a ser feita é que essa combinação linear produz processos estacionários. Por fim, utilizando funções de correlação monótonas e isotrópicas, será possível obter um alcance para cada componente do processo. Portanto, essa abordagem permite modelar as componentes utilizando diferentes alcances 2, diferentemente do modelo separável apresentado na seção Vale ressaltar que existem outras especificações do modelo de coregionalização que acomodam estruturas de covariância não estacionárias 3. A segunda abordagem que será apresentada é a descrita por Apanasovich e Genton (2010). Os autores propõem uma metodologia baseada em dimensões latentes e modelos 1 Chamado de especificação intrínseca. 2 Detalhes mais precisos podem ser vistos em Banerjee et al. (2004). 3 Ver Banerjee et al. (2004). j=1 11

24 de covariância já existentes na literatura. O objetivo é desenvolver uma classe de funções de covariância cruzada que sejam interpretáveis e viáveis computacionalmente. A ideia principal de Apanasovich e Genton é representar o vetor de componentes como pontos num espaço k-dimensional, para um inteiro 1 k p, ou seja, fazer com que a i-ésima componente possa ser representada como ξ i = {ξ i1,..., ξ ik } T. Já sabemos que se assumirmos que Y é gaussiano, precisamos apenas descrever as funções de média e de covariância. Portanto, estamos interessados na caracterização de Cov[Y i (s), Y j (s )] = C ij (s, s ). Assim, Apanasovich e Genton garantem que, baseado nas dimensões latentes, a matriz de covariância Σ ij = C{(s, ξ i ), (s, ξ j )} é positiva definida, pois suas entradas são obtidas a partir de uma covariância válida. De fato, segundo os autores, para qualquer s, s existe C s,s (.) tal que C ij (s, s ) = C s,s (ξ i, ξ j ) para algum ξ i, ξ j R k. É importante lembrar que ao invés de especificarmos os ξ i s, podemos tratá-los como parâmetros. Além disso, há a possibilidade de trabalhar apenas com a distância entre as componentes do vetor, δ ij = ξ i ξ j. Segundo Apanasovich e Genton, essa ideia de modelagem é semelhante à escala multidimensional (Cox e Cox, 2000) com distâncias latentes δ ij s, onde para localizações fixas s e s, grandes δ ij s são convertidos para correlações cruzadas pequenas entre as i-ésima e j-ésima componentes do vetor. Em uma das simulações, os autores comparam o desempenho do modelo proposto por eles com o MCL. Para mostrar a flexibilidade extra que o modelo deles permite, eles ajustam o modelo proposto e o MCL, quando, na verdade, a estrutura gerada é do modelo proposto. Nessa simulação, geram amostras de um processo espacial bidimensional gaussiano, com média zero e especificação da covariância Cov[Y i (s), Y j (s )] a 2 11exp( α 1 h ) (i = j = 1) a 2 21exp( α 1 h ) + a 2 22exp( α 2 h ) (i = j = 2) C ij ( h ) = C( h, δ ij ) = { } a 11 a 21 δ exp α 1 h (i j) (δ ) β 2 onde h = s s. Observe que o MCL é um caso especial da especificação acima quando δ 12 = β = 0. A partir dos resultados da simulação os autores afirmam que o modelo de 12

25 coregionalização não é suficientemente flexível para fornecer estimativas sem viés para os alcances. Além dessa simulação os autores utilizam outras especificações para mostrar a flexibilidade do modelo proposto. Apanasovich e Genton (2010) também avaliam a escolha do valor de k a partir de simulações. Segundo eles, valores pequenos de k, como por exemplo, k = 1 ou k = 2, são geralmente suficientes 4. Além disso, esses modelos possuem extensões que acomodam a falta de simetria. Uma possível fraqueza dessa abordagem é que se o número de variáveis p for grande, então o número inteiro 1 k p de dimensões latentes poderia tornar-se grande demais. De fato, a ideia de dimensões latentes apresentada em Apanasovich e Genton (2010) será aplicada ao modelo proposto no capítulo 3. Vale ressaltar que para as estimações do modelo proposto realizadas neste trabalho utilizamos k = 1. 4 Ver Apanasovich e Genton (2010). 13

26 Capítulo 3 Modelo proposto 3.1 Introdução O objetivo deste capítulo é apresentar uma classe de funções de covariância multivariada não separáveis a partir da ideia de misturas apresentada por Fonseca e Steel (2011). Também iremos introduzir a ideia de dimensões latentes para representar o vetor de componentes, como proposto em Apanasovich e Genton (2010). Fonseca e Steel (2011) consideram funções de covariância espaço-temporais. Neste trabalho, a função proposta é avaliada no espaço multivariado, sem considerar o tempo. Algumas características importantes serão analisadas. A classe de funções gerada é válida, flexível e permite diferentes especificações. Além disso, será visto que é possível obter alcances espaciais distintos para diferentes componentes, o que não ocorre nos modelos separáveis. 3.2 Representação por mistura Introdução Fonseca e Steel (2011) apresentaram uma classe geral de modelos espaço-temporais não separáveis baseada em misturas de funções de covariância separáveis. Segundo os autores, a formulação de mistura pode gerar uma grande variedade de modelos de co- 14

27 variância não separável válidos. Para definir o modelo proposto em Fonseca e Steel (2011), suponha que (s, t) D T, D R d, T R, sejam coordenadas espaço-tempo que variam continuamente em D T e defina o processo espaço-temporal {Z(s, t) : s D, t T }, onde Z(s, t) = Z 1 (s)z 2 (t), (s, t) D T, {Z 1 (s) : s D} é um processo aleatório puramente espacial com função de covariância C 1 (s) e {Z 2 (t) : t T } é um processo aleatório puramente temporal com função de covariância C 2 (t). Sendo Z 1 (s) e Z 2 (t) não correlacionados. A representação por mistura da função de covariância de Z(s, t) é definida por Fonseca e Steel (2011) da seguinte maneira: Seja (U, V ) um vetor aleatório bivariado não negativo com distribuição G(u, v) e independente de {Z 1 (s) : s D} e {Z 2 (t) : t T }, então a função de covariância correspondente a Z(s, t) é uma combinação convexa de funções de covariância separáveis. Esta função é válida e geralmente não separável, e é dada por C(s, t) = C(s; u)c(t; v)g(u, v)dudv (3.1) A ideia proposta neste trabalho é modificar a equação 3.1 para o caso espacial multivariado. Neste momento, o interesse não está em avaliar o tempo e sim, as componentes. A subseção seguinte apresenta esta nova função de covariância baseada na equação Representação por mistura proposta Nesta subseção, iremos considerar a mesma representação apresentada pelos autores e descrita na equação 3.1, porém, avaliada no espaço multivariado. Para isso, seja um vetor aleatório bivariado não negativo (U, V ) com distribuição G(u, v) e independente do processo Y(s). De maneira similar ao artigo de Fonseca e Steel (2011), temos que a função de covariância correspondente a Y(s) é uma combinação convexa de funções de covariância separáveis. Esta função é válida e, geralmente, não separável e é dada por C ij (s, ξ) = C(s; u)c ij (ξ; v)g(u, v)dudv (3.2) onde ξ representa a dimensão latente proposta no artigo de Apanasovich e Genton (2010) e apresentada na seção e s a localização no espaço. É fácil observar que a função 15

28 (3.2) é definida por funções de covariância válidas e pelo vetor aleatório (U, V ) com distribuição conjunta G(u, v). Segundo Fonseca e Steel (2011), o passo fundamental na definição da classe de funções está na representação da dependência entre U e V, pois é isso que irá gerar a interação entre o espaço e as componentes. Vamos definir os variogramas γ 1 (s) γ 1 e γ 2 (ξ) γ 2 como funções contínuas de s R d e ξ R p, respectivamente. A partir da especificação acima, uma maneira de resolver a integral em (3.2) de forma fechada e garantir que a estrutura de covariância gerada seja positiva definida é definindo C(s; u) = exp{ γ 1 u} e C(ξ; v) = exp{ γ 2 v}. Com isso, obtemos a seguinte proposição. Proposição Considere um vetor aleatório bivariado não negativo (U, V ) com função geradora de momentos conjunta M(.,.). Se os variogramas γ 1 (s) γ 1 e γ 2 (ξ) γ 2 são funções contínuas de s R d e ξ R p, respectivamente, e C(s; u) = exp{ γ 1 u} e C(ξ; v) = exp{ γ 2 v}, então, a partir da função (3.2) segue C ij (s, ξ) = M( γ 1, γ 2 ) (3.3) que é uma função de covariância válida. Majumdar e Gelfand (2007) utilizam integração de Monte Carlo para resolver uma integral similar a (3.2), o que seria inviável em aplicações com muitas observações. Apanasovich et al. (2012) consideram uma versão multivariada da Matérn, apresentando um modelo flexível que permite diferentes comportamentos para diferentes componentes. De fato, o modelo em (3.2) também tem essas características e que serão apresentadas mais adiante. A seguir, definiremos a representação do vetor (U, V ) de maneira semelhante à definida por Fonseca e Steel (2011). Essa especificação leva a funções não separáveis e que possuem propriedades bastante úteis Estrutura de covariância não separável A partir da Proposição é possível construir uma estrutura de covariância não separável, basta definir a distribuição do vetor bivariado não negativo (U, V ). Assim, 16

29 considere a seguinte proposição. Proposição Considere as variáveis aleatórias não negativas e independentes X 0, X 1 e X 2, com respectivas funções geradoras de momentos M 0, M 1 e M 2. Defina U e V da seguinte maneira: U = X 0 + X 1 e V = X 0 + X 2. Se C(s; u) = exp{ γ 1 u} e C(ξ; v) = exp{ γ 2 v}, como na Proposição 3.2.1, então a função de covariância resultante a partir de (3.2) é C ij (s, ξ) = M 0 ( γ 1 γ 2 )M 1 ( γ 1 )M 2 ( γ 2 ) (3.4) Observe que se U e V forem não correlacionados, isto é, U = X 1 e V = X 2, então o caso separável é obtido, pois a função de covariância será representada como C ij (s, ξ) = M 1 ( γ 1 )M 2 ( γ 2 ). Observe que essa especificação é semelhante à da equação 2.4, pois a estrutura é gerada a partir de uma função que depende apenas das componentes, M 2 ( γ 2 ), e outra que depende apenas das localizações, M 1 ( γ 1 ). A classe gerada na Proposição permite diferentes representações paramétricas, de acordo com as distribuições de X 0, X 1 e X 2. Note que precisamos apenas atribuir distribuições univariadas não negativas para essas variáveis para especificar a função de covariância cruzada. Como consequência da construção, qualquer correlação entre U e V diferente de zero será positiva. Ao analisar a função gerada pela Proposição 3.2.2, observou-se que C ij (0) = 1, ou seja, a função C ij (s, ξ) é, na verdade, uma função de correlação cruzada válida. Para transformar essa função de correlação numa função de covariância, definimos, conforme Majumdar e Gelfand (2007), ρ ij (s, ξ) = C ij (s, ξ) [C ii (0)C jj (0)] 1/2 (3.5) Note que temos que ρ ii (0) = 1. Considere D cov como uma matriz diagonal com entradas [D cov ] ii = C ii (0). Se R ij (s, ξ) = Dcov 1/2 C ij (s, ξ)dcov 1/2, então R ij (s, ξ) será uma função de correlação cruzada válida. De fato, definindo D 1/2 σ = diag(σ 1,..., σ p ), σ i > 0, pode-se obter uma função de covariância cruzada válida, que será dada pela matriz C σ = D 1/2 σ R ij (s, ξ)d 1/2 σ. Observe que a equação 3.5 é a própria definição de correlação que conhecemos. Como a estrutura encontrada trata-se de uma função de correlação cruzada válida, basta fazermos 17

30 a conta inversa para encontrar a função de covariância cruzada válida. possível modificar a Proposição e definirmos a Proposição Com isso, é Proposição Considere as variáveis aleatórias não negativas e independentes X 0, X 1 e X 2, com respectivas funções geradoras de momentos M 0, M 1 e M 2. Defina U e V da seguinte maneira: U = X 0 + X 1 e V = X 0 + X 2. Se C(s; u) = σ i exp{ γ 1 u} e C(ξ; v) = σ j exp{ γ 2 v}, então a função de covariância resultante a partir de (3.2) é C ij (s, ξ) = σ i σ j M 0 ( γ 1 γ 2 )M 1 ( γ 1 )M 2 ( γ 2 ) (3.6) que é uma função de covariância válida Função proposta Nesta seção, será apresentada uma função de covariância gerada a partir da Proposição Para isso, vamos considerar que as variáveias X 0, X 1 e X 2 seguem distribuições Gama. A partir do Teorema obtemos classes de função de covariância Cauchy tanto para as componentes quanto para o espaço. Teorema Considere X i Gama(α i, λ i ), i = 0, 1 e 2, então, a partir da Proposição 3.2.3, a função de covariância cruzada é ( C ij (s, ξ) = σ i σ j 1 + γ ) α0 ( 1 + γ γ ) α1 ( γ ) α2 2 (3.7) λ 0 λ 1 λ 2 onde σ i > 0, i = 1,..., p, α k > 0 e λ k > 0, k = 0, 1, 2. Para a construção da função de covariância, definimos o variograma γ 1 como a função de distância entre as localizações e o variograma γ 2 como a função de distância entre as dimensões latentes de cada componente. De fato, γ 1 = s s = h e γ 2 = ξ i ξ j = δ ij Reparametrização Com a parametrização proposta na equação 3.7 é difícil interpretar alguns parâmetros. Além disso, esperamos encontrar uma função que permita alcances espaciais diferentes para cada componente e, de fato, isso não está ocorrendo. Como a dependência de U 18

31 e V é governada pela variável X 0, também seria importante definir algum parâmetro responsável pelo comportamento da correlação entre essas variáveis, pois já foi visto que se U e V forem não correlacionados, o caso separável é obtido. Para isso, a ideia inicial foi fixar os parâmetros λ i, i = 0, 1 e 2, em 1. Além disso, introduzimos um parâmetro extra no variograma das localizações. Tal parâmetro pode variar de acordo com a componente i, j analisada, isto é, tomamos γ 1 = s s b ij = h b ij. Feito isso, o modelo geral com todos os possíveis parâmetros é dado por C ij (s, ξ) = σ i σ j ( 1 + δ ij + h b ij ) α0 (1 + h b ij ) α1 (1 + δ ij ) α 2 (3.8) onde σ i é o desvio da componente i, b ij s são interpretados como alcances espaciais e os α l, l = 1 e 2, podem ser interpretados como parâmetros de suavização da função. Um parâmetro que deve ser estudado com maior atenção é α 0. Como já mencionado, é importante encontrar alguma medidade de separabilidade entre o espaço e as componentes. Assim como em Fonseca e Steel (2011), escolhemos a correlação entre as variáveis U e V como tal medida. De fato, vimos que se U e V forem não correlacionados, chegamos ao caso separável. Portanto, Cov(U, V ) ρ = ρ(u, V ) = V ar(u)v ar(v ) Cov(X 0 + X 1, X 0 + X 2 ) = V ar(x0 + X 1 )V ar(x 0 + X 2 ) V ar(x 0 ) = [V ar(x0 ) + V ar(x 1 )][V ar(x 0 ) + V ar(x 2 )] α 0 = (α0 + α 1 )(α 0 + α 2 ) Observe que pela construção de U e V, 0 ρ 1. Além disso, ρ = 0 indica separabilidade, já que neste caso U = X 1 e V = X 2. Portanto, é possível observar que α 0 é o parâmetro responsável pelo grau de separabilidade do modelo. É fácil visualizar que se α 0 = 0, então, ρ = 0. Neste caso onde α 0 = 0, a equação 3.8 pode ser escrita da seguinte maneira C ij (s, ξ) = σ i σ j (1 + h ) α1 (1 + δ ij ) α 2 (3.9) b ij 19

32 Um detalhe importante que deve ser observado é que mesmo que α 0 seja zero, só será possível obter o modelo separável se os alcances espaciais b ij forem todos iguais, ou seja, se b ij = φ, i, j = 1, 2,..., p. Neste caso, é possível observar que as funções de correlação do modelo pertencem à família Cauchy. Caso os alcances espaciais não sejam iguais, a equação 3.9 estará apenas especificada de maneira semelhente ao caso separável, porém, o modelo gerado será não separável. Outro característica importante refere-se ao fato do α 0 ser um parâmetro que assume apenas valores positivos. Portanto, ele não poderá ser igual a zero, mas sabemos que ele pode assumir valores muito pequenos e próximos de Alguns modelos A partir dessa construção da função proposta na equação 3.8, há dois modelos menos gerais que pretendemos estudar neste trabalho. Modelo 1 (MNS-01) Este modelo é menos geral que o proposto na equação 3.8 e, além disso, não permite que as componentes tenham alcances espaciais diferentes. Aqui, fixamos α 1 = α 2 = 1. A função de covariância resultante é ( C ij (s, ξ) = σ i σ j 1 + δ ij + h ) α0 ( 1 + h 1 (1 + δ ij ) φ φ) 1 (3.10) Para este modelo temos que se α 0 = 0, então o caso separável é obtido. Além disso, a função de correlação pertence à classe Cauchy. Neste caso, podemos interpretar os parâmetros da seguinte maneira: σ i corresponde ao desvio da componente i, i = 1, 2,..., p; δ ij mede a distância latente entre as componentes i e j, i, j = 1, 2,..., p; φ representa o alcance espacial das componentes; e α 0 pode ser interpretado como o parâmetro de seperabilidade. Assim, analisando os possíveis casos, temos os seguintes resultados se h = 0 e i = j: C ii (0, 0) = σ 2 i se h = 0 e i j: C ij (0, ξ) = σ i σ j (1 + δ ij ) (α 0+1) 20

33 se h 0 e i = j: C ii (s, 0) = σ 2 i ( ) 1 + h (α0 +1) φ se h 0 e i j: C ij (s, ξ) = σ i σ j (1 + δ ij + h φ ) α0 ( ) h φ (1 + δij ) 1 Modelo 2 (MNS-02) Este modelo também é menos geral que o proposto na equação 3.8, porém, permite que as componentes tenham alcances espaciais diferentes. Aqui, também fixamos α 1 = α 2 = 1. A função de covariância resultante é C ij (s, ξ) = σ i σ j ( 1 + δ ij + h b ij ) α0 (1 + h b ij ) 1 (1 + δ ij ) 1 (3.11) Para este modelo temos que se α 0 = 0, então o caso separável não é obtido. Lembre que uma das propriedades do modelo separável apresentada na seção referia-se ao fato de que os alcances espaciais de cada componente deveriam ser iguais. Aqui, apesar de obtermos uma especificação semelhante à do modelo separável, os alcances espaciais podem ser diferentes e, com isso, não conseguimos obter um modelo separável. Portanto, podemos interpretar os parâmetros b ij da seguinte forma: b ii representa o alcance espacial da componente i, i = 1, 2,..., p, e b ij pode ser entendido como o alcance cruzado entre as componentes i e j, i, j = 1, 2,..., p. Com isso, os possíveis casos são apresentados a seguir se h = 0 e i = j: C ii (0, 0) = σ 2 i se h = 0 e i j: C ij (0, ξ) = σ i σ j (1 + δ ij ) (α 0+1) se h 0 e i = j: C ii (s, 0) = σ 2 i ( 1 + h b ii ) (α0 +1) se h 0 e i j: C ij (s, ξ) = σ i σ j (1 + δ ij + h b ij ) α0 ( 1 + h b ij ) 1 (1 + δij ) 1 21

34 3.2.5 Conclusões Este capítulo apresentou uma classe geral de funções de covariância multivariada não separáveis. Vimos que a partir de determinadas especificações é possivel encontrar um modelo com estrutura separável. Assim como em Fonseca e Steel (2011) esses modelos são bastante flexíveis, pois podem ser especificados de diversas maneiras. Para isso, basta assumir diferentes distribuições não negativas para as variáveis X 0, X 1 e X 2. No modelo especificado na seção 3.2.4, observamos que podemos medir o grau de separabilidade a partir de um único parâmetro. Além disso, o modelo permite trabalhar com alcances espaciais diferentes para componentes distintas, uma propriedade bastante importante. 22

35 Capítulo 4 Procedimento de inferência 4.1 Introdução Quando fazemos inferência sobre qualquer conjunto de dados, de fato, estamos interessados em obter informações referentes às quantidades não observadas e desconhecidas. Neste capítulo, vamos apresentar uma breve revisão do procedimento de inferência utilizado na implementação da estrutura de covariância proposta no capítulo 3. Para tanto, considere o vetor de observações y = (y 1,..., y p ) obtido em cada uma das n localizações s D. Como já mencionado anteriormente, dados geoestatísticos são obtidos a partir de processos contínuos ao longo do espaço. Se o processo for gaussiano, então a função de verossimilhança poderá ser escrita da seguinte maneira: { } l(y; θ) = (2π) np 1 2 Σ 1/2 exp 2 (y µ)t Σ 1 (y µ) (4.1) onde y é o vetor contendo as np observações, µ = Xβ é o vetor de médias, Σ é a estrutura de covariância de dimensão np np que define a dependência das p componentes entre si em todas as n localizações, e θ é vetor paramétrico. Neste caso, a estrutura de covariância é definida pela função proposta na equação 3.8. Assim, podemos definir o vetor paramétrico θ que contém as quantidades desconhecidas que precisaremos estimar. Portanto, θ = (σ, δ, α, b, β), onde σ = (σ 1,..., σ p ), δ é o vetor formado pelas componentes latentes δ ij, i j, i, j = 1,..., p, α = (α 0, α 1, α 2 ), b é o vetor formado pelos alcances espaciais b ij, i, j = 1,..., p, e β = (β 10,..., β p0, β 11,..., β p1,..., 23

36 β 1q,..., β pq ), sendo q o número de covariáveis incluindo intercepto. 4.2 Inferência Bayesiana Esta seção apresenta de maneira resumida o procedimento utilizado na estimação dos parâmetros do modelo proposto. Detalhes mais específicos sobre inferência bayesiana podem ser vistos em Migon e Gamerman (1999) e DeGroot e Schervish (2011). Quando trabalhamos sob o enfoque bayesiano, sabemos que a informação dos dados com respeito ao vetor paramétrico θ, traduzida pela função de verossimilhança, é combinada com a informação a priori, especificada através de uma distribuição com densidade p(θ). O resultado obtido a partir dessa combinação é conhecido como distribuição a posteriori, p(θ y). De fato, é razoável pensar que após observar os valores de y, a quantidade de informação a respeito de θ aumenta. O teorema de Bayes define a regra de atualização utilizada para quantificar este aumento de informação e é defindo da seguinte forma: p(θ y) = p(y θ)p(θ), p(y) onde p(y θ) é a função de verossimilhança, p(θ) é a densidade a priori e p(y) = p(y θ)p(θ)dθ pode ser considerada como uma constante em relação ao θ Especificações Dada a equação 4.1, para que o modelo bayesiano fique completo, precisamos especificar a distribuição a priori p(θ). Assumindo independência a priori entre os parâmetros, temos que p(θ) = p(σ)p(δ)p(α)p(b)p(β) ( p ) ( p 1 ) ( p 2 ) ( p ) p = p(σ i ) p(δ ij ) p(α k ) p(b ij ) p(β) i=1 i=1 j=i+1 k=0 i=1 j=1 As distribuições a priori escolhidas para cada um dos parâmetros foram: σ i Ga(c i, d i ), i = 1,..., p, δ ij Ga(f ij, g ij ), i j, i, j = 1,..., p, α k Ga(r k, s k ), k = 0, 1, 2, 24

37 b ij Ga(u ij med(d s ), u ij ), i, j = 1,..., p, med(d s ) sendo a mediana das distâncias espaciais, β N pq (λ, Λ). Para encontrar as distribuições a posteriori dos parâmetros desconhecidos utilizamos simulações estocásticas de Monte Carlo via Cadeias de Markov (MCMC). Detalhes sobre métodos MCMC podem ser encontrados em Gamerman e Lopes (2006). Apenas a distribuição condicional completa de β apresentou forma analítica fechada, portanto, para este parâmetro foi possível gerar amostras da posteriori utilizando amostrador de Gibbs. Assim, considere a função de verossimilhança descrita na equação 4.1, onde µ = Xβ. Seja θ o vetor paramétrico excluindo o vetor β. Se a distribuição a priori for β N pq (λ, Λ), então a distribuição condicional completa de β é β y, θ N pq (λ, Λ ) onde Λ = [ X T Σ 1 X + Λ 1] 1 e λ = Λ [ X T Σ 1 y + Λ 1 λ ]. Para os outros parâmetros do modelo, θ, não foi possível encontrar distribuições condicionais completas com forma fechada, com isso, utilizamos passos de Metropolis- Hastings Previsão Para fazer previsão de observações em determinadas localizações, considere y u como o vetor de observações não medidas em s u localizações pertencentes à região D. Note que essas localizações não precisam, necessariamente, ser as mesmas localizações utilizadas na estimação do modelo. A predição de y u é baseada na distribuição preditiva p(y u y o ), onde y o é o vetor dos valores observados. Então, temos a seguinte relação p(y u y o ) = p(y u, θ y o )dθ = p(y u y o, θ)p(θ y o )dθ (4.2) Como estamos trabalhando com um modelo gaussiano, sabemos, por hipótese, que (y o, y u θ) tem distribuição normal multivariada. Com isso, fica fácil encontrar a distribuição de (y u y o, θ), basta utilizar as propriedades já conhecidas da distribuição normal 25

Exibir mais