Redução de Dimensão para Modelos Espaciais não Gaussianos

Transcrição

1 Redução de Dimensão para Modelos Espaciais não Gaussianos por Mariana del Pilar Lizarazo Osorio Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2013

2 Redução de Dimensão para Modelos Espaciais não Gaussianos Mariana del Pilar Lizarazo Osorio Dissertação submetida ao Corpo Docente do Instituto de Matemática - Departamento de Métodos Estatísticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obtenção do grau de Mestre em Estatística. Aprovada por: Prof. Thaís C. Fonseca de Oliveira PhD - UFRJ - Orientadora. Prof. Dani Gamerman PhD - IM - UFRJ. Prof. Alexandre Loureiros Rodrigues PhD - UFES. Rio de Janeiro, RJ - Brasil 2013 ii

3 FICHA CATALOGRÁFICA Lizarazo Osorio, Mariana del Pilar. Redução de Dimensão para Modelos Espaciais não Gaussianos \ Mariana del Pilar Lizarazo Osorio. Rio de Janeiro: UFRJ, IM, DME, Dissertação - Universidade Federal do Rio de Janeiro, IM, DME. 1. Introdução. 2. Estatística Espacial. 3. Processos Gaussianos e não Gaussianos. 4. Processos Preditivos. 5. Design. 6. Implementação. 7. Simulação. 8. Conclusões e Extensões. (Mestrado-UFRJ/IM/DME) I. Fonseca, Thaís C. O. II. Universidade Federal do Rio de Janeiro III. Título. iii

4 À minha família, base de tudo. Especialmente à minha mãe pelo seu apoio incondicional. iv

5 Não deixe que a saudade sufoque, que a rotina acomode, que o medo impeça de tentar. Desconfie do destino e acredite em você. Gaste mais horas realizando que sonhando, fazendo que planejando, vivendo que esperando, porque, embora quem quase morre esteja vivo, quem quase vive já morreu. Luiz Fernando Veríssimo v

6 Agradecimentos Eu gostaria de agradecer em primeiro lugar a Deus, pelo dom da vida, pela minha família, pelos meus amigos e colegas, que foram meu apoio, refugio e consolo em muitos momentos difíceis. Quero agradecer de maneira especial a minha mãe, ela me deu a coragem para sair adiante, me apoio durante todo este processo, mesmo na distancia. A meu tio Julio, pois sem ele nada de toda esta experiência teria sido possível. A todos meus colegas da Colômbia que sempre me deram seu apoio e sua amizade. Quero Agradecer a professora Thais, poies ela me ajudo muito, traço o caminho da dissertação. Ensino-me que existem pessoas que mesmo sendo muito brilhantes são muito humildes. É um bom modelo a seguir. Este ultimo ano foi complicado para mim, e por isso eu quero agradecer as pessoas que sempre estiveram de meu lado, que fizeram que eu me sentisse em casa, me ajudando, apoiando, brindando sua amizade, principalmente a meu namorado Renan Assimos, quem teve que me aturar durante tudo este ano, e a meus amigos Aniel Ojeda, Teresa Villanueva, Pamela Chiroque, Pedro Ortis, Angela arana, que me ajudaram, deram seus conselhos em momentos difíceis, parceiros de rizadas, de estudos, de moradia, a todos muito obrigada. Agradeço também aos meninos da iniciação cientifica especialmente a Arthur (criança), pois aprendi muito com todas suas perguntas, embora as vezes fosse chato, me ensino sobre o que é ser docente e da grão satisfação que da, também me ensinou um pouquinho de português, e foi meu grande parceiro de laboratório. Agradeço de maneira especial a Paloma Lima pela ajuda com o português, a Cristiano Moura pela paciência vi

7 e por toda sua ajuda. Agradeço a UFRJ a CAPES e a FAPERJ, por me dar a oportunidade de ter uma grande experiência como esta, sem eles não poderia ter feito este trabalho. vii

8 Resumo No tratamento de dados espacialmente referenciados usualmente assume-se que os dados seguem a distribuição Normal. Mas este suposto muitas vezes não é adequado, pois a amostra pode apresentar dados atípicos ou assimetria. Dessa forma, é preciso criar modelos que permitam descrever o comportamento de variáveis de forma mais realista e, ao mesmo tempo, que não gerem um custo computacional muito alto. Para isso, os modelos não Gaussianos oferecem uma flexibilidade maior, e fazem com que o modelo seja mais realista, mas o custo computacional deste tipo de modelos é muito grande. Por outro lado, existem diferentes métodos para diminuir o custo computacional em modelos Gaussianos. Entre estes métodos, existem os modelos de processos preditivos, que projetam a amostra original num subconjunto de pontos, o que faz que o custo computacional seja reduzido. A escolha destes pontos é discutida neste trabalho. Assim, o intuito deste trabalho é propor um modelo de processos preditivos não Gaussianos que permita modelar variáveis espaciais de forma realista com um baixo custo computacional. Palavras-chave: modelo de mistura, processo preditivos, processos não Gaussianos. viii

9 Abstract The usual treatment to spatial data analysis is to consider Gaussian distributions. But this assumption is often not appropriate because the sample may have outliers or asymmetry. Thus, it is necessary to create models that describe the behavior of variables in a more realistic way and, at the same time, don t generate a very high computational cost. Bearing this in mind, it is known that non-gaussian models offer more flexibility, and make the model more realistic, but the computational cost of this type of models is too large. On the other hand there are several methods to reduce the computational cost in Gaussian models. Among these methods, there are the predictive process models, which project the original sample on a subset of points reducing the computational cost. The choice of these points is discussed in this text. Thus, the aim of this work is to propose a non-gaussian predictive process model that allows realist modeling of spatial variables with a low computational cost. Keywords: mix model, predictive process, nongaussian processes. ix

10 Sumário 1 Introdução Principais objetivos Estatística Espacial Introdução Tratamento usual de dados espaciais Geoestatística Estrutura de Covariância Previsão Processos Gaussianos e não Gaussianos Introdução Processos Gaussianos Processos não Gaussianos Previsão Processos Preditivos Introdução Processos Gaussianos Preditivos Processos não Gaussianos Preditivos Design Introdução Escolha dos Knots x

11 5.2.1 Grade Aleatória Grade Regular Proposta de Finley et al. (2009) Proposta Diggle Processos não Gaussiano Implementação Algoritmos Critérios de Convergência Amostragem por Blocos Modelo preditivo Critério de identificação de outliers Simulação Processo Gaussiano Geração dos dados Distribuição a priori Resultados Processos não Gaussianos Geração dos dados Distribuição a priori: Comparação de modelos Resultados Conclusões e Extensões Processos espaço-temporais Processos Gaussianos espaço-temporais Processos não Gaussianos Espaço-temporais Processos não Gaussianos Preditivos Espaço-temporais A Distribuições 75 A.1 Distribuição Gaussiana Inversa Generalizada (GIG) xi

12 A.2 Distribuição Log-Normal xii

13 Lista de Tabelas 7.1 EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots, para proposta Aleatória.(EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Usando a proposta do Diggle et al. (1998). (EQM relativo) Diagnóstico de Raftery e Lewis e critério de Geweke para comparação de 3 versões diferentes da modificação de Finley et al. (2009). Período de Burn-in de Estimativa dos parâmetros nas 3 versões da modificação de Finley et al. (2009) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para diferentes combinações das propostas do Finley et al. (2009). (EQM relativo) Taxa de aceitação para o alcance e alguns λ por região, usando o algoritmo proposto por Steel e o algoritmo de passeios aleatórios Diagnóstico de Raftery e Lewis e critério de Geweke para a proposta independente e a proposta de passeios aleatórios com um período de burnin de Diagnóstico de Raftery e Lewis e critério de Geweke para a proposta independente e a proposta de passeios aleatórios com um período de Burnin de xiii

14 7.10 Estimativas dos parâmetros para os dois modelos EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para proposta Aleatória.(EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para proposta Diggle et al. (1998). (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para as propostas 1. (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para as propostas 2. (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para a proposta 3. (EQM relativo).. 68 xiv

15 Lista de Figuras 2.1 Função de covariância exponencial, Gaussiana, esférica, com parâmetros a = 2, σ 2 = 2 e h variando de 0 a Exemplos das grades usadas por Diggle A sub-figura (a) apresenta a região na qual foram simulados os dados. Os pontos marcados com bolas cheias foram modificados para serem dados extremos e a divisão em regiões foi feita para estimar o parâmetro λ. A sub-figura (b) apresenta um Box plot da razão σ 2 /λ para cada sítio usando o modelo (3.4). Os Box plot de cor verde correspondem aos locais onde as observações foram modificadas Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro β 1, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro β 2, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro τ 2, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro σ 2, usando a proposta independente (a) e passeios aleatórios (b) xv

16 7.6 Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro do alcance, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro v usando a proposta independente (a) e passeios aleatórios (b) Os pontos representam a taxa de aceitação do modelo de passeio aleatório e os triângulos representam o modelo que usa a proposta independente. 63 xvi

17 Capítulo 1 Introdução O uso de modelos espaciais e espaço-temporais está aumentando devido à crescente disponibilidade de dados referenciados no espaço e no tempo que são obtidos, por exemplo, por satélite ou estações monitoradoras. Assim, esses modelos têm sido cada vez mais utilizados em áreas tais como meio-ambiente, meteorologia, agricultura, devido à grande utilidade destes para o entendimento de fenômenos como tornados, chuva, temperatura, pressão, umidade, poluição, entre outros. Geralmente assume-se que os dados são realizações de um processo Gaussiano, onde são observadas I localizações no espaço, o que implica inversão de matrizes de tamanho I I no procedimento de inferência. Este tipo de modelagem permite estimativas de valores da variável de interesse em locais onde dados não foram observados, fazendo uso de preditores lineares, o que gera um maior interesse neste tipo de modelos, como pode ser observado, por exemplo, no trabalho de Brown et al. (1994), entre outros. Mas, em grandes conjuntos de dados, a inferência em modelos mais complexos e realistas pode requerer um custo computacional muito elevado. No estudo de eventos naturais, muitas vezes, o interesse principal é o estudo de variáveis onde os dados fora do usual acontecem com muita frequência. Por exemplo, os dados de temperatura no Rio de Janeiro, em algumas loalizações parecem ter uma maior variabilidade e, nesses casos, a suposição de normalidade dos dados 1

18 pode não ser adequada. Portanto, é preciso abandonar essa suposição e considerar distribuições com caudas mais pesadas, que permitam descrever o comportamento dos dados de forma mais realista. Na literatura existem diferentes formas de abordar não Gaussianidade dos dados espacialmente referenciados, alguns são baseados em transformações não lineares dos dados observados (ver De Oliveira et al., 1997) ou fazendo uso de modelos lineares generalizados, como foi proposto por Diggle et al. (1998). Neste trabalho, o modelo não Gaussiano proposto por Palacios e Steel (2006) é considerado. Esse modelo usa uma variável latente que afeta a variância do processo para assim permitir que o modelo seja mais flexível, realista e acomode heterocedasticidade espacial. Num contexto espaço-temporal, Fonseca e Steel (2011) consideram uma extensão do modelo de Palacios e Steel (2006) que também é capaz de tratar heterocedasticidade espacial e temporal, além de identificar outliers tradicionais. No entanto, estes tipos de modelos, assim como os Gaussianos, podem gerar um custo computacional muito grande, que cresce com o número de locais observados. Estes modelos implicam inversão de matrizes de dimensão I por I com maior frequência do que os modelos Gaussianos, pois é preciso fazer inferência para o processo de variância. No caso do modelo de Fonseca e Steel (2011), a dimensão das matrizes a serem invertidas é ainda maior, dependendo também do número de pontos no tempo. Assim, o objetivo principal deste trabalho é representar os processos espaciais não Gaussianos propostos por Palacios e Steel (2006) em dimensões menores, de forma a facilitar a computação, porém mantendo boas propriedades de previsão e estimação dos parâmetros. Existem diferentes métodos para redução da dimensão neste tipo de problemas. O uso de técnicas como o tapering permite diminuir a complexidade da matriz de covariância, transformando-a em uma matriz esparsa, o que diminui o custo computacional (ver Kaufman et al., 2008). Alguns métodos envolvem aproximações da verossimilhança (ver Vecchia, 1988; Whittle, 1954), enquanto outros métodos incluem o uso de processos 2

19 latentes, como é o caso dos modelos preditivos (ver Banerjee et al., 2010; Finley et al., 2011). Todos os métodos mencionados anteriormente são discutidos por Sun et al. (2012). Usaremos modelos preditivos, como sugere Banerjee et al. (2008), que facilitam a computação no caso de processos Gaussianos, onde o número de locais onde tem-se observações é muito grande. Esse método está baseado na ideia do processo espacial preditivo que, por sua vez, é motivado pelo krigagem. A ideia é projetar o processo original em um subespaço que é gerado por realizações de dito processo em um conjunto de localizações conhecidas como knots. Neste trabalho são estudados alguns métodos que são usados no contexto de design ótimo para escolha desses knots. No entanto, não se tem uma regra clara para a escolha do número e localização dos knots, o que faz com que o pesquisador tenha que decidir o quanto está disposto a sacrificar na estimativa dos parâmetros em troca de um menor tempo computacional. Iremos estender essa proposta na presença de dados extremos, isto é, no caso de modelos não Gaussianos. A análise será feita usando um enfoque Bayesiano e será desenvolvido um procedimento eficiente de estimação baseado em cadeias de Markov (MCMC), para os modelos propostos. O Capítulo 2 apresenta uma breve introdução à estatística espacial com foco na geoestatística e na previsão de dados não observados e o Capítulo 3 introduz os processos Gaussianos e os processos não Gaussianos. Os processos preditivos propostos por Banerjee et al. (2008) são abordados no Capítulo 4 e, baseados nesta ideia, apresentase a proposta deste trabalho que será chamada de processos não Gaussianos preditivos. No Capítulo 5 são discutidos alguns dos critérios existentes para escolha dos pontos que vão formar o conjunto de knots. Conceitos necessários para implementação destes métodos são apresentados no Capitulo 6. Um estudo simulado é apresentado no Capítulo 7 com o objetivo de entender o efeito da diminuição de dimensão na estimação dos parâmetros dos modelos e na identificação de outliers. As conclusões são apresentadas no Capitulo 8. 3

20 1.1 Principais objetivos Alguns dos objetivos deste trabalho são: i) Comparar o comportamento da proposta de processos preditivos no caso Gaussiano, ao mudar a grade usada para projetar os pontos da amostra. As grades usadas na comparação são a aleatória, a proposta por Diggle e a proposta por Finley. Em Finley et al. (2009), apenas o efeito na estimação da variância global (τ 2 ) é analisada. Neste trabalho, busca-se entender como é afetada a estimação dos outros parâmetros do modelo. ii) Propor um modelo não Gaussiano preditivo que use a ideia de Banerjee et al. (2008) para diminuir o custo computacional. E entender como a escolha do knots influencia na estimação dos parâmetros no caso de processos não Gaussianos preditivos. Pois a diferença dos processos Gaussianos preditivos, o novo modelo inclui dois processos diferentes, um processo de variância e um processo espacial, e eles podem ou não usar o mesmo conjunto de knots na estimação dos parâmetros. 4

21 Capítulo 2 Estatística Espacial 2.1 Introdução Pesquisadores de diversas áreas como saúde, climatologia, ecologia e meio ambiente, estão cada vez mais interessados em analisar dados de eventos que estão referenciados geograficamente e, às vezes, são apresentados em forma de mapas. Neste tipo de dados é natural pensar que existe uma relação entre pontos próximos, ou seja, dados que estão próximos uns dos outros tendem a ter um comportamento similar. Para analisar este tipo de dados existem métodos estatísticos espaciais que permitem descrever o comportamento e a associação espacial entre eles. Por muitos anos os métodos de variograma e correlograma como descritos em Cressie (1993) foram bastante usados. O desenvolvimento da computação permitiu, no entanto, a geração de análises sofisticadas totalmente Bayesianas, com uso de métodos como Monte Carlo via Cadeias de Markov (MCMC), que permitem ajustar modelos complexos para dados geograficamente referenciados (ver, por exemplo Diggle et al., 1998; Banerjee et al., 2004). Neste capítulo é feita uma breve introdução aos tipos de variáveis utilizadas na estatística espacial, para depois nos concentrarmos na geoestatística, que é a área da 5

22 estatística espacial que estuda dados que variam continuamente no espaço. O tratamento deste tipo de dados será o foco deste trabalho. 2.2 Tratamento usual de dados espaciais No estudo de muitas variáveis que são associadas com fenômenos da natureza, os dados podem ser referenciados espacialmente. Neste caso, não é correto estudá-los fazendo uso da hipótese de independência entre eles, pois é possível que esta componente espacial gere correlação nestes dados. Portanto, é preciso achar a estrutura de correlação, para assim poder fazer previsões da variável de interesse para locais não observados. Um conceito fundamental subjacente à teoria de processos estocásticos é a definição de processo espacial. Seja Z a variável de interesse, e seja s a localização onde Z existe. Um processo espacial é o conjunto {Z(s) : s D}, onde Z(s) é a variável de interesse no local s, que também pode ser entendida como um processo estocástico indexado por s. D é conhecido como conjunto índice e é o conjunto de todas as localizações s onde a variável Z existe. Este conjunto pode ser contínuo, discreto ou aleatório. A localização espacial s geralmente é de dimensão dois (por exemplo, latitude e longitude) ou três (como latitude, longitude e altitude). Geralmente os dados espaciais são divididos em 3 categorias diferentes (ver Cressie, 1993; Banerjee et al., 2004), dependendo das características dos dados. Tais categorias são: Padrão de pontos: Considere D uma região no espaço. Cada s D fornece a localização de um evento aleatório (assim D é aleatório). Z(s) pode representar se há ou não ocorrência de um evento numa determinada localização s. Assim, Z(s) toma valor 1 se o evento ocorre ou 0 caso contrario. Por exemplo, localização de árvores de certa espécie numa região florestal, localização de ocorrência de crimes, local de um terremoto, entre outros. O objetivo 6

23 deste tipo de estudo é saber se as ocorrências da variável parecem completamente aleatórias ou se apresentam algum tipo de agrupamento. Dados de área: Considere uma região D fixa no espaço, que pode ou não ter uma forma regular. D está particionado em um número finito de sub-regiões e o limite entre regiões está bem definido. Neste caso, o sítio s D é um bloco ou sub-região da região D (nesse caso D é do tipo discreto). Z(s) geralmente representa uma taxa que resume o comportamento da variável no bloco s. Por exemplo, taxa de óbitos por país no continente americano durante um ano determinado. O interesse neste tipo de estudos é a identificação de determinado padrão ou configuração espacial no que diz respeito à variável aleatória de interesse, assim como a existencia de possíveis relações no espaço. Geoestatística: Z(s) é uma variável que assume valores reais para cada localização s D R r, e s varia de forma contínua em D (um retângulo fixo r-dimensional de volume positivo). Geralmente se tem um número finito de localizações nas quais foi observada a variável Z(s i ), com i = 1,..., l. Alguns exemplos desta categoria de dados espaciais são a temperatura, precipitação ou umidade observada em estações meteorológicas. Devido à continuidade espacial do processo, um dos principais objetivos é a previsão da variável em localizações não observadas, além de fazer inferência para média, variabilidade e a estrutura de associação do processo. Assim, os métodos na estatística espacial mudam dependendo do domínio D em que o evento de interesse acontece. Como o objetivo principal deste trabalho é a modelagem de dados que variam de forma contínua no espaço e que apresentam valores extremos, o foco será na teoria que a geoestatística oferece para o tratamento deste tipo de dados. 2.3 Geoestatística Considere um conjunto de variáveis aleatórias Z(s) que apresentam associação do tipo espacial e tal que s D varia de forma continua. Então, os modelos propostos tem 7

24 que refletir esta importante característica dos dados. Para capturar essa associação, as variáveis devem ser dependentes para cada par possível, e o nível de dependência deve estar relacionado com a localização dos pontos. Assim, é preciso definir a distribuição de um número infinito de variáveis aleatórias. Isso pode ser feito definindo a distribuição finito dimensional para um número arbitrário de localizações. Mas, ao construir este tipo de distribuições é dificil garantir que a distribuição conjunta que se está construindo seja única. Uma solução para este problema é dada pelo uso da distribuição Gaussiana (geralmente usada neste tipo de modelos), pois ao especificar a função de média m(s) = E(Z(s)) e de covariância cov(z(s i ), Z(s j )) as distribuições conjunta, marginais e condicionais vão estar bem definidas. Geralmente, tem-se uma observação para cada uma das n variáveis Z(s i ), i = 1,... n, o que torna impossível a tarefa de criar uma função de covariância (não é possível calcular a covariância com base em uma única observação). Para solucionar este problema, geralmente se supõe que várias sub-regiões possuem uma estrutura probabilística similar. Para isso podemos considerar as suposições de estacionariedade e isotropia. Estacionariedade: um processo {Z(s) : s D} é dito estritamente estacionário se sua função de distribuição conjunta é invariante com respeito a qualquer translação do vetor h, isto é, se a distribuição do vetor aleatório Z = [Z(s 1 ),..., Z(s n )] T para s 1,..., s n D é idêntica a distribuição do vetor Z = [Z(s 1 + h),..., Z(s n + h)] T para s 1 + h,..., s n + h D, para todo h e para todo n 1. A suposição de estacionariedade introduz repetições no espaço, isto é, dois pontos com configurações idênticas após translação serão ditos estatisticamente equivalentes, o que permitirá o cálculo das covariâncias. Um processo é dito fracamente estacionário (ou estacionário de segunda ordem) se µ(s) = E(Z(s)) = µ (quer dizer que o processo tem média constante) e Cov(Z(s), Z(s + h)) = C(h) para todo h R r tal que s e s + h pertencem ao 8

25 conjunto D. Assim, a estacionariedade estrita implica a estacionariedade fraca. No caso da distribuição normal estas duas definições são equivalentes. Para processos fracamente estacionários, é possível definir a função de correlação como: ρ(h) = cor(z(s), Z(s + h)) = C(h) C(0) onde C(0) é a variância do processo. Em geoestatística, é comum utilizar a variável incrementos Z(s + h) Z(s), que faz um análogo com a diferenciação feita numa série temporal quando não se tem estacionariedade em Z(s). Esta variável representa a mudança da variável de interesse após um deslocamento h. A modelagem da estrutura de dependência dos dados pode ser feita, de forma alternativa, usando a variância dos incrementos. Este tipo de estacionariedade é muitas vezes chamada de estacionaridade intrínseca. O processo Z(s) é dito intrinsecamente estacionário, se E(Z(s + h) Z(s)) = 0, s, h D e se 1 V ar(z(s + h) Z(s)) = γ(h), para todo par Z(s) e Z(s + h). 2 Ou seja, a função de variância existe e é função única do vetor de separação h. Nesse caso, γ(h) é conhecida como função de semivariância ou semivariograma do processo espacial (ver Banerjee et al., 2004). Na presença de estacionariedade de segunda ordem as funções de covariância e semivariograma satisfazem as seguintes propriedades: 1. C(h) = C(0) γ(h) 2. C(0) 0 3. C(h) = C( h) 4. C(h) C(0) 5. C(h) 0 quando h 9

26 Isotropia: Um processo é dito estritamente isotrópico se, para toda matriz ortogonal H e todo conjunto de localizações D e qualquer h R r, a distribuição de Z = [Z(s 1 ),..., Z(s n )] T é a mesma de Z = [Z(Hs 1 + h),..., Z(Hs n + h)] T.Um processo é dito fracamente isotrópico se µ(s) = E(Z(s)) = µ e Cov(Z(s), Z(s+h)) = C( h ) onde h é a norma de h, s e s + h D. Nesse caso, note que a covariância só depende da medida h e não da direção do vetor h. Em outras palavras, um processo é dito isotrópico, se a correlação dos dados independe da direção em que é calculada. Em termos geométricos, a estacionariedade e a isotropia são propriedades de invariância. A estacionariedade faz referência à invariância sob translações, enquanto a isotropia faz referência à invariância sob rotações e reflexões. Estas duas propriedades facilitam o cálculo da covariância nos casos em que é correto fazer uma ou as duas hipóteses Estrutura de Covariância É preciso procurar uma estrutura de covariância que seja válida. Para isso, a função de covariância C(s i, s j ) = Cov(Z(s i ), Z(s j )) deve ser tal que para qualquer i, j = 1,..., n e qualquer a 1, a 2,... a n : ( ) V ar ai Z(s i ) = a i a j Cov(Z(s i ), Z(s j )) = a i a j C(s i, s j ) 0 isto é, C(.,.) tem que ser uma função positiva definida. combinações a i Z(s i ) de {Z(s 1 ),... Z(s n )} terão uma variância positiva. Isso garante que toda as Na prática não é comum verificar se é satisfeita a condição de ser uma função positiva definida. Por esse motivo, alguns modelos paramétricos conhecidos são comumente usados. Mas no caso que é preciso verificar esta condição, pode-se usar o Teorema de Bochner que fornece uma condição necessária e suficiente para que C(h) seja positiva definida (ver, por exemplo Banerjee et al., 2004; Stein, 1999). 10

27 Alguns dos modelos paramétricos para função de covariância, que são geralmente usados na literatura (Banerjee et al., 2004; Fonseca e Steel, 2010), são: Função de covariância exponencial C(h) = σ 2 exp( h/a ) onde a é o parâmetro de alcance e σ 2 é a variância. Na prática, o parâmetro de alcance tem uma relação com a distância a partir da qual duas observações podem ser consideradas independentes. O alcance efetivo corresponde à distancia h 0 = h para a qual a correlação cai para Que neste modelo, é dado por h 0 = 3a. Este tipo de modelo é muito usado na prática, pois tem uma forma simples, mas tem propriedades teóricas muito restritas, que fazem com que o modelo seja pouco realista. Função de covariância Gaussiana C(h) = σ 2 exp{ h/a 2 } igual ao caso anterior a é o parâmetro de alcance e σ 2 é a variância do processo. Esta função representa processos muito suaves que são pouco realistas. Função de covariância esférica C(h) = σ 2 ( h/a +1 3 h/a 3 ), h a C(h) = 0 para h > a, isto é a covariância desaparece para valores de h maiores do que a, o que facilita os cálculos que dependem da matriz de covariância. O comportamento desta função perto de zero é similar ao comportamento da exponencial. 11

28 A Figura 2.1 apresenta uma comparação do comportamento da covariância dado pelos modelos anteriores. Função de covariância Exponencial Gaussiano Esferico Figura 2.1: Função de covariância exponencial, Gaussiana, esférica, com parâmetros a = 2, σ 2 = 2 e h variando de 0 a 10. Função de covariância Matérn C(h) = σ 2 (2ν1/2 h/a ) v K 2 ν 1 ν (2ν 1/2 h/a ) Γ(ν) onde, ν > 0 corresponde ao parâmetro de suavidade, a é o alcance, que indica quão rápido decresce a correlação no modelo, e σ 2 é a variância. Γ é a função Gamma e K ν (.) é a função modificada de Bessel de terceiro tipo e ordem ν. No caso de v = 1/2 obtêm-se C(h) = σ 2 exp{ h/a } que é a função de covariância exponencial. Enquanto que se ν tem-se a função de covariância Gaussiana. Função de covariância Cauchy C(h) = σ 2 {1+ h/a α } λ 12

29 onde α (0, 2] é o parâmetro de forma e suavidade do modelo, λ > 0 corresponde à dependência de memória longa, a > 0 é o alcance e σ 2 > 0 a variância. Essa função de covariância é válida em todas as dimensões Previsão Um dos principais objetivos da geoestatística é a previsão da variável de interesse em pontos onde esta variável não foi observada. Suponha que se observa realizações de um processo Z(s) nos locais s 1,..., s n, s i R r, e tem-se como objetivo prever o valor de Z(s 0 ). Se a lei de Z é conhecida, a inferência de Z(s 0 ) pode se basear na distribuição condicional de Z(s 0 ) dado os valores observados Z(s 1 ),..., Z(s n ). Na prática é difícil especificar a lei das variáveis aleatórias, e mesmo que se acredite que Z tem uma distribuição específica, o cálculo desta condicional pode ser muito difícil. Devido a isso, nesses casos é comum trabalhar com preditores lineares (ver Stein, 1999). Suponha que Z tem função de média m(s) e função de covariância C(s i, s j ). Se m e C são conhecidas então pode-se obter a média e a variância de qualquer combinação linear das observações de Z. Queremos, prever o valor da variável no sitio no observado s 0 a partir das observações Z = [Z(s 1 ),..., Z(s n )] T usando um preditor do tipo λ 0 + λ T Z. O objetivo é achar um λ 0 e λ T tal que o erro quadrático médio de λ 0 + λ T Z seja mínimo para este preditor, o erro quadrático médio corresponde a média do erro de previsão ao quadrado mais sua variância, que é E{Z(s 0 ) λ 0 λ T Z} 2 = {m(s 0 ) λ 0 λ T m} 2 + c 0 2λ T C 0 + λ T Cλ onde, m = E(Z), c 0 = Cov(s 0, s 0 ), C 0 = Cov(Z, Z(s 0 )) e C = Cov(Z, Z T ). O preditor linear que minimiza o erro quadrático médio entre todos os preditores lineares é conhecido como o melhor preditor linear (BLP por sua sigla em Inglês). O termo quadrático pode ser minimizado fazendo λ 0 = m(s 0 ) λ T m. O termo restante 13

30 é minimizado quando λ = C 1 C 0, se C é inversível. E assim λ 0 = m(s 0 ) C 0 T C 1 m. Então, o BP L é dado por µ 0 = m(s 0 ) C T 0 C 1 m + C T 0 C 1 Z (2.1) = m(s 0 ) C T 0 C 1 (m Z) (2.2) Se Z é um processo Gaussiano, tem-se que a distribuição condicional de Z(s 0 ) dado Z = z é normal com media µ 0 dada pela equação 2.1 e variância c 0 C T 0 C 1 C 0. Mas, geralmente, assume-se que o valor da média do processo não é conhecida, porém a estrutura de covariância é conhecida. Assim, é preciso que o estimador além de ser BLP seja não viciado. Suponha agora que se tem um processo Z que pode ser modelado como Z(s) = m(s) T β + ɛ(s) (2.3) onde, ɛ é um campo aleatório com média 0 e estrutura de covariância conhecida, m é uma função conhecida com valores em R p e β é um vetor de p coeficientes desconhecidos. A variável de interesse é observada em n pontos, assim, Z = (Z(s 1 ),..., Z(s n )) T. O objetivo é prever o valor de Z(s 0 ), onde s 0 é um local não observado. Se a média é conhecida é possível usar o BLP m(s 0 ) T β + C T 0 C 1 (Z Mβ) (2.4) onde, M = (m(s 1 ),..., m(s n )) T, C 0 = Cov(Z, Z(s 0 )) e C = Cov(Z, Z T ). Se β é desconhecido mas todas as covariâncias são conhecidas, uma abordagem natural é substituir β na equação 2.4 pelo estimador de mínimos quadrados generalizados ˆβ = (M T C 1 M) 1 M T C 1 Z, assumindo que C é não singular e M é de posto completo. O objetivo é minimizar E(Z(s 0 ) λ T Z) 2 sujeita a λ 0 = 0 e M T λ = m(s 0 ) (2.5) 14

31 Se λ resolve este problema de minimização restrita, então λ T Z é chamado de melhor preditor linear não viciado (BLUP por sua sigla em Inglês) para Z(s 0 ). Neste caso o preditor resultante é λ T Z = CC 1 (Z Mˆβ) + m(s 0 ) T ˆβ (2.6) O melhor preditor linear não viciado (BLUP) é conhecido na literatura geoestatística como krigagem, chamado assim em honra ao geólogo Sul Africano D. G. Krige, cujos trabalhos em previsão de reservas de ouro feitos nos anos cinquenta são considerados como pioneiros em métodos de interpolação espacial. Krigagem engloba um conjunto de métodos de previsão espaciais cujo foco é minimizar o erro quadrático médio de previsão. Em particular, quando m(s) 1,ou seja, quando assume-se que a media do processo é uma constante desconhecida então o BLUP é chamado de krigagem ordinária. No enfoque bayesiano o estimador BLUP tem interpretação pois, para fazer uma previsão de Z(s 0 ) a solução natural neste enfoque é usar a distribuição condicional de Z(s 0 ) dado Z, que é calculada usando a distribuição a posteriori de β dado Z. Esta distribuição é conhecida como distribuição preditiva de Z(s 0 ), e a esperança desta distribuição corresponde ao estimador BLUP. 15

32 Capítulo 3 Processos Gaussianos e não Gaussianos 3.1 Introdução Por muitos anos uma hipótese fundamental na geoestatística foi a de que a variável de interesse pode ser modelada como um processo Gaussiano Z(s), onde s são as coordenadas espaciais que variam de forma contínua em D, D R 2. Este suposto facilita e justifica a previsão da variável em pontos não observados. Na natureza existem variáveis que geralmente apresentam dados fora do usual. Mas o que é um dado fora do usual quando se estuda um processo contínuo no espaço? Neste caso, os outliers podem ser definidos como observações pertencentes a sub-regiões com variância observacional grande. Estes dados geralmente apresentam caudas pesadas e assimetria, fazendo com que a distribuição Gaussiana não seja muito apropriada. Algumas propostas foram feitas para solucionar este problema. Por exemplo, De Oliveira et al. (1997) propôs o uso do modelo bayesiano Gaussiano transformado, que é baseado na família de transformações Box-Cox. Esta ideia foi motivada pelo interesse em fazer previsão de variáveis que claramente não seguem uma distribuição Gaussiana. Diggle et al. (1998) propôs o uso de modelos espaciais lineares generalizados para dados 16

33 pertencentes à família exponencial. Outro exemplo de modelos não Gaussianos é apresentado por Palacios e Steel (2006). O trabalho deles inclui o uso de um processo de variância que permite que o modelo tenha uma maior flexibilidade, pois ele acomoda heterocedasticidade espacial. Além disso, uma vantagem deste modelo é que ao condicionar a variável de interesse ao conhecimento do processo de variância, tem-se uma distribuição normal, o que facilita a sua implementação. Este capítulo apresenta o modelo usual para o caso Gaussiano e também apresenta um modelo não Gaussiano proposto por Palacios e Steel (2006). O modelo não Gaussiano permite que os parâmetros de interesse sejam melhor estimados nos casos onde acontecem outliers, além de permitir a identificação de áreas com alta variabilidade, o que na prática é de grande utilidade. 3.2 Processos Gaussianos Seja S = {s 1,..., s I } D R 2 um conjunto de pontos espacialmente referenciados. Em cada ponto s se tem observações de uma variável resposta Z(s) que pode ser explicada por meio de um vetor de variáveis espacialmente referenciadas x(s), usando um modelo de regressão como Z(s) = x T (s)β + w(s) + ɛ(s), (3.1) onde, w(s) captura a associação espacial dos dados devida às covariáveis não observadas ou não medíveis, enquanto ɛ(s) é um ruído branco independente de w(s). O modelo na equação 3.1 geralmente é conhecido como modelo de regressão espacial. A suposição usual é de que w(s) segue um processo Gaussiano com média 0 e função de covariância cov(w(s), w(s )) = C(s, s ). Para toda localização s assume-se 17

34 que ɛ N(0, τ 2 ), de forma independente. Então, o modelo condicional a w para o vetor Z = (Z(s 1 ),..., Z(s I )) T, com n = I, é dado por Z w, β, τ 2 N n (Xβ + w, τ 2 I n ) w θ N n (0, C(θ)) (3.2) ou integrando w, Z β, θ, τ 2 N n (Xβ, Σ), (3.3) com X = [x T (s 1 ),..., x T (s I )] T e Σ = C(θ) + τ 2 I n, onde C(θ) é a matriz com entradas C(s i, s j ), i, j = 1,..., n, o vetor θ contem os parâmetros da estrutura de covariancia do modelo e I n é a matriz identidade de ordem n. Mas note que na inferência para θ, β e τ 2 é preciso inverter matrizes n n, o que pode levar a elevados custos computacionais. 3.3 Processos não Gaussianos O processo em (3.1) é usualmente considerado Gaussiano, onde as distribuições finito dimensionais são normais, não permitindo acomodar observações extremas. Palacios e Steel (2006) propuseram modelos que permitem distribuições com caudas mais pesadas que as da distribuição normal, fazendo uso de misturas de escala, o que permite modelar observações extremas de forma mais adequada. Considere o processo espacial Z(s) = x(s)β + w(s) + ɛ(s), (3.4) λ(s) 1/2 onde w(s) é um processo Gaussiano definido em s D, independente do efeito ɛ(s) N(0, τ 2 ). O processo λ(s) é responsável pela inflação na variância do processo Z(s). Integrando λ, a distribuição finito dimensional de Z tem caudas mais pesadas que as da Normal, permitindo acomodar observações aberrantes. Escrito em forma matricial, 18

35 Z = Xβ + Λ 1/2 w + ε, ε N(0, τ 2 I n ) com Λ = Diag(λ), processo estocástico. λ = (λ 1,..., λ n ). Pode ser mostrado que esse novo processo é um Mas, nos modelos espaciais, este tipo de misturas pode gerar problemas com a continuidade da variável aleatória resultante Z. Assim, para que o novo processo seja contínuo em média quadrática, as variáveis de mistura λ introduzidas no modelo devem ser espacialmente correlacionadas, pois dessa forma localizações muito próximas vão ter valores muito similares de λ (ver Palacios e Steel, 2006). Pode-se assumir que λ i = λ P λ, i = 1,..., n, isto é, todas as localizações compartilham uma variável de mistura comum. Mas, permitir que λ varie para cada sítio faz com que o modelo seja mais flexível e permite a identificação de zonas de alta variabilidade. Assim, valores de λ i pequenos estarão relacionados com regiões do espaço onde os valores das variáveis estão afastados da superfície média, o que em muitas aplicações é de grande interesse. A proposta de Palacios e Steel (2006) para as variáveis de mistura é dado pela equação 3.7. Desta forma, o modelo de processos não Gaussianos é dado por Z w, Λ, β, τ 2 N n (Xβ + Λ 1/2 w, τ 2 I n ) (3.5) w σ 2, θ N n (0, σ 2 R(θ)) (3.6) ln(λ) ν, θ N n ( ν ) 2 1 n, νr(θ) (3.7) onde, C(θ) = [C(s i, s j )] n i,j=1 = σ 2 R(θ), θ é o vetor de parâmetros da estrutura de correlação, R ij = Cor(s i, s j ), para i, j = 1,..., n e 1 n é um vetor de uns de tamanho n e ν R +. Em princípio, a estrutura de correlação do processo λ pode não coincidir com a estrutura de correlação de w. Mas, ao usar estruturas de correlação diferentes para os dois processos pode-se dificultar a estimativa dos parâmetros do modelo, principalmente 19

36 se temos apenas dados espaciais e não espaço-temporais. A covariância entre dois pontos i e j vai ser dada por, ( Cov(z i, z j ) = Cov x(s i )β + w(s i) ( ) w(si ) = Cov λ(s i ), w(s j ) 1/2 λ(s j ) 1/2 λ(s i ) 1/2 + ɛ(s i), x(s j )β + w(s j) ) λ(s j ) + ɛ(s j) 1/2 (3.8) (3.9) = σ 2 Cor(s i, s j )exp{ν(1 + (1/4)[Cor(s i, s j ) 1])} (3.10) Previsão Os modelos geoestatísticos tem importantes aplicações a dados reais, pois eles permitem prever o valor da variável de interesse em localizações não observadas. Seja Z = (zo T, zp T ) T, onde zo T corresponde ao valor da variável nas localizações observadas e zp T é o vetor de variáveis preditas em f localizações não observadas. Neste caso, a distribuição posterior preditiva tem a forma p(z p z o ) = p(z p z o, λ, ζ)p(λ p λ o, ζ, z o )p(λ o, θ z o )dλdζ (3.11) onde, λ = (λ T o, λ T p ) T, similar à partição feita com Z, e ζ = (β, σ 2, τ 2, θ, ν). A integral em 3.11 pode ser aproximada usando métodos de Monte Carlo e, já que p(λ p λ o, ζ, z o ) = p(λ p λ o, ν, z o ) pode-se obter amostras de λ p usando ( ln(λ p ) λ o, ν, z o N f C po C 1 oo (lnλ o + ν 2 1 n) ν ) 2 1 f, v[c po C po C 1 oo C op ] (3.12) onde C(θ) = C oo C po C op C pp 20

37 que foi particionado de forma similar a Z. Assim, para cada (λ o, ζ) obtido, pode se obter um valor de p(z p z o, λ, ζ), onde ( z p z o, λ, ζ N f (X p AX o )β + Az o, σ (Λ p C pp Λ 1 2 p + τ )) 2 σ I 2 f Λ 1 2 o C op Λ 1 2 p [ ] com A = Λ 1 2 p C po Λ 1 2 o Λ 1 2 o C oo Λ o + τ 2 I σ 2 n (3.13) 21

38 Capítulo 4 Processos Preditivos 4.1 Introdução Geralmente os modelos espaciais geram um custo computacional grande, que aumenta com a quantidade de pontos observacionais incluídos nas análise. A facilidade atual para a obtenção de dados georeferenciados faz com que a quantidade de dados disponíveis para a análise estatística aumente consideravelmente, o que implica que o custo computacional para modelar estes dados seja muito grande. Dessa forma, é preciso criar técnicas que permitam diminuir este custo e, além disso, que afetem os resultados da análise o mínimo possível. Na literatura pode-se encontrar várias possíveis soluções para este problema. Por exemplo, Kammann e Wand (2003) usa o método de low rank spline para facilitar a computação no caso de modelos geoaditivos. Stein (2008) usa funções de covariância com suporte compacto. Alguns autores usam estruturas de covariância separáveis, aproximações da função de máxima verossimilhança, média móvel, tapering (este método introduz zeros na matriz de covariância), ou algumas funções básicas que tentam aproximar o processo original w por um processo w, que representa a realização do processo em subespaços de menor dimensão. Alguns dos métodos, mais frequentemente utilizados na literatura para trabalhar grandes conjuntos de dados geoestatísticos, são 22

39 discutidos por Sun et al. (2012). Neste capitulo se estudam os processos preditivos propostos por Banerjee et al. (2008) para processos Gaussianos, para depois estender esta ideia no caso de processos não Gaussianos. 4.2 Processos Gaussianos Preditivos Banerjee et al. (2008), sugerem usar os modelos preditivos para diminuir o custo computacional de modelos espaciais devido à inversão de matrizes de dimensão grande. A ideia de usar processo preditivo é projetar realizações do processo Z num subespaço de dimensão menor, o que facilita a computação. Nessa abordagem, é mais simples acomodar não estacionariedade, modelos multivariados, processos espaço-temporais, entre outros, para grandes conjuntos de dados. Isso ocorre, pois essa abordagem pode ser aplicada diretamente a qualquer estrutura de covariância e para qualquer distribuição que seja usada para o processo Z. Além disso todo processo espacial (ou espaço-temporal) induz um processo preditivo o que facilita o uso deste método. Lembre que no Capítulo anterior, como descrito na equação (3.2), o processo espacial w é tal que w N(0, C(θ)) Agora, considere um conjunto de knots, S = {s 1,..., s m}, m n, que pode ou não ser um subconjunto do conjunto das locações observadas S. Seja w = [w 1,..., w m] T N m (0, C (θ)), (4.1) onde C (θ) é a matriz m m com entradas C(s i, s j), i, j = 1,..., m. Usando o melhor preditor linear que vem da ideia do krigagem (ver seção 2.3.2), a interpolação espacial do modelo para o ponto s 0 é dada por 23

40 w(s 0 ) = E(w(s 0 ) w ) = c T (s 0 ; θ)c 1 (θ)w, (4.2) onde c T (s 0 ; θ) = [C(s 0, s 1; θ),..., C(s 0, s m; θ)]. Essa interpolação define um processo espacial w(s) P G(0, C(.)), com função de covariância C(s, s ; θ) = c T (s; θ)c 1 (θ)c(s ; θ) onde c T (s; θ) = [C(s, s 1; θ),..., C(s, s m; θ)]. O processo w(s) definido em (4.2) é conhecido como processo preditivo derivado do processo w(s). Substituindo w(s) por w(s) no modelo (3.2), é obtido o processo preditivo Z(s) = x T (s)β + w(s) + ɛ(s), (4.3) onde w(s) = c T (s)c 1 (θ)w, w é uma transformação linear de w, que varia no espaço. Esse interpolador define um processo espacial dado por w(s) GP (0, C) onde a função de covariância é dada por C(s, s ) = c T (s; θ)c 1 (θ)c(s ; θ) (4.4) onde, c(s; θ) = [C(s, s j; θ)] m j=1. Da equação 4.4, esse novo processo não é estacionário independentemente de que o processo w(s) seja estacionário ou não. Note que w(s 0 ) é uma projeção ortogonal de w(s 0 ) sobre um subespaço particular. O processo preditivo é a melhor aproximação do processo original (ver Banerjee et al., 2008). Assim, o modelo de processo preditivo Gaussiano para Z está dado por 24

41 Z w, β, τ N n (Xβ + w, τ 2 I n ) w = c T (θ)c 1 (θ)w (4.5) w θ N m (0, C (θ)) (4.6) Ao escrever o modelo dessa forma, a dimensão das matrizes inversas diminui, e com ela o custo computacional. Note que o processo latente w tem dimensão m, que é o número de knots escolhidos pelo pesquisador. Mas, note que o modelo (4.3) é um novo modelo para Z, diferente do modelo em (3.2), levando a inferências diferentes para os parâmetros de interesse. Banerjee et al. (2008) deixa em evidência uma deficiência da proposta original, i.e., o modelo preditivo induz um viés positivo no erro não espacial do modelo, devido à subestimação do erro do processo preditivo espacial. Isso é observado quando são comparados o processo preditivo e o processo original. Os dois processos são Gaussianos, com média zero, mas a variância dos processos é dada por V ar(w(s)) = C(s, s; θ) (4.7) V ar( w(s)) = c T (s; θ)c 1 (θ)c(s; θ) (4.8) Finley et al. (2009) propõem uma possível solução para este problema e, além disso, propõem uma maneira de determinar a localização dos knots a serem escolhidos pelo pesquisador (Ver capitulo 5.2.3). Para tirar o viés na estimação do τ 2 induzida pelo processo preditivo, eles propõem a seguinte transformação do processo: que é conhecida como processo preditivo modificado, onde ẅ(s) = w(s) + ɛ(s), (4.9) 25

42 ɛ(s) N(0, C(s, s; θ) c T (s; θ)c 1 (θ)c(s; θ)), Note que a variância corrigida é igual a do processo original como em (4.7). 4.3 Processos não Gaussianos Preditivos Nossa proposta considera modelos preditivos não Gaussianos. Dessa forma podemos identificar outliers através do processo λ em (3.4), e também teremos inferência rápida usando processos preditivos. Teorema 4.1 Considere um conjunto de knots S = {s 1,..., s m}, que pode ou não pertencer a amostra original S D, e o processo não Gaussiano definido em (3.3). Então o processo preditivo não Gaussiano resultante é dado por, onde, Z(s) = x T (s)β + w(s) + ɛ(s), (4.10) λ 1/2 (s) w(s) = c T (s)c 1 (θ)w (4.11) ln( λ(s)) = ν [ ] R T (s)r 1 (θ)1 m 1 n + R T (s)r 1 (θ)ln(λ ) 2 (4.12) e w σ 2, θ N m (0, σ 2 R (θ)) (4.13) ln(λ ) θ, ν N m ( ν ) 2 1 m, νr (θ) (4.14) com, R (θ) = [Cor(s i, s j; θ)] m i,j=1 = σ 2 C (θ), onde θ é o vetor de parâmetros da estrutura de corelação e R T (s) = [Cor(s, s 1; θ),..., Cor(s, s m; θ)]. Prova: Considerando que w e λ são dois processos independentes e considerando o conjunto de knots S = {s 1,..., s m} tem-se, como no caso Gaussiano, que o processo espacial 26

Exibir mais