Universidade Federal do Rio de Janeiro Instituto de Matemática Modelagem de Processos Espaço-temporais Marina Silva Paez (marina@im.ufrj.br) April 30, 2009 Trabalho realizado em colaboração com: Dani Gamerman (UFRJ) Edna Reis (UFMG) Esther Salazar (Pos-Doc UFRJ) Flávia Landim (UFRJ) Luiz Lêdo Peter Diggle (Lancaster University) Ricardo Ehlers (UFPR) Victor de Oliveira (University of Arkansas)
2/58 Programa Introdução ao problema de dados estruturados no espaço-tempo; Modelos espaço-temporais para dados contínuos; Modelos espaço-temporais para processos pontuais; Modelos espaço-temporais para dados de área.
3/58 Introdução ao problema de dados estruturados no espaço-tempo Objetivo: apresentar formas de tratamento de dados coletados no espaço e/ou tempo que apresentam estrutura de correlação nessas dimensões Processos ambientais são em sua maioria contínuos no tempo e no espaço, variando portanto de forma suave em ambas as dimensões. A percepção da correlação depende da freqüência de observação dos dados no tempo e espaço. Em problemas reais, a análise fica limitada às observações feitas desses processos em determinados períodos de tempo e locais no espaço.
4/58 Dados espaço-temporais - três formas mais usuais: Dados contínuos: Poluição atmosférica no Rio de Janeiro Poluição atmosférica nos E.U.A. Processos Pontuais: Infecçẽs gastro-intestinais na Grã-Bretanha Dados de Área: Infecçẽs gastro-intestinais na Grã-Bretanha Mortes por causas externas no Paraná
5/58 Dados Geoestatísticos O espaço de observação da variável aleatória de interesse é contínuo no espaço e discreto no tempo. Notação: Y t (s), para s S R 2 e t e t = 1,..., T Exemplos Exemplo 1: Poluição atmosférica no Rio de Janeiro Exemplo 2: Poluição atmosférica no Nordeste dos EUA
Poluição atmosférica no Rio de Janeiro índice estação índice estação 1 Bonsucesso 9 Jacarepaguá 2 Botafogo 10 Maracanã 3 Caxias 11 Nova Iguaçú 4 Centro 12 Nilópolis 5 Sumaré 13 Niterói 6 Copacabana 14 São Cristóvão 7 Inhaúma 15 São Gonçalo 8 Itaguaí 16 São João de Meriti 6/58
7/58 Poluição atmosférica no Rio de Janeiro resposta : medições de partículas inaláveis com diâmetro menor que 10µg/m 2 (PM 10 ) observações feitas a cada 6 dias no ano de 1999, em 16 postos de monitoramento Grande quantidade de dados omissos
8/58 Poluição atmosférica no Rio de Janeiro Concentração de partículas inaláveis ao longo do tempo. Podemos observar correlação entre as séries ao longo do tempo Dependência temporal dentro de cada série
9/58 Poluição atmosférica no Rio de Janeiro Média da concentração de partículas inaláveis por estação de monitoramento. Podemos observar uma estrutura espacial nas médias por estação
10/58 Poluição atmosférica no Rio de Janeiro Variável resposta: raiz quadrada da concentração de partículas inaláveis PM 10 (em µg/m 3 ) Variáveis explicativas: temperatura máxima diária (TEMP), e indicadores do dia da semana (SEG, TER, QUA, QUI, SEX, SAB) Modelo especificado: Y t (s i ) N(µ t (s i ), σ 2 e) µ t (s i ) = θ 0 (s i ) + θ 1 (s i )TEMP t + X t θ + φ t, θ j ( ) ind PG(γ j, σ 2 j ρ j( ; λ j )), j = 0, 1. ρ j ( ; λ j ), j = 1, 2 é uma função de correlação exponencial
11/58 Poluição atmosférica no Rio de Janeiro φ t é modelado como um processo AR(1): φ t = δφ t 1 + w t, w t σ 2 φ ind N(0, σ 2 φ ), onde δ [0, 1), σ 2 φ > 0 e t Z. prioris não informativas para θ 2,..., θ 7, σ 2 φ, γ 0 e γ 1, e δ: prioris com locação obtida por análises preliminares para σ 2 e, σ 2, 0 σ 2, λ 1 1 e λ 0 Inferência feita via MCMC, utilizando o pacote estatístico BUGS
12/58 Poluição atmosférica no Rio de Janeiro Estatísticas descritivas baseadas na amostra das distribuições a posteriori obtidas por MCMC parâmetro 2.5% 97.5% média d.p. θ 2-0.140 1.827 0.901 0.501 θ 3-0.959 1.261 0.157 0.583 θ 4-0.477 2.224 0.907 0.688 θ 5 0.526 3.378 1.876 0.720 θ 6 0.605 2.953 1.824 0.604 θ 7-0.537 1.300 0.382 0.477 γ 0 1.413 9.345 5.860 2.040 γ 1 0.065 0.152 0.112 0.023 λ 0 0.0178 0.596 0.224 0.131 λ 1 0.0111 1.468 0.318 0.409 σ 2 0.0567 0.532 0.234 0.124 0 σ 2 109.5 1196.0 495.1 279.0 1 δ 0.289 0.927 0.636 0.169 σ 2 φ 0.441 1.246 0.770 0.204 σ 2 e 0.638 0.831 0.731 0.035
13/58 Poluição atmosférica no Rio de Janeiro Histogramas das posterioris dos parâmetros σ 2 e, σ 2, 0 σ 2, λ 1 0 e λ 1
14/58 Poluição atmosférica no Rio de Janeiro Interpolação: grade regular 50 50, na região que corresponde ao retângulo da figura abaixo: Para obter amostra na escala original: Obter uma amostra da posteriori de Y t ( ) Aplicar transformação quadrática a cada valor amostrado
15/58 Poluição atmosférica no Rio de Janeiro Superfície interpolada das concentrações de PM 10 em t=59
16/58 Poluição atmosférica no Nordeste dos Estados Unidos duas variáveis resposta : SO 2 e NO 3 24 estações de monitoramento (nesse estudo) 342 períodos de tempo: medições mensais de 1992 a 2004 mapa do Nordeste dos EUA com postos de monitoramento
17/58 variáveis resposta log(so 2 ) e log(no 3 ) ao longo do tempo, por estação de monitoramento. Observa-se clara sazonalidade nas séries Variáveis explicativas: ondas de seno e cosseno.
18/58 Y t (s) = X t (s)θ 1t(s) + v 1t (s), θ 1t (s) = θ 2t + v 2t (s), v 2t ( ) ind f λ (v 2t ) θ 2t = θ 2,t 1 + w t, w t ind N(0, W) para t = 1,..., T e s = s 1,..., s N. F 1t e F 2t podem incorporar covariáveis. f λ (v 2t ) define uma estrutura de correlação espacial v 1t (s) ind N(0, σ 2 )
19/58 Caso multivariado Suponha agora q (q > 1) variáveis resposta Propomos o seguinte modelo: Y t = F 1t Θ 1t + v 1t, Θ 1t = F 2t Θ 2t + v 2t, Θ 2t = G t Θ 2,t 1 + w t, v 1t ind N(0, V 1, Σ) v 2t ind N(0, V 2, Σ) w t ind N(0, W, Σ) Definimos V 1 = I N. Dependência espacial está em V 2. Particularmente: V 2 = C V v 2t PG(0, Vρ(λ, ), Σ), onde C é a matriz especificada através da função de correlação ρ(λ, ). O modelo é completado com a especificação de distribuições a priori não informativas (priori de referencia para os parametros da funcao espacial).
20/58 Análise Multivariada Histograma da distribuição a posteriori dos elementos Σ[1, 1], ρ[1, 2], Σ[2, 2].
21/58 Análise Multivariada Histograma da distribuição a posteriori dos elementos da diagonal principal da matriz V.
22/58 Análise Multivariada Histograma da distribuição a posteriori dos elementos da diagonal principal da matriz W.
23/58 Análise Multivariada Histograma da distribuição a posteriori obtida para o parâmetro λ.
24/58 Análise Univariada Quantis de 2,5%, 50% e 97,5% da amostra da distribuição preditiva de SO2.
25/58 Análise Univariada Quantis de 2,5%, 50% e 97,5% da amostra da distribuição preditiva de NO3.
26/58 Análise Multivariada Quantis de 2,5%, 50% e 97,5% da amostra da distribuição preditiva de SO2.
27/58 Análise Multivariada Quantis de 2,5%, 50% e 97,5% da amostra da distribuição preditiva de NO3.
28/58 Análise Multivariada Mediana da distribuição a posteriori de Θ 1.
29/58 Análise Multivariada (a) NO 3 (b) SO 2 Figure: Mediana da distribuição preditiva NO3 e SO2 para pontos da grade com t fixo.
30/58 Processos Pontuais O interesse é a informação a respeito de quando e/ou onde ocorreram determinados eventos Tempo e local de observação não vêm associados à realização de uma variável aleatória (variável resposta). Um exemplo típico é o da ocorrência de doenças. Outros exemplos de processos pontuais são registros de morte por violência e acidentes de trânsito. Objetivo: identificar padrões espaciais. (a) Processo homogêneo (b) Processo não homogêneo Figure: Exemplo de processos homogêneo e não homogêneo.
31/58 Processos Pontuais Modelos tratam a variação temporal e espacial da incidência de eventos Diferentes tipos de resposta: Análise dos tempos/locais de observação de eventos Agregação no espaço: Análise dos tempos de observação de eventos Contagens do número de eventos em intervalos de tempo disjuntos Agregação no tempo: Análise dos locais de observação de eventos Contagens do número de eventos em intervalos áreas disjuntas
32/58 Processos Pontuais Dados agregados no espaço Abordagem 1: respostas no tempo contínuo z é o conjunto de tempos z = (z(1),, z(t)) de ocorrência do processo de Cox Z Abordagem 2: dados de contagem Os dados são observados agregados em intervalos de tempo Processo resposta: número de casos reportados durante esses intervalos Sem perda de generalidade, vamos chamar cada um desses intervalos de dia Y i : número de casos da doença em questão observados no dia i, i = 1,, T. A série temporal Y = {Y 1,, Y T } é uma realização do processo de Cox Z com função de intensidade Λ( ).
33/58 Doenças gastro-intestinais na Grã-Bretanha Exemplo: Dados de doenças gastro-intestinais na Grã-Bretanha Análise pode ajudar a identificar mudanças no padrão de ocorrência de infecções gastro-intestinais T = 6754 casos reportados de janeiro de 1992 a dezembro de 1993 de doenças gastro-intestinais no condado de Hampshire número de casos na região de interesse ao longo do tempo (em dias)
Doenças gastro-intestinais na Grã-Bretanha Histograma das contagens diárias Histograma dos casos reportados por dia. Análise preliminar: modelo log-linear de Poisson, com coeficientes dos indicadores de dia da semana como variáveis explicativas: Intervalos de 95% de credibilidade dos coeficientes para os indicadores no dia da semana. 34/58
35/58 Doenças gastro-intestinais na Grã-Bretanha Y t : número de casos observados no dia t, t = 1,..., 730. Y = (Y 1, Y 2,..., Y 730 ) segue o modelo: Y t Pois(Λ t ), t = 1,..., 730, Λ t = ρ t Π t e Π t = exp{γ t + X t θ}, seja τ2 = σ 2 (1 φ 2 ) [γ t + 0.5σ 2 ] = φ[γ t 1 + 0.5σ 2 ] + e t, e t N(0, τ 2 ), t = 2,..., 730. A intensidade populacional ρ é supostamente conhecida. variáveis explicativas: X t = (SEG,TER,QUA,QUI,SEX,SAB,DOM) t. prioris: σ 2 Gama e φ Uniforme
36/58 Doenças gastro-intestinais na Grã-Bretanha Histogramas das amostras da posteriori de σ 2 e φ
37/58 Doenças gastro-intestinais na Grã-Bretanha Intervalos de 95% de credibilidade da trajetória do processo Λ e número de casos observados por dia: (A) do dia 1 a 365; (B) do dia 366 a 730.
38/58 Doenças gastro-intestinais na Grã-Bretanha Intervalos de 95% de credibilidade da trajetória do processo Λ e número de casos observados por dia: (A) do dia 1 a 365; (B) do dia 366 a 730.
39/58 Doenças gastro-intestinais na Grã-Bretanha Segundo exercício: Trabalhar com uma versão desagregada de Y Tempos de observação z = (z(1), z(2),..., z(730)) foram gerados supondo que dados são reportados uniformemente ao longo de cada dia Histogramas das amostras da posteriori de σ 2 e φ sob essa abordagem
40/58 Doenças gastro-intestinais na Grã-Bretanha Intervalos de 95% de credibilidade dos parâmetros θ correspondendo aos indicadores de segunda a domingo sob as abordagens 1 e 2
41/58 Doenças gastro-intestinais na Grã-Bretanha Previsão para o número de casos nos 10 últimos dias usando as abordagens 2 (em cima) e 1 (em baixo)
42/58 Doenças gastro-intestinais na Grã-Bretanha Análise Espaço-temporal
43/58 Dados de Área A variável de interesse é obtida pela agregação de dados contínuos, ou de processos pontuais É observada sob a forma de contagens ou médias, e é associada a uma área no espaço
44/58 Doenças gastro-intestinais na Grã-Bretanha O mapa é dividido em sub-áreas Grade regular com 270 células sobrepostas a regi ao de estudo.
45/58 Doenças gastro-intestinais na Grã-Bretanha Modelagem Y t Pois(λ [i,t] ), t = 1,..., 168, i = 1,..., 24 log(λ [i,t] ) = log(a i ) + log(ˆλ 0[i] ) + µ t + φ [i,t] A distribuição espacial de todos os casos de 2001 é usada na estimação da intensidade populacional ˆλ 0[i] em cada célula i, através de ˆλ 0[i] = 12 1 y [i,t] + δ, i = 1,..., 168, t = 1,..., 24 a[i] onde y [i,t] é o número de contagens de eventos no célula [i, t]. A tendência temporal µ t é modelada por log(µ t ) = β 0 + β 1 t, t = 1,..., 24
46/58 Doenças gastro-intestinais na Grã-Bretanha Definindo φ [,t] = (φ [1,t],..., φ [N,t] ), a equação de evolução no tempo é dada por: φ [,t] = ηφ [,t 1] + ω [,t], ω [,t] N(0; (1 η) 2 σ 2 R θ ) onde 0 < η < 1, σ 2 > 0, θ > 0, 0 é um vetor de comprimento 168 com elementos iguais a zero, e com R θ = [R i,j ] i,j=1,...,168 R i,j = exp{θ s i s j }, é a matriz 168 168 de correlações espaciais entre as células, modeladas pela função de correlação exponencial.
47/58 Doenças gastro-intestinais na Grã-Bretanha Histogramas das amostras geradas da posteriori dos parâmetros.
48/58 Doenças gastro-intestinais na Grã-Bretanha Mapas das médias a posteriori dos efeitos espaço-temporais φ [i,t].
49/58 Exemplo 2: Óbitos por causas externas no Estado do Paraná Em óbitos por causas externas são agrupados: homicídios, suicídios e acidentes de trânsito. O risco relativo será utilizado como referência para calcular a periculosidade de cada município. Dados foram obtidos no Banco de dados do Sistema Único de Saúde (DataSus). As observações são feitas para cada município do Estado do Paraná anualmente entre os anos de 1979 a 2004.
50/58 Óbitos por causas externas no Estado do Paraná (a) mapa esperado em 1990 (b) mapa esperado em 1996 Figure: Mapas de óbitos causas externas nos anos de 1980 e 2004
51/58 Óbitos por causas externas no Estado do Paraná Número de óbitos nas principais cidades do Paraná ao longo do tempo
52/58 Óbitos por causas externas no Estado do Paraná Análise Descritiva Supondo que o número de óbitos é proporcional ao tamanho populacional, o valor esperado é representado pela seguinte equação: e it = p it p t, i y it onde, p t =, i p it p it é a população do município i no tempo t. y it é o numero de óbitos por causas externas no município i no tempo t. Quanto maior a densidade populacional, maior é a esperança do número de óbitos por causas externas.
53/58 Óbitos por causas externas no Estado do Paraná (a) mapa esperado em 1990 (b) mapa esperado em 1996 Figure: Mapas do valor esperado em 1990 e 1996 Grande correlação entre mapas com valores observados e esperados
54/58 Óbitos por causas externas no Estado do Paraná Modelo Assumimos um modelo Poisson para óbitos por causas externas Y it Poi(Λ it ) Λ it = e it ψ it onde, ψ it é o risco relativo e e it é o valor esperado para i = 1,..., N t = 1,..., T O município será classificado como perigoso se ψ it for significativamente superior a 1. O efeito do tamanho populacional (representado por log(e it )) pode ser separado do log(ψ it ): log(ψ it e it ) = log(ψ it ) + log(e it ) Para o logaritmo do risco relativo estabelecemos o seguinte modelo linear: log(ψ it ) = α t + β t X it + φ it
55/58 Óbitos por causas externas no Estado do Paraná Modelo Condicional Autoregressivo Gaussiano Intrínseco (CAR) A priori que assumimos para φ it tem a seguinte distribuição: ( ) φ it φ jt, σ 2 j:j i w ij φ j 1 t N,, j i; j:j i w ij j:j i w ij σ 2 t Para α t foi proposto um passeio aleatório; O número de escolas por região foi testada como variável explicativa, mas não foi significativa.
56/58 Óbitos por causas externas no Estado do Paraná Resultados de Inferência (a) σ 2 t (b) α t Figure: Intervalos de credibildade para σ 2 t e α t nos 26 anos estudados.
57/58 Óbitos por causas externas no Estado do Paraná (a) φ,2004 Figure: Mapa com as médias a posteriori do parâmetro φ it para t fixo igual a 2004.
58/58 Considerações Finais Modelos espaço-temporais precisam ser bastante flexíveis para ajustar os dados. Os objetivos principais desse tipo de análise são fazer previsão para tempos futuros e interpolação no espaço Os métodos Bayesianos levam em consideração a incerteza a respeito dos parâmetros desconhecidos e inferência pode ser feita a partir de distribuições a posteriori. Para gerar valores de uma distribuição a posteriori podemos utilizar os métodos de MCMC.