A aplicação de Modelos de cadeias de Markov Não-Homogéneas escondidas à vigilância epidemiológica da síndroma gripal Baltazar Nunes 1 Isabel Natário 2 M. Lucília Carvalho 3 1 Departamento de Epidemiologia, Instituto Nacional de Saúde Dr. Ricardo Jorge 2 Departamento de Matemática, Faculdade de Ciências e Tecnologia (UNL); CEAUL 3 Departamento de Estatística e Investigação Operacional, Faculdade de Ciências (UL); CEAUL February 19, 2010
A gripe e o seu impacto 1 As epidemias de gripe encontram-se associadas a excessos de consultas médicas, urgências, hospitalizações e óbitos, que em algumas situações levam a disrupções do funcionamento dos serviços de saúde; 2 Para uma resposta mais adequada dos serviços de saúde pública e organização dos serviços de saúde seria importante identificar: o início da epidemia (do período epidémico); a semana em que o pico de incidência é atingido (assim como das consultas/urgências, hospitalizações e óbitos); a magnitude esperada do impacto da epidemia.
Vigilância epidemiológica da gripe Actualmente o Sistema de Vigilância Integrada Cĺınica e Laboratorial da Gripe (INSA) publica semanalmente à 4 a feira a nível europeu (European Influenza Surveillance Network) e à 5 a feira a nível nacional, relativamente à semana anterior: 1 A taxa de consultas por síndroma gripal por 100.000 utentes - Rede Médicos Sentinela; 2 O número de casos de síndroma gripal positivos para o vírus influenza e sua tipificação (B,A(H3N2),A(H1N1) e A(H1N1)v) - Rede Médicos Sentinela e Urgências Sentinela; 3 E classifica a actividade gripal de acordo com a intensidade, em baixa, moderada e alta; a tendência crescente, decrescente ou estável e distribuição geográfica em casos esporádicos, surtos locais, regional ou disseminada.
Enquadramento Construir um modelo estatístico que com base nas várias fontes de informação existentes em Portugal consiga: 1 Prever e identificar o início do período epidémico; 2 Prever a trajectória da curva epidémica nas semanas seguintes (1 ou 2 semanas): intensidade (ou magnitude) da epidemia; a duração do período epidémico; semana de incidência máxima (pico da epidemia);
Enquadramento Método Objectivo Referência Regressão 1 Serfling 1963; Nunes et al 2002; Cowling 2006 ARIMA 1 Choi and Thacker 1981; Cowling 2006 CUSUM 1 Cowling 2006 Hidden Markov Models 1 Strat e Carat 1999; Rath et al 2003; Martinez-Beneito et al 2008 State Space Models 1 Zhou, T et al 2008 Não paramétricos 1,2 Viboud C et al 2003; Andersson 2008 Bayesian Networks 2 Sebastiani et al 2006
- Cadeias de Markov escondidas Y t representa a taxa de incidência de síndroma gripal na semana t; A cada Y t está associado uma variável S t não observada que determina a distribuição de Y t ; S t é uma cadeia de Markov homogénea com 2 estados (0=não epidémico e 1=epidémico) com as probabilidades de transição estacionárias: com i,j = 0,1 γ i,j = P[S t = j S t 1 = i]
- Cadeias de Markov escondidas Strat e Carrat 1999 Y t S t = i N(µ i,t, σ i) µ i,t = α i + δ it + β 1,i sin( 2π ) + β2,i cos(2π ),i = 0,1 52 52 Rath et al.2003 Y t S t = 0 Exp(α)i.i.d. Martínez-Beneito et al.2008 onde a representa a época de gripe Y t S t = 1 N(µ, σ)i.i.d. Z t,a = Y t,a Y t 1,a, Z t,a S t,a = 0 N(0, σ 0,a) Z t,a S t,a = 1 N(ρz t 1,a, σ 1,a) AR(1)
- Cadeias de Markov escondidas Modelo Estimação Comentários Strat e Carat 1999 SAEM (aproximação Assume a independência de Y t tanto estocástica no estado epidémico como no não do algoritmo EM) epidémico; Considera que Y t tem uma distribuição Normal que pode assumir valores inferiores a zero. Rath et al. algoritmo EM Assume a independência de Y t tanto (Baum-Welch) no estado epidémico como no não epidémico; Considera que Y t tem uma distribuição Exponencial no estado não epidémico para que a incidência não assuma valores negativos. Martínez-Beneito et al. Gibbs sampling MCMC (WinBUGS) Modela as diferenças de ordem 1 pois Y t não é estacionário; Modela a não independência no estado epidémico com um AR(1).
Características do novo modelo Equações diferentes para período epidémico e não epidémico, com inclusão de diferentes auto-correlações, periodicidade e séries temporais exógenas; Permitir que a matriz de probabilidades de transição entre os estados seja dependente do tempo através de variáveis exógenas; Definir estratégias para a previsão a curto prazo (1 a 2 semanas) de Y t (prevendo a trajectória da incidência) e de S t (prevendo as probabilidades de transição).
A taxa de incidência na semana t é definida por: { µ0 + ϕ y t = 0 y t 1 + β 1 cos( 2πt 52 ) + β 2 sin( 2πt 52 ) + e t,0 S t = 0 µ 1 + ϕ 1 y t 1 + θx t + e t,1 S t = 1 onde e t,i N(0,τ i ) e t = 1,...,T com a restrição de identificabilidade τ 0 > τ 1 o estado não epidémico é descrito por uma componente AR(1) e uma função cíclica de período 52 semanas; o estado epidémico é descrito por uma combinação linear de uma componente AR(1) e da taxa de incidência de SG no grupo etário 0-4 anos - x t.
Os estados de actividade gripal não observados S t são modelados por uma cadeia de Markov Não-homogénea com dois estados, cujas probabilidades de transição são dependentes do tempo: γ t i,j = P(S t = i/s t 1 = j) i,j {0,1} com a matriz de probabilidades de transição: Γ t = γ0,0 t γ t 0,1 γ1,0 t γ1,1 t onde γ t 0,0 = 1 γt 0,1 e γt 1,1 = 1 γt 1,0.
No modelo proposto por Paroli e Spezia 2008 as probabilidades de transição são modeladas por intermédio de uma função logit de uma variável exógena z t : logit(γ t 0,1 ) = ln( γ t 0,1 /γt 0,0) = α0,1,0 + α 0,1,1 z t logit(γ t 1,0 ) = ln( γ t 1,0 /γt 1,1) = α1,0,0 + α 1,0,1 z t γ t 0,1 = exp(α 0,1,0 + α 0,1,1 z t )/(1 + exp(α 0,1,0 + α 0,1,1 z t )) γ t 1,0 = exp(α 1,0,0 + α 1,0,1 z t )/(1 + exp(α 1,0,0 + α 1,0,1 z t )) Na proposta actual z t é o número de casos de síndroma gripal confirmados para o vírus influenza na semana t.
Estimação dos parâmetros do modelo A inferência sobre os parâmetros do modelo Ψ = (µ,τ,r,θ,β,α,s T ) será obtida por metodologias de estatística Bayesiana, com aplicação do algoritmo MCMC. Onde: µ = (µ 0, µ 1); τ = (τ 0, τ 1) sobre a restrição τ 0 > τ 1; R = (R 0,R 1) onde R i = ln ( 1+ϕi 1 ϕ i ); θ parâmetro de regressão associado a variável exógena x t; β = (β 1, β 2) parâmetros da regressão cíclica; α = (αα 0,1 s T α 0,1,αα 1,0 α 1,0) onde α 0,1 = (α 0,1,0, α 0,1,1) e α 1,0 = (α 1,0,0, α 1,0,1) s T = (s 1,..., s t,..., s T ) é a sequência de estados da actividade gripal escondidos. a distribuição inicial é fixa em δ = (1/2, 1/2)
Estimação dos parâmetros do modelo As distribuições a priori escolhidas para os parâmetros: µ i N(µ M ;σm 2 ) for i {0,1}; τ i Gamma(α Σ ;β Σ ), sobre a restrição τ 0 > τ 1 ; R i N(µ R ;σr 2 ) for i {0,1}; θ N(µ θ ;σθ 2); (β 1,β 2 ) N(µ B ;Σ B ); (α 0,1,0,α 0,1,1 ) N(µ A ;Σ A ); (α 1,0,0,α 1,0,1 ) N(µ A ;Σ A ).
Estimação dos parâmetros do modelo Distribuição a posteriori Ψ: ( ) Π Ψ y y T,y 0,X,V,Z, δ ( = f ) µ, τ,r, θ, β, α,s s T y y T,y 0, X,V, Z, δ ( f y T µ, τ,r, θ, β, α,s s T,X,V,y 0) ( ) f s T α,z, δ p(µ)p(τ)p(r)p(δ)p(β)p(α) onde, y T y T = (y 1,..., y t,..., y T ) é o vector das taxas de incidência e y 0 as taxas iniciais para o AR(1); X = (x 1,..., x t,..., x T ) é o vector da variável exógena taxa de incidência no grupo etário 0-4 anos; V = (v 1,v 2) onde v 1 = (cos(2π/52),..., cos(2πt/52),..., cos(2πt/52)) e v 2 = (sin(2π/52),..., sin(2πt/52),..., sin(2πt/52)) periodicidades; Z = (z 1,..., z t,..., z T ) é o vector da variável exógena número de casos de SG positivos para influenza.
Estimação dos parâmetros do modelo A verosimilhança de y T factorizada é dada por : ( f y T µ, τ,r, θ, β, α,s s T,X,V,y 0) T = f(y t y t 1, µ, τ,r, θ, β,s t,x,v,y 0) Onde, f(y t y t 1, µ, τ,r, θ, β,s t,x,v,y 0) = t=1 = { ( τ0 2π exp τ0 y t µ 0 ϕ 0y t 1 β 1 cos( 2πt ) } 2 ) β2 sin(2πt 2 52 52 ) se s t = 0; se s t = 1. = τ1 { 2π exp τ1 (yt µ1 ϕ1yt 1 θxt)2} 2
Estimação dos parâmetros do modelo Finalmente a distribuição conjunta da sequência de estados de actividade gripal é dada por: f(s T α, Z, δ) = δ s1 Onde, δ = (1/2, 1/2) γ0,0 t = 1/(1 + exp(α 0,1,0 + α 0,1,1z t)) T γs t t 1,s t γ0,1 t = exp(α 0,1,0 + α 0,1,1z t)/(1 + exp(α 0,1,0 + α 0,1,1z t)) γ1,1 t = 1/(1 + exp(α 1,0,0 + α 1,0,1z t)) γ1,0 t = exp(α 1,0,0 + α 1,0,1z t)/(1 + exp(α 1,0,0 + α 1,0,1z t)) t=2
Algoritmo MCMC Tomemos Ψ k 1 = ( µ k 1, τ (k 1),R k 1, θ k 1, β k 1, α k 1,s T(k 1)) obtido na iteração k 1 a sequência dos estados s T(k) é gerada pelo algoritmo forward filtering - backward sampling (ff-bs) Chib 1996; os parâmetros τ0 k e τk 1 são gerados de forma independente de uma distribuição Gama condicional completa, sujeita a restrição τ0 k > τk 1 que é conseguida pela aplicação da constrained permutation sampling Frühwirth-Schnatter, 2001; os parâmetros µ k 0 e µk 1 são gerados de forma independente de uma distribuição Normal condicional completa; os parâmetros R0 k e Rk 1 são gerados de forma independente de um passeio e aleatório e aceites com base numa probabilidade de aceitação;
Algoritmo MCMC o parâmetro θ k é gerado de forma independente de uma distribuição Normal condicional completa; os parâmetros (β1 k, βk 2 ) são gerados de forma independente de uma distribuição Normal Multivariada condicional completa; os parâmetros (α k 0,1,0, αk 0,1,1 ) (αk 1,0,0, αk 1,0,1 ) são gerados de forma independente de passeio aleatório multivariado que são aceites com base numa probabilidade de aceitação.
Taxa de incidência 0 50 150 250 0 100 200 300 400 500 semanas Taxa de incidência 0 4 anos 0 100 200 300 0 100 200 300 400 500 semanas Nº casos positivos influenza 0 20 60 100 0 100 200 300 400 500 semanas
azul não-epidémica (P < 0.5) vermelho epidémica (P > 0.5) Taxa de incidência 0 50 150 250 0 100 200 300 400 500 semanas Prob. estado epidémico 0.0 0.4 0.8 0 100 200 300 400 500 semanas
Procurar metodologias alternativas à apresentada no artigo Paroli e Spezia 2008 para a estimação dos parâmetros; Explorar a estrutura do modelo: usar a série Z t = Y t Y t 1, necessidade de periodicidades, outras variáveis exógenas (temperatura, humidade absoluta, etc) a diferentes lags; Desenvolver metodologia para a predição da taxa de incidência Y t e dos estados futuros de actividade gripal S t.
References Enquadramento Serfling RE.Methods for Current Statistical Analysis of Excess Mortality Pneumonia-Influenza Deaths. Public Heath Reports 1963; 78 6: 494-506. Cowling BJ, Wong IL, Ho LI, Riley S and Leung GM. Methods for monitoring influenza surveillance data. International Journal of Epidemiology 2006. Choi K and Thacker SB.An evaluation of influenza mortality surveillance 1962-1979. American Journal of Epidemiology 1981; 113 3: 215-216. Strat L, Carrat F. Monitoring epidemiologic surveillance data using Hidden Markov Chains models. Statistics in Medicine 1999; 18 3463-3478. Rath TM, Carreras M, Sebastiani P. Automated Detection of Influenza Epidemics. University of Massachusetts 2003.
References Enquadramento Martínez-Beneito MA, Conesa D, Lopéz-Quiléz A, Lopez-Maside A. Bayesian Markov switching models for the early detection of influenza epidemics. Statistics in Medicine 2008; 27 4455-4468. Zhou T, Shumway R. One-step approximations for detecting regime changes in the state space model with application to the influenza data. Computational Statistics and Data Analysis 2008; 52 2277-2291. Viboud C, Boelle PY, Carrat F, Valleron AJ, Flahault A. OPrediction of the Spread of Influenza Epidemics by the Method of Analogues. American Journal of Epidemiology 2003; 158 996-1006. Anderson E, Bock D, Frisén M. Modelling influenza incidence for the propose of on-line monitoring. Statistical Methods in Medical Research 2008; 17 421. Sebastiani P, Mandl KD, Szolovits P, Kohane IS, Ramoni F. A Bayesian dynamic model for influenza. Statistics in Medicine 2006; 25 1803-1816.