Modelos bayesianos sem MCMC com aplicações na epidemiologia Leo Bastos, PROCC/Fiocruz lsbastos@fiocruz.br
Outline Introdução à inferência bayesiana Estimando uma proporção Ajustando uma regressão Métodos computacionais MCMC INLA Aplicações em Epidemiologia Uso de álcool ilícito Morbidade por doenças respiratórias no Rio de Janeiro Modelos idade-período-coorte para câncer de pulmão
Interpretações de probabilidade Suponha que estamos interessados na probabilidade de cara em um lançamento honesto de uma moeda honesta. Interpretação frequentista: Essa probabilidade é 50%, pois se realizássemos o experimento lançar a moeda um número muito alto de vezes, esperíamos que metade dos experimentos resultassem cara. Interpretação subjetiva: Essa probabilidade é 50%, pois em um lançamento honesto de uma moeda honesta creio que os dois possíveis resultados sejam equiprováveis.
Crença x probabilidade Tudo que é desconhecido pode ser representado por uma função de crença. A crença a respeito de algo está associada a nossa incerteza. Podemos quantificar crenças ou incertezas usando probabilidades.
Exemplo: Obesidade infantil Qual a proporção de crianças com sobrepeso ou obesidade em Presidente Prudente? O que sabemos sobre essa quantidade? Qual a nossa incerteza a respeito? Podemos representar o nosso conhecimento usando uma função de densidade e probabilidade? Será que podemos atualizar esse conhecimento usando um experimento?
Representando a minha incerteza
Realizando um experimento Suponha que vamos selecionar uma amostra aleatória de 100 adultos e medir IMC. Seja Y uma variável binária representando o total de pessoas dessa amostra com sobrepeso. Um modelo para esse tipo de experimento seria: Foi observado que 24 dessas crianças estavam com sobrepeso. Como podemos combinar nosso conhecimento a priori com os dados do experimento?
Atualizando a minha incerteza A minha incerteza a priori é atualizada após definirmos um modelo experimental e coletarmos os dados. Essa atualização é feita via teorema de Bayes A distribuição a priori usada no exemplo é uma Beta(3,9). Pode-se mostrar que a distribuição a posteriori também é uma Beta com parâmetros 26 e 84.
Priori e posteriori para
Algumas conclusões a posteriori O valor esperado a posteriori para a proporção de crianças com sobrepeso foi de 23.6%. Com probabilidade 0.95, a proporção de crianças com sobrepeso está no intervalo (16,2%; 32,0%) O intervalo acima é chamado de intervalo de credibilidade.
Exemplo: Regressão Gama Estamos interessados em avaliar o efeito do trabalho noturno no aumento do IMC em enfermeiras no Rio de Janeiro. Um questionário foi aplicado a 2100 enfermeiras no município do Rio de Janeiro, e entre outras perguntas tinha a informação de peso atual, peso aos 20 anos, altura e tempo de trabalho noturno. O modelo proposto para verificar essa relação foi:
Exemplo: Regressão Gama Devemos explicitar prioris para Nesse trabalho utilizamos prioris não informativas. A distribuição a posteriori dos parâmetros é dada por A integral do denominador é analicamente intratável, e métodos numéricos são necessários.
Efeitos do trabalho noturno Em particular estamos interessados na distribuição Modelo Valor esperado a posteriori Intervalo de credibilidade M1: BMI ~ NightWork 0.107 (0.075; 0.138) M2: M1 + Age 0.064 (0.028; 0.099) M3: M2 + BMI at 20 y.o. 0.045 (0.017; 0.072) M4: M3 + confounding 0.035 (0.008; 0.062) - Efeito no IMC por ano de trabalho noturno. Esses valores só podem ser obtidos usando métodos de numéricos, como o MCMC ou o INLA.
Método de Monte Carlo O método de Monte Carlo é um método usado para resolver integrais do tipo: é uma função de densidade. A integral de Monte Carlo é dada por: onde são amostras geradas de
Monte Carlo Se soubéssemos como gerar amostras da distribuição a posteriori, então poderíamos obter várias quantidades via Monte Carlo Exemplo: Média, variância, quantis. Geralmente, as distribuições a posteriori não tem forma analítica fechada, e portanto não é possível gerar diretamente delas. Se faz necessário o uso de métodos para gerar amostras de distribuições onde somente o núcleo é conhecido. Aqui entram os métodos de Monte Carlo via Cadeias de Markov.
MCMC Os métodos de Monte Carlo via Cadeias de Markov (MCMC) cumprem esse papel. Em um MCMC precisamos gerar de forma iterativa amostras das condicionais completas. Seja: As condicionais completas são dadas por:
MCMC: Algotitmo O algoritmo para gerar amostras de Inicialize Para k de 1 até M (grande) Gere de: Gere de:... Gere de: Verifique a convergência das cadeias, após o ponto de convergência, as amostras geradas são amostras da posteriori de interesse.
MCMC Algoritmo de Metropolis-Hasting, e amostrador de Gibbs Os métodos de MCMC foram inicialmente desenvolvidos no final da década de 1940. Somente no início da década de 1990 que esses métodos entraram na literatura estatística (Gelfand & Smith, 1990) São métodos computacionalmente intensivos.
INLA O método INLA (Integrated nested Laplace approximations) fornece uma alternativa ao método de MCMC para uma classe de modelos. Seja um modelo pertencente a família exponencial, com Se pudermos atribuir prioris Gaussianas às quantidades chamados modelos Gaussianos latentes. A essa classe de modelos podemos usar o método INLA para obter aproximações das marginais da posteriori.
INLA As marginais da posteriori de são Rue, Martino & Chopin (2009) proporam que as marginais a posteriori podem ser aproximadas por
INLA A condicional completa de é aproximada numericamente por uma Normal E a distribuição a posteriori dos hiperparâmetros é a dimensão dos hiperpaametros não pode ser grande (máximo 15 a 20 hiperparâmetros)
INLA Exemplos de modelos: Modelos de lineares generalizados Modelos dinâmicos Modelos espaciais e espaço-temporais Essa aproximação é computacionalmente barata, e não há necessidade de checar convergência de cadeias. Essa metodologia está implementada no R www.r-inla.org
Exemplos Modelo de regressão logística com efeitos aleatórios para estudar o perfil do usuário de álcool ilícito. Modelo de regressão de Poisson com efeitos aleatórios espaciais na mortalidade por doenças respiratórias no Rio de Janeiro. Modelo idade-periodo-cohorte para casos de cancer de pulmão no Brasil.
Usuário de álcool ilícito: Descrição Um estudo seccional guiado pelo participante (RDS) foi realizado no Rio de Janeiro entre junho e setembro de 2010 em usuários adultos de álcool. O objetivo foi estudar o perfil de usuários de álcool ilícito: Bebidas caseiras, sem o devido registro das autoridades brasileiras. Uso de perfumes ou loções como bebida Produtos medicinais derivados de cachaça. 305 participantes foram considerados elegíveis.
Usuário de álcool ilícito: o modelo A amostragem guiada pelo participante (RDS) não é uma amostra aleatória, então incluímos ao modelo um efeito aleatório iid, ou seja, inla(y ~ x1+x2 + f( ind, model= iid ), family=binomial)
Uso de álcool ilícito Unadjusted OR (CI 95%) Adjusted OR (CI 95%) Male 1.33 (0.66-2.58) 0.75 (0.31-1.74) Age bracket 18-31 years old 32-45 years old 1 1 1.61 (0.87-3.00) 2.21 (1.05-4.80) >45 years old 1.54 (0.82-2.91) 2.67 (1.23-5.94) Occupation Employee/civi l servant 1 1 Selfemployed/em ployer 0.37 (0.05-1.41) 0.41 (0.05-1.90) Unemployed 0.31 (0.04-1.17) 0.22 (0.03-1.04) AUDIT score > 20 13.06 (5.61-34.55) 11.21 (4.56-30.96)
Uso de álcool ilícito Unadjusted OR (CI 95%) Adjusted OR (CI 95%) Use of crack cocaine in the last 12 months Never 1 1 Cocaine powder crack OR Cocaine powder AND crack Use of ecstasy in the last 12 months 1.33 (0.69-2.55) 1.06 (0.49-2.27) 2.55 (1.30-5.03) 2.29 (1.02-5.21) Never 1 1 Ecstasy OR medicines Ecstasy AND medicines Have been treated for alcohol dependence in the last 12 months 3.48 (1.70-7.92) 4.05 (1.74-10.47) 10.06 (2.05-242.87) 16.65 (2.31-390.21) 3.42 (1.41-10.37) 3.64 (1.25-13.49)
Morbidade por doenças respiratórias no Rio de Janeiro em 2003 Com o objetivo de verificar algum padrão espacial no total internações por doenças respiratórias nos municípios do Rio de Janeiro (Y_i), o seguinte modelo foi ajustado:
Morbidade doenças respiratórias Foram utilizadas como variáveis de controle: Densidade populacional, SO2, PM10, frota veicular, taxa de urbanização, e IDH. Nenhuma das covariáveis foi significativa, quando a estrututra espacial foi incluída no modelo. No R o comando é: inla(morb ~ 1+f(MUN, model= besag ), family="poisson", data=data, E=E_dem_morb)
Morbidade doenças respiratórias
Modelos idade-período-coorte São modelos cujo o objetivo é avaliar o efeito temporal da ocorrência de um evento. Principalmente estimar separadamente o efeito de idade, período e coorte (geralmente de nascimento) na evolução de taxas. Efeito de idade: descreve variações associadas com a idade cronologica dos grupos. Efeito de período: são variações associadas a períodos de tempo que influenciam todas as idades simultaneamente. Efeito de coorte: mudanças associadas a diferentes gerações nas coortes (de nascimento)
Modelos APC Seja o seguinte exemplo hipotético: p1980 p1990 p2000 p2010 a60 c1920 c1930 c1940 c1950 a70 c1910 c1920 c1930 c1940 a80 c1900 c1910 c1920 c1930 a90 c1890 c1900 c1910 c1920 Em cada célula observa-se por exemplo o número de casos, e a população sob risco. O principal problema é o confundimento: Período fixo (estudo seccional): idade e coorte se confundem Coorte fixa (estudo longitudinal), idade e período se confundem
Modelos APC Yang & Land (2013) escreveram um livro sobre APC analysis, com várias propostas para estimação desse efeitos. Uma possível forma de resolver o problema foi proposta por Knorr-Held & Rainer (2001) usando modelos com efeitos aleatórios. Fazendo projeções para cancer de pulmão na Alemanha. Os autores apresentaram o modelo e o resolveram usando um MCMC, vamos implementar o mesmo modelo usando o INLA.
O modelo APC proposto Seja o número de óbitos por cancer de pulmão da faixa etária i e período j. Seja a população sob risco da faixa etária i e período j. O modelo de interesse é
O modelo APC proposto Se os efeitos aleatórios a priori seguirem um passeio aleatório de ordem 1, então o modelo é totalmente identificavél. (Knorr-Held & Rainer, 2001) Ou seja,
Modelos APC: Cancer de Pulmão Considere o total de casos de câncer de pulmão no Brasil por Faixas etárias: {35-39, 40-44, 45-49,...,75-79,80+} Períodos {1980-1984, 1985-1989,...,2000-2004} Estratificado por sexo {masculino e feminino} Um modelo APC com efeitos aleatórios sgeundo Knorr- Held & Rainer (2001) será aplicado para estimar os efeitos de idade, período e coorte.
Hiperparâmetros dos efeitos Homens Mulheres Precisão Média IC de 95% Média IC de 95% Idade Período Coorte 20.1 (7.5,40.5) 29.1 (10.9, 58.9) 27660 (5171, 79065) 580 (142, 1474) 674 (282, 1325) 8800 (1762, 26254)
Efeito de Idade
Efeito de período
Efeito de coorte
Resumo Para uma classe de modelos é possível fazer inferência bayesiana sem a necessidade o uso do MCMC A alternativa computacional é o método INLA, que apresenta aproximações para as marginais da distribuição a posteriori conjunta. O pacote INLA está disponível no site: http://www.r-inla.org Os exemplos apresentados aqui são trabalhos em parceiria com pesquisadores da Fiocruz, se alguem tiver interesse fique a vontade para conversar.
Obrigado! Leo Bastos: lsbastos@fiocruz.br http://www.procc.fiocruz.br