Modelos bayesianos sem MCMC com aplicações na epidemiologia

Documentos relacionados

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística

Estimação bayesiana em modelos lineares generalizados mistos: MCMC versus INLA

O que é a estatística?

Cláudio Tadeu Cristino 1. Julho, 2014

Distribuição Exponencial Exponenciada na Presença de Fração de Cura: Modelos de Mistura e Não-Mistura

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Análise Bayesiana do Sistema de Cotas da UFBA

BC-0005 Bases Computacionais da Ciência. Modelagem e simulação

Então, O que é Inferência Bayesiana?

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Distribuições de Probabilidade Distribuição Binomial

Epidemiologia. Profa. Heloisa Nascimento

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

6 Construção de Cenários

Noções de Pesquisa e Amostragem. André C. R. Martins

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

COMPARAÇÃO DOS TESTES DE ADERÊNCIA À NORMALIDADE KOLMOGOROV- SMIRNOV, ANDERSON-DARLING, CRAMER VON MISES E SHAPIRO-WILK POR SIMULAÇÃO

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA 4 a LISTA DE EXERCÍCIOS GBQ12 Professor: Ednaldo Carvalho Guimarães AMOSTRAGEM

Exercícios resolvidos sobre Definição de Probabilidade

2. Método de Monte Carlo

1. Introdução. 1.1 Introdução

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

Avaliando o que foi Aprendido

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

4 Avaliação Econômica

UNIVERSIDADE FEDERAL DO PIAUÍ (UFPI) ENG. DE PRODUÇÃO PROBABILIDADE E ESTATÍSTICA 2

Introdução à análise de dados discretos

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

COMO AVALIAR O RISCO DE UM PROJETO ATRAVÉS DA METODOLOGIA DE MONTE CARLO

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ

Inferência Estatística

Exercícios Resolvidos sobre probabilidade total e Teorema de Bayes

CURSO ON-LINE PROFESSOR GUILHERME NEVES

Bom serviço dentro da garantia Serviço deficiente dentro da garantia Vendedores de determinada marca de pneus 64 16

Estudos de Coorte: Definição

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros.

Imputação de dados faltantes em séries temporais de poluição atmosférica

Valor Prático da Distribuição Amostral de

Aula 04 Método de Monte Carlo aplicado a análise de incertezas. Aula 04 Prof. Valner Brusamarello

Métodos de Monte Carlo

MAT 461 Tópicos de Matemática II Aula 3: Resumo de Probabilidade

Apresentação. Introdução. Francine Leite. Luiz Augusto Carneiro Superintendente Executivo

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Mudanças demográficas e saúde no Brasil Dados disponíveis em 2008

Simulação Estocástica

7Testes de hipótese. Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno. H 0 : 2,5 peças / hora

UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda.

Cálculo das Probabilidades e Estatística I

Simulação Transiente

AVALIAÇÃO DA EPIDEMIA DE AIDS NO RIO GRANDE DO SUL dezembro de 2007

1 Método de Monte Carlo Simples

(b) Qual a probabilidade de ter sido transmitido um zero, sabendo que foi recebido um (1.0) zero?

INFORMATICA PARA A VIGILANCIA E GESTAO DE INFORMACOES EM SAUDE: Prof. Dr. Joao Bosco Siqueira

Regra do Evento Raro p/ Inferência Estatística:

TEORIA DO RISCO. LUIZ SANTOS / MAICKEL BATISTA economia.prof.luiz@hotmail.com maickel_ewerson@hotmail.com

5 Conclusões e Recomendações

26/4/2012. Inquéritos Populacionais Informações em Saúde. Dados de Inquéritos Populacionais. Principais Características. Principais Características

2 Atualidade de uma base de dados

Briefing. Boletim Epidemiológico 2010

Simulação Computacional de Sistemas, ou simplesmente Simulação

Exercícios Resolvidos da Distribuição Binomial

PRIMAVERA RISK ANALYSIS

Modelagem de Processos Espaço-temporais

Exercícios Resolvidos sobre Amostragem

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi

Hipótese Estatística:

Exercícios resolvidos sobre Função de probabilidade e densidade de probabilidade

Como aleatorizar? (Nome professor) (Universidade) Abdul Latif Jameel Poverty Action Lab.

IV Prova de Epidemiologia e Bioestatística. Aluno:

DISTRIBUIÇÕES DE PROBABILIDADE

Estatística: Conceitos e Organização de Dados. Introdução Conceitos Método Estatístico Dados Estatísticos Tabulação de Dados Gráficos

Aula 5 Técnicas para Estimação do Impacto

Dois eventos são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A B = Φ

2. Representação Numérica

Matemática Financeira II

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG EPPGG

A avaliação da incerteza do tipo B. Segundo o Guia para Expressão da Incerteza na Medição (Joint Commitee for Guides

DESENVOLVENDO HABILIDADES CIÊNCIAS DA NATUREZA I - EM

INE 5111 Gabarito da Lista de Exercícios de Probabilidade INE 5111 LISTA DE EXERCÍCIOS DE PROBABILIDADE

3 Método de Monte Carlo

CAP4: Distribuições Contínuas Parte 1 Distribuição Normal

Introdução. Métodos de inferência são usados para tirar conclusões sobre a população usando informações obtidas a partir de uma amostra.

Bioestatística Aula 3

ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD

Exemplos de Testes de Hipóteses para Médias Populacionais

GERAÇÃO DE VIAGENS. 1.Introdução

Probabilidade - aula III

CURSO ON-LINE PROFESSOR GUILHERME NEVES 1

Lógica e Raciocínio. Decisão sob Risco Probabilidade. Universidade da Madeira.

Variáveis Aleatórias Contínuas e Distribuição de Probabilidad

Teorema do Limite Central e Intervalo de Confiança

DISTRIBUIÇÃO NORMAL 1

Módulo VIII. Probabilidade: Espaço Amostral e Evento

Universidade da Beira Interior - Departamento de Matemática ESTATÍSTICA APLICADA À PSICOLOGIA I

Distribuições de Probabilidade Distribuição Normal

Empresa de Pesquisa Energética (EPE) Analista de Projetos da Geração de Energia

Logo, para estar entre os 1% mais caros, o preço do carro deve ser IGUAL OU SUPERIOR A:

Transcrição:

Modelos bayesianos sem MCMC com aplicações na epidemiologia Leo Bastos, PROCC/Fiocruz lsbastos@fiocruz.br

Outline Introdução à inferência bayesiana Estimando uma proporção Ajustando uma regressão Métodos computacionais MCMC INLA Aplicações em Epidemiologia Uso de álcool ilícito Morbidade por doenças respiratórias no Rio de Janeiro Modelos idade-período-coorte para câncer de pulmão

Interpretações de probabilidade Suponha que estamos interessados na probabilidade de cara em um lançamento honesto de uma moeda honesta. Interpretação frequentista: Essa probabilidade é 50%, pois se realizássemos o experimento lançar a moeda um número muito alto de vezes, esperíamos que metade dos experimentos resultassem cara. Interpretação subjetiva: Essa probabilidade é 50%, pois em um lançamento honesto de uma moeda honesta creio que os dois possíveis resultados sejam equiprováveis.

Crença x probabilidade Tudo que é desconhecido pode ser representado por uma função de crença. A crença a respeito de algo está associada a nossa incerteza. Podemos quantificar crenças ou incertezas usando probabilidades.

Exemplo: Obesidade infantil Qual a proporção de crianças com sobrepeso ou obesidade em Presidente Prudente? O que sabemos sobre essa quantidade? Qual a nossa incerteza a respeito? Podemos representar o nosso conhecimento usando uma função de densidade e probabilidade? Será que podemos atualizar esse conhecimento usando um experimento?

Representando a minha incerteza

Realizando um experimento Suponha que vamos selecionar uma amostra aleatória de 100 adultos e medir IMC. Seja Y uma variável binária representando o total de pessoas dessa amostra com sobrepeso. Um modelo para esse tipo de experimento seria: Foi observado que 24 dessas crianças estavam com sobrepeso. Como podemos combinar nosso conhecimento a priori com os dados do experimento?

Atualizando a minha incerteza A minha incerteza a priori é atualizada após definirmos um modelo experimental e coletarmos os dados. Essa atualização é feita via teorema de Bayes A distribuição a priori usada no exemplo é uma Beta(3,9). Pode-se mostrar que a distribuição a posteriori também é uma Beta com parâmetros 26 e 84.

Priori e posteriori para

Algumas conclusões a posteriori O valor esperado a posteriori para a proporção de crianças com sobrepeso foi de 23.6%. Com probabilidade 0.95, a proporção de crianças com sobrepeso está no intervalo (16,2%; 32,0%) O intervalo acima é chamado de intervalo de credibilidade.

Exemplo: Regressão Gama Estamos interessados em avaliar o efeito do trabalho noturno no aumento do IMC em enfermeiras no Rio de Janeiro. Um questionário foi aplicado a 2100 enfermeiras no município do Rio de Janeiro, e entre outras perguntas tinha a informação de peso atual, peso aos 20 anos, altura e tempo de trabalho noturno. O modelo proposto para verificar essa relação foi:

Exemplo: Regressão Gama Devemos explicitar prioris para Nesse trabalho utilizamos prioris não informativas. A distribuição a posteriori dos parâmetros é dada por A integral do denominador é analicamente intratável, e métodos numéricos são necessários.

Efeitos do trabalho noturno Em particular estamos interessados na distribuição Modelo Valor esperado a posteriori Intervalo de credibilidade M1: BMI ~ NightWork 0.107 (0.075; 0.138) M2: M1 + Age 0.064 (0.028; 0.099) M3: M2 + BMI at 20 y.o. 0.045 (0.017; 0.072) M4: M3 + confounding 0.035 (0.008; 0.062) - Efeito no IMC por ano de trabalho noturno. Esses valores só podem ser obtidos usando métodos de numéricos, como o MCMC ou o INLA.

Método de Monte Carlo O método de Monte Carlo é um método usado para resolver integrais do tipo: é uma função de densidade. A integral de Monte Carlo é dada por: onde são amostras geradas de

Monte Carlo Se soubéssemos como gerar amostras da distribuição a posteriori, então poderíamos obter várias quantidades via Monte Carlo Exemplo: Média, variância, quantis. Geralmente, as distribuições a posteriori não tem forma analítica fechada, e portanto não é possível gerar diretamente delas. Se faz necessário o uso de métodos para gerar amostras de distribuições onde somente o núcleo é conhecido. Aqui entram os métodos de Monte Carlo via Cadeias de Markov.

MCMC Os métodos de Monte Carlo via Cadeias de Markov (MCMC) cumprem esse papel. Em um MCMC precisamos gerar de forma iterativa amostras das condicionais completas. Seja: As condicionais completas são dadas por:

MCMC: Algotitmo O algoritmo para gerar amostras de Inicialize Para k de 1 até M (grande) Gere de: Gere de:... Gere de: Verifique a convergência das cadeias, após o ponto de convergência, as amostras geradas são amostras da posteriori de interesse.

MCMC Algoritmo de Metropolis-Hasting, e amostrador de Gibbs Os métodos de MCMC foram inicialmente desenvolvidos no final da década de 1940. Somente no início da década de 1990 que esses métodos entraram na literatura estatística (Gelfand & Smith, 1990) São métodos computacionalmente intensivos.

INLA O método INLA (Integrated nested Laplace approximations) fornece uma alternativa ao método de MCMC para uma classe de modelos. Seja um modelo pertencente a família exponencial, com Se pudermos atribuir prioris Gaussianas às quantidades chamados modelos Gaussianos latentes. A essa classe de modelos podemos usar o método INLA para obter aproximações das marginais da posteriori.

INLA As marginais da posteriori de são Rue, Martino & Chopin (2009) proporam que as marginais a posteriori podem ser aproximadas por

INLA A condicional completa de é aproximada numericamente por uma Normal E a distribuição a posteriori dos hiperparâmetros é a dimensão dos hiperpaametros não pode ser grande (máximo 15 a 20 hiperparâmetros)

INLA Exemplos de modelos: Modelos de lineares generalizados Modelos dinâmicos Modelos espaciais e espaço-temporais Essa aproximação é computacionalmente barata, e não há necessidade de checar convergência de cadeias. Essa metodologia está implementada no R www.r-inla.org

Exemplos Modelo de regressão logística com efeitos aleatórios para estudar o perfil do usuário de álcool ilícito. Modelo de regressão de Poisson com efeitos aleatórios espaciais na mortalidade por doenças respiratórias no Rio de Janeiro. Modelo idade-periodo-cohorte para casos de cancer de pulmão no Brasil.

Usuário de álcool ilícito: Descrição Um estudo seccional guiado pelo participante (RDS) foi realizado no Rio de Janeiro entre junho e setembro de 2010 em usuários adultos de álcool. O objetivo foi estudar o perfil de usuários de álcool ilícito: Bebidas caseiras, sem o devido registro das autoridades brasileiras. Uso de perfumes ou loções como bebida Produtos medicinais derivados de cachaça. 305 participantes foram considerados elegíveis.

Usuário de álcool ilícito: o modelo A amostragem guiada pelo participante (RDS) não é uma amostra aleatória, então incluímos ao modelo um efeito aleatório iid, ou seja, inla(y ~ x1+x2 + f( ind, model= iid ), family=binomial)

Uso de álcool ilícito Unadjusted OR (CI 95%) Adjusted OR (CI 95%) Male 1.33 (0.66-2.58) 0.75 (0.31-1.74) Age bracket 18-31 years old 32-45 years old 1 1 1.61 (0.87-3.00) 2.21 (1.05-4.80) >45 years old 1.54 (0.82-2.91) 2.67 (1.23-5.94) Occupation Employee/civi l servant 1 1 Selfemployed/em ployer 0.37 (0.05-1.41) 0.41 (0.05-1.90) Unemployed 0.31 (0.04-1.17) 0.22 (0.03-1.04) AUDIT score > 20 13.06 (5.61-34.55) 11.21 (4.56-30.96)

Uso de álcool ilícito Unadjusted OR (CI 95%) Adjusted OR (CI 95%) Use of crack cocaine in the last 12 months Never 1 1 Cocaine powder crack OR Cocaine powder AND crack Use of ecstasy in the last 12 months 1.33 (0.69-2.55) 1.06 (0.49-2.27) 2.55 (1.30-5.03) 2.29 (1.02-5.21) Never 1 1 Ecstasy OR medicines Ecstasy AND medicines Have been treated for alcohol dependence in the last 12 months 3.48 (1.70-7.92) 4.05 (1.74-10.47) 10.06 (2.05-242.87) 16.65 (2.31-390.21) 3.42 (1.41-10.37) 3.64 (1.25-13.49)

Morbidade por doenças respiratórias no Rio de Janeiro em 2003 Com o objetivo de verificar algum padrão espacial no total internações por doenças respiratórias nos municípios do Rio de Janeiro (Y_i), o seguinte modelo foi ajustado:

Morbidade doenças respiratórias Foram utilizadas como variáveis de controle: Densidade populacional, SO2, PM10, frota veicular, taxa de urbanização, e IDH. Nenhuma das covariáveis foi significativa, quando a estrututra espacial foi incluída no modelo. No R o comando é: inla(morb ~ 1+f(MUN, model= besag ), family="poisson", data=data, E=E_dem_morb)

Morbidade doenças respiratórias

Modelos idade-período-coorte São modelos cujo o objetivo é avaliar o efeito temporal da ocorrência de um evento. Principalmente estimar separadamente o efeito de idade, período e coorte (geralmente de nascimento) na evolução de taxas. Efeito de idade: descreve variações associadas com a idade cronologica dos grupos. Efeito de período: são variações associadas a períodos de tempo que influenciam todas as idades simultaneamente. Efeito de coorte: mudanças associadas a diferentes gerações nas coortes (de nascimento)

Modelos APC Seja o seguinte exemplo hipotético: p1980 p1990 p2000 p2010 a60 c1920 c1930 c1940 c1950 a70 c1910 c1920 c1930 c1940 a80 c1900 c1910 c1920 c1930 a90 c1890 c1900 c1910 c1920 Em cada célula observa-se por exemplo o número de casos, e a população sob risco. O principal problema é o confundimento: Período fixo (estudo seccional): idade e coorte se confundem Coorte fixa (estudo longitudinal), idade e período se confundem

Modelos APC Yang & Land (2013) escreveram um livro sobre APC analysis, com várias propostas para estimação desse efeitos. Uma possível forma de resolver o problema foi proposta por Knorr-Held & Rainer (2001) usando modelos com efeitos aleatórios. Fazendo projeções para cancer de pulmão na Alemanha. Os autores apresentaram o modelo e o resolveram usando um MCMC, vamos implementar o mesmo modelo usando o INLA.

O modelo APC proposto Seja o número de óbitos por cancer de pulmão da faixa etária i e período j. Seja a população sob risco da faixa etária i e período j. O modelo de interesse é

O modelo APC proposto Se os efeitos aleatórios a priori seguirem um passeio aleatório de ordem 1, então o modelo é totalmente identificavél. (Knorr-Held & Rainer, 2001) Ou seja,

Modelos APC: Cancer de Pulmão Considere o total de casos de câncer de pulmão no Brasil por Faixas etárias: {35-39, 40-44, 45-49,...,75-79,80+} Períodos {1980-1984, 1985-1989,...,2000-2004} Estratificado por sexo {masculino e feminino} Um modelo APC com efeitos aleatórios sgeundo Knorr- Held & Rainer (2001) será aplicado para estimar os efeitos de idade, período e coorte.

Hiperparâmetros dos efeitos Homens Mulheres Precisão Média IC de 95% Média IC de 95% Idade Período Coorte 20.1 (7.5,40.5) 29.1 (10.9, 58.9) 27660 (5171, 79065) 580 (142, 1474) 674 (282, 1325) 8800 (1762, 26254)

Efeito de Idade

Efeito de período

Efeito de coorte

Resumo Para uma classe de modelos é possível fazer inferência bayesiana sem a necessidade o uso do MCMC A alternativa computacional é o método INLA, que apresenta aproximações para as marginais da distribuição a posteriori conjunta. O pacote INLA está disponível no site: http://www.r-inla.org Os exemplos apresentados aqui são trabalhos em parceiria com pesquisadores da Fiocruz, se alguem tiver interesse fique a vontade para conversar.

Obrigado! Leo Bastos: lsbastos@fiocruz.br http://www.procc.fiocruz.br