Universidade Federal do Rio de Janeiro SOBREVIVÊNCIA COM FRAGILIDADE ESPACIAL. Leonardo Soares Bastos

Transcrição

1 Universidade Federal do Rio de Janeiro MODELOS DINÂMICOS E ESTATÍCOS DE SOBREVIVÊNCIA COM FRAGILIDADE ESPACIAL Leonardo Soares Bastos 2003

2 UFRJ Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade Espacial Leonardo Soares Bastos Dissertação de Mestrado submetida ao Programa de Pós-graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Mestre em Ciências Estatísticas. Orientador: Dani Gamerman Rio de Janeiro Dezembro de 2003

3 Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade Espacial Leonardo Soares Bastos Orientador: Prof. Dani Gamerman Dissertação de Mestrado submetida ao Programa de Pós-graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Mestre em Ciências Estatísticas. Aprovada por : Presidente, Prof. Dani Gamerman Prof. Hélio S. Migon Prof a. Silvia Shimakura Rio de Janeiro Dezembro de 2003

4 Bastos, Leonardo Soares Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade Espacial / Leonardo Soares Bastos. - Rio de Janeiro: UFRJ/IM, xi, 163f.: il.; 31cm. Orientador: Dani Gamerman Dissertação (mestrado) - UFRJ/IM/ Programa de Pósgraduação em Estatística, Referências Bibliográficas: f Análise de Sobrevivência. 2. Estatística Bayesiana. 3. Estatística Computacional. 4. Modelos Dinâmicos I. Gamerman, Dani II. Universidade Federal do Rio de Janeiro, Instituto de Matemática. III. Título.

5 Resumo Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade Espacial Leonardo Soares Bastos Orientador: Prof. Dani Gamerman Resumo da Dissertação de Mestrado submetida ao Programa de Pósgraduação em Estatística, Instituto de Matemática, da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários para obtenção do grau de Mestre em Ciências Estatísticas. Os Modelos de sobrevivência com fragilidade espacial além de explicar qual é o efeito de covariáveis no risco de um indivíduo falhar, eles visam descrever a heterogeneidade não observada entre as unidades em estudo com alguma informação espacial, introduzida no termo latente (fragilidade). A modelagem será inicialmente baseada nos modelos de riscos proporcionais onde a função de risco de base será ajustada de três maneiras: supondo uma forma paramétrica, usando processos Gama e usando modelos dinâmicos. Uma outra forma de modelagem é baseada em modelos dinâmicos de sobrevivência que supõem covariáveis dependentes do tempo. A fragilidade espacial será modelada usando processos Gaussianos. As estimativas serão obtidas através de métodos computacionais baseados em MCMC. A aplicação será feita a dois conjuntos de dados: um estudo de sobrevivência de pessoas residentes na Inglaterra que sofrem de Leucemia e uma estudo do tempo no emprego nos municípios do Rio de Janeiro no setor industrial. Palavras-chave: Análise de sobrevivência Bayesiana, Modelos de sobrevivência dinâmicos, Modelos Semiparamétricos, Geoestatística.

6 Abstract Spatial Frailty Dynamic and Static Survival Models Leonardo Soares Bastos Orientador: Prof. Dani Gamerman Abstract da Dissertação de Mestrado submetida ao Programa de Pósgraduação em Estatística, Instituto de Matemática, da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários para obtenção do grau de Mestre em Ciências Estatísticas. Spatial frailty survival models besides explaining which is the covariates effect in the risk of an individual to fail, aim at describing non-observed heterogeneity between the units in the study with some spatial information, introduced in a latent term (frailty). The modeling will be initially based on proportional risk models where the baseline hazard function will be adjusted in three ways: assuming parametric form, using Gamma processes and using dynamic models. Another form of modeling is based on survival dynamic models, that assume that the covariates effect can change over time. The spatial frailty will be modeled using Gaussian processes. The estimates will be based on computational methods using MCMC. The models will be applied to two data sets: a study of survival of residents in England who suffer from Leukemia and a study of the employment duration time in the industrial sector in the State of Rio de Janeiro. Key-words: Bayesian Survival Analysis, Dynamic Survival Models, Semiparametrics Models, Geostatistics.

7 Agradecimentos Em primeiro lugar a Deus. (E aos seus santos também.) À Thaís pelo apoio em todos os sentidos e por simplesmente ter aparecido na minha vida. Ao clã dos Bastos, pelo apoio que eu sempre tive durante a minha caminhada meu pai (Francisco), minha mãe (Cleusa) e meu único irmão (Breno). Gostaria de agradecer a todos os professores que me fizeram seguir por esse caminho. Principalmente ao professor Dani, que pra mim foi uma honra tê-lo como orientador durante o mestrado, e as professoras Rosangela e Cibele Queiroz da UFMG, que me orientaram durante a graduação e eu serei eternamente grato a elas. Não poderia de deixar de agradecer aos meus amigos. Os amigos do bairro (Palmeiras-BH), dando um destaque para Lúcio (Sasaki Kojiro ou Lucin), Jason (Peacemaker), Gleison (Piledrivermaker), Valéria (Val) e Flávia Komatsuzaki (Flavinha) que foram grandes companheiros e estão quase sempre on-line. Aos amigos da UFMG, Cristiano (Negão), Inara, Paula (Paulete), Roseli (Aose), Leonardo (Léo Giradi), Rafael e mais alguns que i

8 estudaram comigo ou fizeram parte das horas de truco no centro de estudos, nas longas viagens pro ENESTE e nas festas e calouradas da Federal. E no Rio, eu destaco Aline, Cristiane, Rafael e o Zim, quero dizer o Gustavo, que são pessoas que eu admiro. Outros fatos extremamente importantes nesse período que passei cursando o mestrado foram: O Cruzeiro Esporte Clube, que no ano de minha defesa conseguiu a tríplice coroa ganhando o campeonato estadual, a Copa do Brasil (pela quarta vez) e o campeonato brasileiro (título inédito para o clube). O Metal que sempre foi o fundo musical durante o desenvolvimento dessa dissertação, algumas bandas eu posso destacar Nightwish, Sratovarius, Symphony X, Blind Guardian, Angra e Shaman. E para finalizar as revistas que li em sua grande maioria Mangás que eu gostaria de destacar Samurai X, Cavaleiros do Zodíaco e Dragon Ball. ii

9 Sumário 1 Introdução Conceitos Básicos Especificação da Verossimilhança Modelos de Regressão Modelos de Fragilidade Sumário da dissertação Inferência Bayesiana Conceitos Básicos Monte Carlo via Cadeias de Markov Amostrador de Gibbs Algoritmo de Metropolis-Hastings Verificação de Convergência iii

10 2.3 Modelos Dinâmicos Geoestatística Modelos Estáticos de Sobrevivência Definição do Modelo Coeficientes de Regressão Função de Risco de Base Processos Paramétricos Processos Gama Processos Correlacionados Outros processos a priori Estudo Simulado Modelos de Fragilidade Espacial Por que usar modelos com Fragilidade Espacial? O Modelo Coeficientes de Regressão Função de Risco de Base Processos Paramétricos Processos Gama iv

11 4.4.3 Processos Correlacionados Fragilidade Espacial Estudo simulado Modelos Dinâmicos de Sobrevivência com e sem Fragilidade Espacial Modelo Dinâmico de Sobrevivência Modelo Dinâmico de Fragilidade Espacial Estudo Simulado Aplicação a dados reais Dados de Leucemia na Inglaterra Dados de tempo no emprego Conclusões e Trabalhos Futuros 134 Referências Bibliográficas 137 Apêndice 143 v

12 Capítulo 1 Introdução O objetivo desta dissertação é apresentar uma análise Bayesiana de modelos de sobrevivência com fragilidade espacial. Esses modelos além de explicar o risco do indivíduo de falhar sob o efeito de covariáveis, como os modelos de regressão em análise de sobrevivência, visam descrever a heterogeneidade não observada entre as unidades em estudo levando em consideração alguma informação espacial das observações. O modelo de fragilidade espacial é uma extensão do modelo de fragilidade, proposto inicialmente por Clayton (1978), onde ao efeito aleatório introduzido na função de risco será incorporado uma estrutura espacial. Essa estrutura será modelada usando processos gaussianos utilizados em Geoestatística, onde a informação espacial está contida na estrutura de correlação dos dados. Os modelos de fragilidade espacial são bem mais recentes que os modelos de fragilidade, Carlin e Banerjee (2002) e Henderson et al. (2002) abordaram esse tema em seus trabalhos, os primeiros usando modelos Condicionais Autoregressivos (CAR) e os segundos usando modelos Gama 1

13 Multivariados. Extendendo os modelos de fragilidade espacial será apresentada uma modelagem com parâmetros variando no tempo, usando modelos dinâmicos. Na Seção 1.1 serão descritos os conceitos básicos em análise de sobrevivência. Na Seção 1.2 será descrito como a função de verossimilhança é especificada. Na Seção 1.3 serão descritos os modelos de regressão em análise de sobrevivência e como são introduzidas as covariáveis no modelo. Na Seção 1.4 será feita uma breve apresentação dos modelos de fragilidade onde será mostrado como o efeito de fragilidade é incorporado ao modelo. Um sumário dessa dissertação será apresentado na Seção Conceitos Básicos Os dados de sobrevivência consistem no tempo até a ocorrência de um determinado evento, que será chamado de morte ou falha. Uma característica desse tipo de dado é a possibilidade da não observação do evento de interesse em algumas observações, que pode ser uma censura ou um truncamento. Dados truncados são aqueles que para entrar no estudo foram sujeitos a um condicionamento. Dados censurados são divididos em três tipos; censura à direita, onde tudo que se sabe é que o evento ainda não ocorreu até o instante observado, censura à esquerda, onde tudo o que se sabe é que o evento ocorreu em algum instante de tempo antes do início do estudo, e censura intervalar, é aquela em que se sabe que o evento ocorreu dentro de um intervalo de tempo conhecido. Nesta dissertação apenas a modelagem com censura à direita será abordada. A ocorrência ou não de censura será indicada por uma variável indicadora de falha, que vale 1 se a observação falhou e 0 se foi censurada. 2

14 Além do tempo de sobrevivência e da variável indicadora de falha, os dados de sobrevivência podem conter um conjunto de variáveis observáveis que podem estar relacionadas com estes tempos. Estas variáveis são conhecidas por covariáveis ou variáveis explicativas. Quando os tempos de sobrevivência estão relacionados com as covariáveis diz-se que a população é heterogênea. Caso contrário a população é dita homogênea. Seja T uma variável aleatória (v.a.) que representa o tempo de sobrevivência de uma observação com função de densidade f(t). A função de sobrevivência, S(t), é definida por S(t) = P r(t > t) (1.1) onde T é uma variável aleatória contínua não negativa. A formulação dos modelos de sobrevivência é feita usualmente pela função de risco, h(t), definida por h(t) = lim 0 + P r(t < T < t + T > t) (1.2) e a função de risco acumulada, H(t), é dada por H(t) = t 0 h(u)du, t > 0 (1.3) Será assumido que os tempos de sobrevivência são variáveis aleatórias absolutamente contínuas. Portanto, a função de risco determina completamente a distribuição de probabilidade destes tempos. As principais relações entre f, S e h são definidas a seguir. De (1.1), obtém-se que e de (1.2) tem-se que f(t) = d S(t), (1.4) dt h(t) = lim 0 + P r(t < T < t + T > t) 3

15 1 = P r(t > t) lim P r(t < T < t + ) 0 + = f(t) S(t) (1.5) Como T é uma v.a. positiva, h(t) = 0, t < 0. Substituindo (1.4) em (1.5) e resolvendo a equação para S(t), { t } S(t) = exp h(u)du = exp { H(t)}. (1.6) 0 Note que a função de risco é suficiente para especificar a distribuição de probabilidade da variável, pois pode-se escrever a função de densidade de probabilidade como função da função de risco, ou seja, usando (1.5) e (1.6) tem-se que { t } f(t) = h(t) exp h(u)du. (1.7) Especificação da Verossimilhança A contribuição para a função de verossimilhança para uma observação que falhou é a função de densidade, mas se a observação for censurada a informação que se tem em mãos é que a observação sobreviveu até aquele instante de tempo, portanto a contribuição para a função de verossimilhança de um indivíduo que foi censurado é a função de sobrevivência. A distinção entre falha e censura é feita através da variável indicadora de falha, δ. Desta forma, a contribuição, p(t), para a função de verossimilhança de uma observação é dada por: p(t) = f(t) δ S(t) 1 δ. (1.8) Seja uma amostra de tamanho n de dados de sobrevivência onde supõe- 4

16 se independência e que as observações sejam provenientes de uma mesma população, homogênea ou não. A função de verossimilhança é dada por L(t 1,..., t n ) = = n p(t i ) i=1 n f(t i ) δ i S(t i ) 1 δ i. (1.9) i=1 Usando as relação (1.5) e (1.6) em (1.9) a função de verossimilhança é reescrita por L(t 1,..., t n ) = n i=1 { h(t i ) δ ti } i exp h(u)d(u). (1.10) Modelos de Regressão Frequentemente os dados de sobrevivência são provenientes de populações heterogêneas, implicando na observação de um conjunto de covariáveis juntamente com os tempos de sobrevivência. Portanto, é interessante conhecer a influência das covariáveis nos tempos de sobrevivência, justificando o interesse nos modelos de regressão. O efeito das covariáveis em análise de sobrevivência é expresso através da função de risco. Nesta dissertação, serão considerados apenas efeitos multiplicativos. O principal modelo multiplicativo é o modelo de riscos proporcionais ou modelo de Cox, (Cox, 1972), que é definido por h(t X, β) = h 0 (t)g(x; β) (1.11) onde t é o tempo observado, X = (X 1,..., X p ) é o vetor de covariáveis. Os coeficientes β = (β 1,..., β p ) T são conhecidos por Coeficientes de Regressão. A função h 0 (t) é conhecida por Função de Risco de Base e a função G(.,.) 5

17 é uma função positiva, usualmente G(X; β) = exp{xβ} e que também será a função utilizada nessa dissertação. Assim (1.11) é reescrito como h(t X, β) = h 0 (t) exp{xβ}. (1.12) Este modelo é chamado de modelo de riscos proporcionais, pois a razão das taxas de falha de dois indivíduos é constante no tempo, isto é, a razão das funções de risco para dois indivíduos diferentes, i e j, é h(t X i, β) h(t X j, β) = h 0(t) exp{x i β} h 0 (t) exp{x j β} = exp{x i β X j β} que não depende do tempo. A função de verossimilhança para os modelos de regressão de riscos proporcionais é obtida, aplicando (1.12) em (1.10) L(β, h 0 ) = n ( h0 (t i )e ) X δ iβ i exp { } H 0 (t i )e X iβ i i=1 onde H 0 (t i ) é a função de risco de base acumulada, i = 1,..., n. (1.13) Quando a função de risco de base, h 0 (t), é especificada, ou seja, a função tem uma forma paramétrica conhecida, o modelo é chamado paramétrico. Mas quando a função h 0 (t) é não especificada, o modelo é dividido em duas partes: uma paramétrica, associada aos coeficientes de regressão e a outra não paramétrica, associada à função de risco de base. Esse modelo é conhecido por semiparamétrico. O modelo de riscos proporcionais supõe que as covariáveis não dependem do tempo como extensão para o modelo de Cox. Seja X(t) = (X 1 (t),..., X p (t)) um conjunto de covariáveis no tempo t, a versão do modelo de Cox com variáveis dependentes do tempo é dada através da substituição de X por X(t) em (1.12), ou seja, h(t X, β) = h 0 (t) exp{x(t)β} (1.14) 6

18 Uma outra extensão para os modelos de Cox com variáveis dependentes do tempo foi proposta por Gamerman (1991). Ele propôs uma classe de modelos baseada em modelos dinâmicos, que elimina o problema da suposição de riscos proporcionais e faz com que o modelo de riscos proporcionais seja um caso particular, essa abordagem será utilizada nessa dissertação. Uma outra forma de incluir covariáveis no modelo é usando modelos aditivos, onde o principal modelo é o modelo de Aalen (1980). Essa modelagem assim como, a classe de modelos de Gamerman(1991) e a classe extendida dos modelos de Cox (1972), aceita covariáveis dependentes do tempo. A função de risco do modelo de Aalen é dada por h(t X(t)) = α 0 (t) + ζ(x(t)α(t)) (1.15) onde α(t) = [α 1 (t),..., α p (t)] T e α 0 (t) são funções não especificadas, X(t) = (X 1 (t),..., X p (t)) é o vetor de covariáveis dependentes do tempo e ζ(.) é uma função positiva usualmente ζ(x) = x. 1.4 Modelos de Fragilidade Os modelos de fragilidade são caracterizados pela introdução de um efeito aleatório na função de risco. Clayton (1978) e Vaupel, Manton e Vallard (1979) foram os primeiros a trabalhar com esta classe de modelos, o nome fragilidade foi introduzido no segundo trabalho. A forma usual de se introduzir a fragilidade no modelo de Cox é h(t X, β) = h 0 (t)u exp(xβ) (1.16) onde u é a fragilidade. Assume-se que u tem média 1 e variância desconhecida, ξ. Usualmente assume-se também uma distribuição Gama para ξ. 7

19 Note que se u = 0 o modelo (1.17) se reduz ao modelo de riscos proporcionais (1.12). Procedimentos de inferência para esses modelos podem ser encontradas em Klein e Moeschberger (1997), sob um ponto de vista clássico, Clayton (1991) e Silva (2001) apresentam métodos bayesianos para estes modelos, o segundo autor também apresenta modelos aditivos de fragilidade. Em algumas aplicações é conveniente escrever o modelo (1.16) como h(t X, β) = h 0 (t) exp(xβ + w) (1.17) onde w é a fragilidade, que segue uma distribuição com média 0 e variância σ 2. Note que se σ = 0 o modelo (1.17) se reduz ao modelo de risco proporcionais, (1.12). Supor que w tem distribuição normal é o mesmo que supor que u tem distribuição log-normal, pois w = log(u), e McGilchrist e Aisbett (1991) modelaram a fragilidade usando a distribuição log-normal. 1.5 Sumário da dissertação Os resultados básicos em análise de sobrevivência que serão utilizados nessa dissertação foram apresentados neste capítulo. O procedimento de inferência será apresentado no Capítulo 2, onde será descrito de uma forma geral a inferência Bayesiana, apresentando as definições básicas, os métodos computacionais bayesianos com ênfase aos métodos de amostragem de Monte Carlo via Cadeias de Markov (MCMC), uma apresentação breve sobre Modelos Dinâmicos, Estatistica Espacial e métodos de comparação de modelos. No Capítulo 3 serão apresentados os procedimentos de inferência para os Modelos Estáticos de Sobrevivência, ou modelos de Regressão de Cox. O modelo em questão é modelo de Cox (1.12), que tem como quantidades 8

20 desconhecidas a função de risco de base e os coeficientes de regressão. A função de risco de base será abordada de três maneiras distintas, a primeira usando uma modelagem paramétrica, a segunda usando processos gama, introduzidos em análise de sobrevivência por Kalbfleish (1978) e, finalmente, usando processos correlacionados baseados em modelos dinâmicos, introduzidos em análise de sobrevivência por Gamerman (1991). Para os coeficientes de regressão será assumido uma distribuição a priori. Essa metodologia será aplicada a dados simulados. No Capítulo 4 serão apresentados os Modelos Estáticos de Fragilidade Espacial e será explicado como um efeito aleatório com uma estrutura espacial é incorporado aos Modelos Estáticos. A função de risco de base e os coeficientes de regressão serão abordados de maneira equivalente à abordagem dos Modelos Estáticos com o acréscimo do termo da fragilidade. A Fragilidade Espacial será abordada usando processos Gaussianos usados em Geoestatística, onde será assumido alguma função de correlação espacial para explicar a relação de dependência espacial entre as observações. Para encerrar o capítulo será feito um estudo simulado No Capítulo 5, os Modelos Dinâmicos em Sobrevivência serão apresentados. Logo em seguida os Modelos Dinâmicos em Sobrevivência serão extendidos com a introdução de uma estrutura espacial, resultando nos Modelos Dinâmicos de Fragilidade Espacial. O procedimento de inferência será descrito, onde serão definidas distribuição a priori para os parâmetros desconhecidos. Um estudo simulado será desenvolvido para os Modelos Dinâmicos com e sem Fragilidade Espacial. No Capítulo 6, as metodologias dos Capítulos 3, 4 e 5 serão aplicadas a dados reais. O primeiro conjunto de dados é um banco de dados de pessoas 9

21 residentes no Noroeste da Inglaterra que sofrem de leucemia. Esse conjunto de dados foi utilizado no trabalho de Henderson et al. (2003), com dados cedidos pelo autor. O outro conjunto de dados contém o tempo médio no emprego em cada município do estado do Rio de Janeiro para os grandes setores de emprego definidos pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Estes dados foram cedidos pelo Ministério do Trabalho e Emprego (MTE). No Capítulo 7, serão apresentadas as conclusões da dissertação, uma breve discussão computacional e propostas para trabalhos futuros. E em seguida, no Apêndice serão apresentadas todas as distribuições a posteriori omitidas na dissertação. 10

22 Capítulo 2 Inferência Bayesiana Todos procedimentos de inferência que serão utilizados nessa dissertação são completamente Bayesianos. Portanto, neste Capítulo serão descritos os conceitos necessários para se fazer inferência Bayesiana. Na Seção 2.1 serão definidos a distribuição a priori de alguma quantidade desconhecida e como se atualiza essa distribuição, usando o Teorema de Bayes, a partir de um conjunto de dados observados relacionados com a quantidade desconhecida de interesse, para se obter a distribuição a posteriori. Na Seção 2.2 serão descritos métodos computacionais para o cálculo da distribuição a posteriori, dando ênfase aos métodos de amostragem de Monte Carlo via Cadeias de Markov (MCMC). Outras técnicas que serão utilizadas nessa dissertação serão apresentadas. Na Seção 2.3 serão descritos de forma resumida os Modelos Dinâmicos, com uma ênfase nos modelos dinâmicos de primeira ordem. Na Seção 2.4 será feita uma introdução à Estatística Espacial descrevendo as três grandes subdivisões da Estatística Espacial: Geoestatística, Dados de Área e Padrões de Ponto. 11

23 2.1 Conceitos Básicos Um problema de inferência estatística é conhecer o comportamento de uma quantidade desconhecida, θ, que descreve o comportamento de uma determinada característica de uma certa população. A quantidade θ assume valores em um conjunto denotado por Θ, conhecido por espaço paramétrico. Seja H a informação inicial sobre o parâmetro de interesse. Essa informação será descrita em termos probabilísticos, podendo ser resumida através de p(θ H). Se a informação contida em H é suficiente para descrever o comportamento de θ, isto é tudo que se precisa. Mas na maioria das vezes a informação inicial H não é suficiente para descrever de forma razoável o comportamento do parâmetro. Portanto, é necessário obter mais informação sobre θ. O que se faz usualmente é a experimentação, isto é, realiza-se um experimento com a população de interesse, uma amostragem dessa população. Observa-se quantidades aleatórias, denotadas por X, que dependem do parâmetro θ. Antes de observar os valores de X deve-se conhecer a distribuição amostral de X dada por p(x θ, H). Após observar o valor de X, a informação sobre θ foi aumentada, ou seja, mudou de H para H = H {X = x}. Agora a informação sobre θ é resumida por p(θ x, H). Em termos probabilísticos essa passagem de p(θ H) para p(θ x, H) é feita através do Teorema de Bayes 1. Teorema 2.1 (Teorema de Bayes) Seja p(θ H) a distribuição inicial da 1 O Teorema de Bayes foi introduzido pelo Reverendo Thomas Bayes em dois artigos em 1793 e 1794, publicados após sua morte, como mencionado em Barnett (1973). 12

24 quantidade desconhecida θ e p(x θ, H) a distribuição amostral de X dado θ. A distribuição atualizada para θ é onde p(θ x, H) = p(x H) = θ Θ p(θ H)p(x θ, H) p(x H) p(θ H)p(x θ, H)dθ. Como a função do denominador do Teorema de Bayes não depende de θ, ele pode ser reescrito como p(θ x) p(θ)p(x θ). Note que a informação inicial H foi omitida, mas apenas para simplificar a notação, pois é um fator comum em todos os termos. O Teorema de Bayes é uma regra de atualização de probabilidades sobre θ, partindo de uma distribuição a priori p(θ) para a distribuição a posteriori p(θ x) usando a informação contida nos dados p(x θ) conhecida por função de verossimilhança. Toda inferência será feita com base na distribuição a posteriori, de onde obtém-se as estatísticas necessárias para resumir o comportamento de θ. Dentre as principais estatísticas a posteriori pode-se citar: a média a posteriori, E(θ x): E(θ x) = o quantil α a posteriori, Q(α): { Q(α) = θ Θ : θ θ Θ θp(θ x)dθ p(θ x)dθ = α }, α (0, 1); note que quando α = 0.5 tem-se a mediana a posteriori. 13

25 o intervalo 100(1 α)% de credibilidade a posteriori, (L, U): { } (L, U) = (L, U ) Θ 2 : U L p(θ x)dθ = 1 α, α (0, 1); se o intervalo é simétrico, então L = Q(α/2) e U = Q(1 α/2). Para mais detalhes sobre aspectos teóricos envolvendo inferência sob o ponto de vista Bayesiano podem ser consultados os livros de Migon e Gamerman (1999) e O Hagan (1994). Muitas vezes a distribuição a posteriori não tem forma fechada, pois a integral no denominador do Teorema de Bayes não possui solução analítica. Portanto, a distribuição a posteriori tem que ser obtida através de métodos numéricos. Na próxima Seção será apresentado um breve introdução aos métodos de simulação de Monte Carlo via Cadeias de Markov (MCMC). 2.2 Monte Carlo via Cadeias de Markov A difusão da aplicação dos métodos Bayesianos esteve limitada até aos anos 90 pelo fato da distribuição a posteriori em muitas situações práticas serem analiticamente intratáveis. Nas ultimas décadas vários métodos numéricos foram propostos visando ultrapassar essa limitação, nomeadamente, os métodos baseados em aproximações assintóticas, aproximações de Laplace, aproximações via quadratura Gaussiana e métodos baseados em simulação estocástica. Boas descrições desses métodos podem ser encontradas em Tanner (1996) e Gamerman (1997). Mas a aplicação dos médodos Bayesianos começou realmente a se difundir após a introdução dos métodos de Monte Carlo via Cadeias de Markov, de onde destacam-se o amostrador de Gibbs e o algoritmo de Metropolis-Hastings. 14

26 2.2.1 Amostrador de Gibbs Geman e Geman (1984) propuseram um esquema de amostragem uma distribuição 2 explorando as distribuições condicionais completas através de um algoritmo iterativo que define uma cadeia de Markov. Embora esse trabalho fosse de conhecimento de parte da comunidade científica estatística, este artigo foi destinado à área de processamentos de imagens e foi publicado em revista da área. Isso provavelmente levou ao atraso de sua apreensão e compreesão pela comunidade como uma técnica poderosa de abordagem de problemas dos mais variados de estatística Bayesiana. Esse erro de desenvolvimento foi reparado pelo trabalho de Gelfand e Smith (1990) que comparam o amostrador de Gibbs com outros esquemas de simulação estocástica. O amostrador de Gibbs, ( Geman e Geman, 1984), é essencialmente um esquema amostral de uma cadeia de Markov cujo núcleo de transição é formado pelas condicionais completas. Para descrever o algoritmo, suponha que a distribuição de interesse é a distribuição a posteriori p(θ x) com θ = (θ 1,..., θ S ) e considere também que todas as condicionais completas a posteriori p(θ i, θ i, x) i = 1,..., n estejam disponíveis e que sabe-se gerar amostras de cada uma delas. Portanto, o esquema de amostragem é dado por: 2 A distribuição que Geman e Geman estavam interessados chama-se distribuição de Gibbs, que dá nome ao amostrador, usada em Mecânica Estatística e tem a seguinte forma [ f(x 1,..., x n ) exp 1 ] kt E(x 1,..., x n ) onde k é uma constante positiva, T é a temperatura e E é a energia do sistema, função positiva. 15

27 Amostrador de Gibbs I - Inicialize θ (0) = (θ (0) 1,..., θ (0) S ) e k = 1 II - Obtenha um novo valor para θ (k) a partir de θ (k 1) através de sucessivas gerações de valores. Para i = 1 até S, faça: gere um valor para θ (k) i de θ (k) i p(θ i θ (k) 1,..., θ (k) i 1, θ (k 1) i+1,..., θ (k 1) S, x) III - Faça k = k + 1 e volte para II e repita o procedimento até alcançar a convergência. A medida que o número de iterações aumenta, a cadeia se aproxima da sua distribuição de equilíbrio. Assim, assume-se que a convergência é atingida em uma iteração cuja a distribuição esteja próxima da distribuição de equilíbrio, p(θ x), e não no sentido formal e inatingível do número de iterações tendendo ao infinito Algoritmo de Metropolis-Hastings O algoritmo de Metropolis foi apresentado inicialmente por Metropolis et al. (1953) e generalizado por Hastings (1970) resultando no algoritmo de Metropolis-Hastings. Esse método é usado geralmente quando é difícil gerar amostras da condicional completa a posteriori. Neste caso, gera-se valores do parâmetro a partir de uma distribuição proposta e esse é aceito ou não com uma certa probabilidade de aceitação. Para descrever o algoritmo, suponha que a distribuição de interesse é a 16

28 distribuição a posteriori p(θ x) com θ = (θ 1,..., θ S ). Considere também que todas as condicionais completas a posteriori p(θ i θ i, x). i = 1,..., n estejam disponíveis mas não se sabe gerar amostras diretamente de cada uma e que amostras de um novo valor de θ i serão geradas a partir de uma distribuição proposta condicional ao valor atual de θ i, q(θ (p) i proposto e θ (a) i amostragem é dado por: θ (a) i ), onde θ (p) i é o valor é o valor atual 3, para i = 1,..., n. Portanto o esquema de Algoritmo de Metropolis-Hastings I - Inicialize θ (0) = (θ (0) 1,..., θ (0) S ) e k = 1 II - Obtenha um novo valor para θ (k) a partir de θ (k 1) através de sucessivas gerações de valores. Para i = 1 até S, faça: (i) Gere uma proposta para θ (k) i de θ (p) i q(θ i θ (k 1) i ) (ii) Aceite a proposta com probabilidade de aceitação dada por α = min 1, p(θ (p) i θ (a) i p(θ (k 1) i θ (a) i, x)q(θ (k 1) i, x)q(θ (p) onde θ (a) i = (θ (k) 1,..., θ (k) i 1, θ (k 1) i+1,..., θ (k 1) S ). i θ (p) i ) θ (k 1) i ) III - Faça k = k + 1 e volte para II e repita o procedimento até alcançar a convergência. O algoritmo de Metropois-Hastings é bastante geral, e pode, pelo menos 3 Entenda por valor atual o valor de θ exatamente antes da proposta ser gerada, ou seja, o valor atualizado da iteração anterior. 17

29 em princípio, ser implementado com qualquer distribuição condicional completa a posteriori e para qualquer proposta. Entretanto sob o ponto de vista prático, a escolha da proposta é crucial para o bom desenvolvimento do algoritmo, ou seja, para sua convergência para a distribuição a posteriori. Algumas propostas mais comuns são: Cadeias Simétricas: Quando a distribuição proposta é simétrica em torno da iteração anterior, isto é, q(θ (p) i θ (k 1) i ) = q(θ (k 1) i θ (p) i ) α = min 1, p(θ (p) i θ (a) p(θ (k 1) i θ (a) i, x) i, x) Dentre as cadeias simétricas destaca-se o passeio aleatório, θ (p) i = θ (k 1) i + e, onde e tem um distribuição simétrica em torno zero. Cadeias independentes Quando a proposta não depende do passo anteriori, ou seja, q(θ (p) i θ (k 1) i ) = q(θ (p) i ), e a probabilidade de aceitação é dada por α = min p(θ(p) i θ (a) 1, p(θ (k 1) i i ) i ) i, x)q(θ (k 1) θ (a) i, x)q(θ (p) Um caso particular de cadeias independentes é quando a distribuição proposta é a distribuição a priori para θ i, neste caso a probabilidade de aceitação é dado somente pela função de verossimilhança, isto é, α = min 1, p(x θ (p) i, θ (a) i ) p(x θ (k 1), θ (a) i i ) Um outro caso particular de cadeias independentes é quando a distribuição proposta é a própria condicional completa a posteriori, isto 18

30 é, q(θ (p) i ) = p(θ (p) i θ (a) i, x). Fazendo isto, a probabilidade de aceitação é igual a um. Gerar da condicional completa e aceitar sempre em um algoritmo iterativo é a definição do amostrador de Gibbs, portanto o amostrador de Gibbs é um caso particular do algoritmo de Metropolis- Hastings. Para maiores informações veja em Gilks et al. (1996), onde são apresentados conceitos e resultados com aplicações dos métodos de simulação de Monte Carlo via Cadeias de Markov em inferência Bayesiana e não-bayesiana Verificação de Convergência Os método de MCMC são uma ótima ferramenta para resolução de muitos problemas práticos na análise Bayesiana. Porém, algumas questões relacionadas à convergência nestes métodos ainda merecem bastante pesquisa. Uma questão que pode surgir é Quantas iterações deve ter o processo de simulação para garantir que a cadeia convergiu para o estado de equilíbrio? A resposta definitiva para esta questão poderá nunca ser dada, visto que a distribuição estacionária será na prática desconhecida, mas pode-se sempre avaliar a convergência das cadeias detectando problemas fora do período de aquecimento 4. Para eliminar uma possível auto-correlação das cadeias seleciona a partir do burn-in a cada k iterações, o tamanho de k será chamado de lag. Uma análise de convergência em métodos de simulação pode ser feita preliminarmente analisando os gráficos ou medidas descritivas dos valores 4 O período de aquecimento limitado superiormente pelo burn-in, onde burn-in é a iteração tal que acredita-se que a partir dela a cadeia convergiu. 19

31 simulados da quantidade de interesse, θ. Os gráficos mais frequentes são o gráfico de θ ao longo das iterações e um gráfico da estimativa da distribuição a posteriori de θ, por exemplo um histograma ou uma densidade kernel. As estatísticas usuais são a média, o desvio padrão e os quantis (2,5%; 50%; 97,5%). Uma segunda fase de avaliação de convergência em métodos de MCMC faz-se usando algumas técnicas de diagnóstico de convergência. As técnicas mais populares são: Geweke (1992) que usa resultados baseados em análise espectral, Heidelberger e Welch (1983) que também usa resultados baseados em análise espectral, Raftery e Lewis (1992) que permite calcular quantas iterações são necessárias para uma cadeia atingir a distribuição estacionária através da estimação de quantis a posteriori com uma precisão previamente fixada e Gelman e Rubin (1992) que usa resultados baseados na análise de variância clássica para duas ou mais cadeias simuladas com valores iniciais diferentes. Estes métodos e outros foram comparados no trabalho de Cowles e Carlin (1996), onde se chegou a conclusão de que não se pode afirmar qual deles é o mais eficiente. As técnicas de Geweke, Heidelberger- Welch, Raftery-Lewis, Gelman-Rubin e outras estão implementadas no pacote CODA ( Cowles et al., 1997) executável no freeware R. 2.3 Modelos Dinâmicos Nesta seção será feita uma introdução aos modelos dinâmicos, uma ampla classe de modelos com parâmetros variando no tempo, adequados à modelagem de séries temporais e regressão. 20

32 Os modelos dinâmicos foram apresentados por Harrison e Stevens (1976) e estão bem estruturados em West e Harrison (1997). Os modelos lineares dinâmicos são caracterizados por duas equações: a equação de observação dada por Y t = F t β t + ɛ t, ɛ t N(0, σt 2 ) (2.1) e pela equação de sistema dada por: β t = G t β t 1 + u t, u t N(0, U t ) (2.2) onde no instante t, Y t denota a série de observações independentes condicionalmente em θ t e σt 2, F t é um vetor de constantes conhecidas (variáveis explicativas), β t = (β 1t,..., β pt ) T é um vetor-coluna com p coeficientes, G t é uma matriz de termos conhecidos que define a evolução sistemática dos parâmetros, ɛ t e u t são erros mutuamente independentes e, σt 2 e U t, as variâncias dos erros associados à observação e ao vetor de parâmetros, respectivamente. O modelo é completado com a seguinte distribuição a priori: β 1 D 1 N(m 1, C 1 ), onde D 0 é a informação relevante a priori sobre β 1. Em resumo, um modelo linear dinâmico fica completamente especificado pela quádrupla {F t, G t, σt 2, U t }. Note que os modelos de séries temporais são caracterizados por F t = F e G t = G, t e os modelos estáticos de regressão são caracterizados por G t = I p e U t = 0. Uma das principais características de um modelo linear dinâmico é que a cada instante de tempo as informações existentes são descritas pela distribuição a posteriori do vetor de estado β t. Em cada instante de tempo, os seguintes passos são feitos: evolução, previsão e atualização. No modelo {F t, G t, σt 2, U t } com priori β 1 D 1 N(m 1, C 1 ) a dinâmica é dada por: 21

33 Evolução - De (2.1) tem-se que a distribuição a priori em t é: β t D t 1 N(a t, R t ) (2.3) onde a t = G t m t e R t = G t C t 1 G T t + U t. Previsão - é: De (2.3) chega-se que a distribuição preditiva um passo a frente y t D t 1 N(f t, Q t ) (2.4) onde f t = F t a t e Q t = F t R t F T + σt 2. Atualização - Usando a verossimilhança (2.1), a priori (2.3) e o Teorema de Bayes tem-se que β t D t N(m t, C t ) (2.5) onde D t = {y t, D t 1 }, m t = a t + R t F T t (Q t + V t ) 1 (y t f t ), C t = R t R t F T t (Q t + V t ) 1 F t R T t. Suponha que sejam feitas S observações do experimento Y, isto é, Y = (Y 1,..., Y S ). Suponha também o modelo {1, 1, σ 2, U}, ou seja, Y j = β j + e j, e j N(0, σ 2 ), (2.6) β j = β j 1 + u j, u j N(0, U j ), j = 2,..., S (2.7) onde U j = Ub j, b j é um valor conhecido e, completando o modelo β 1 N(m, C). 22

34 dada por Desta forma a distribuição conjunta a priori pra β = (β 1,..., β p ) T é p(β) = S p(β 1 ) p(β i β i 1 ) i=2 { exp 1 } 2 (β m)t Λ(β m) (2.8) que é o núcleo da distribuição normal multivariada, ou S-variada, com média m e matriz de variâncias Λ 1, denotada por β N S (m, Λ 1 ) (2.9) onde m = (m,..., m) T e (2.10) Λ = 1 C b 1 1 U b U 1 1 b 2 U b 2 U b U 0 1 b U b S 1 U b S 1 U b S U (2.11) b S U b S U 2.4 Geoestatística Com o crescimento das técnicas de georeferenciamento, os bancos de dados mais atuais contém entre outras informações a posição espacial das observações. Esta posição espacial pode ser contínua, com a posição exata de cada indivíduo, onde se tem as suas coordenadas geográficas ou a posição espacial, determinada por alguma região que contenha esse indivíduo, por exemplo bairro, munícipio, estado, etc. Esta informação espacial em deter- 23

35 minados estudos é relativamente barata de ser obtida. Por exemplo, em uma pequisa médica saber o endereço do paciente é bastante simples. Dados com informação espacial vem sendo amplamente estudados em problemas de estatística aplicada (Cressie, 1993), pois em muitas situações a posição espacial pode influenciar o resultado do evento de interesse. Os modelos que incorporam alguma informação espacial visam explicar de alguma forma essa influência no resultado do evento de interesse. O conjunto de técnicas estatísticas para modelar dados com informação espacial é conhecido por Estatística Espacial. A Estatística Espacial considera os valores amostrais como sendo realizações de funções aleatórias com distribuição no espaço e, nesse caso, o valor de um ponto é função da sua posição na região de estudo. Outro fator que também é levado em consideração na estatística espacial é a posição relativa dos pontos amostrados. Assim, a similaridade entre valores amostrais é quantificada em função da distância entre amostras, representando tal relação o fundamento desse campo especial da estatística aplicada. Segundo Cressie (1993), existem três grandes subdivisões da estatística espacial: Geoestatística, dados de área e padrão de pontos. Em Geoestatística se tem interesse em conhecer o comportamento de algum processo que varia continuamente na região de estudo. Nos Dados de Área, assim com em Geoestatística, se tem interesse em conhecer o comportamento de algum processo, mas os dados estão distribuídos discretamente sob região de interesse, ou seja, os pontos observados pertencem a sub-regiões que estao contidas na região de interesse. E no Padrão de Pontos, diferente da duas abordagens anteriores, se tem interesse em conhecer a posição espacial na qual um evento irá ocorrer. Nessa dissertação o interesse é em descrever 24

36 o comportamento de um processo que pode ocorrer em qualquer lugar no espaço. Portanto, será utilizado apenas técnicas de Geoestatística e Dados de Área, dando uma ênfase à primeira abordagem, pois esta abordagem será adotada na inferência para o termo de fragilidade espacial. A idéia básica de Geoestatística é que observações próximas tem comportamento similar e, à medida que a distância entre as observações aumenta, essa similaridade tende a diminuir. Os objetivos da análise de Geoestatística são: estimação e previsão. A estimação refere-se à inferência de parâmetros do processo gerador das observações. A previsão ou interpolação refere-se a inferência em locais não-observados. Definição 2.1 (Processos Gaussianos) A função W (.) assumindo valores w(s) para s D, segue um Processo Gaussiano com função de média m(.) e função de variância C(.,.) denotado por W (.) P G (m(.), C(.,.)). Se para todo s 1, s 2,..., s n D e n = 1, 2,..., a distribuição conjunta de W (s 1 ), W (s 2 ),..., W (s n ) é normal multivariada com parâmetros dados por E(W (s i )) = m(s i ) e Cov(W (s i ), W (s j )) = C(s i, s j ). Seja W (.) um processo espacial Gaussiano estacionário isotrópico 5 com média zero, mais podem ser encontrados em Cressie (1993), ou seja, W (.) N(0, R(.,.)) (2.12) 5 Um processo é dito isotrópico quando a estrutura de correlação depende apenas da distância entre as observações e é a mesma em qualquer direção. 25

37 para s 1, s 2,..., s n D, R(s i, s j ) = σ 2 ρ(d ij ), onde ρ(d ij ) é a função de correlação espacial e d ij = s i s j é a distância entre s i e s j, i, j. As principais funções de correlação espacial usadas em Geoestatística são: Esférica, Gaussiana, exponencial, exponencial potência e a Matérn. A função de correlação esférica é dada por ( ) ( ) d 2 φ 1 d 0 < d < φ 2 φ ρ(d; φ) = 0 d > φ, φ > 0. (2.13) Note que o parâmetro φ trunca a correlação espacial. A função de correlação é Exponencial Potência é dada por { ( ) κ } d ρ(d; φ, κ) = exp, φ > 0, κ (0, 2]. (2.14) φ Essa função é bastante popular pois ela tem como casos particulares as função Exponencial, quando κ = 1, e Gaussiana, quando κ = 2. A função de correlação Matérn é dada por ρ(d; φ, κ) = { 2 κ 1 Γ(κ) } ( ) κ ( ) 1 d d K κ, φ > 0, κ > 0, (2.15) φ φ onde K κ (.) denota a função Bessel de terceiro tipo de ordem κ. Seja W = (W (s 1 ), W (s 2 ),..., W (s n )) uma amostra de observações de um processo pertecente a uma região D, onde s i indica a posição espacial do indivíduo i na região D e W (s i ) o valor do processo observado para o indivíduo i, i = 1,..., n. Como a inferência para os parâmetros do processo será feita sob o ponto de vista Bayesiano, tem-se que: onde Σ = σ 2 R, R ij correlação espacial utilizada. W Σ N n (0, Σ) (2.16) = ρ(d ij ; θ) i, j = 1,..., n e θ depende da função de 26

38 A distribuição a posteriori dos parâmetros do processo gerador de W é obtida através do Teorema de Bayes combinando uma distribuiçao a priori p(σ 2, θ) com a verossimilhança (2.16): p(σ 2, θ W ) p(σ 2, θ)(σ 2 ) n 2 R 1 2 { exp 1 } 2σ W T R 1 W 2 (2.17) onde A é o determinante da matriz A e p(σ 2, θ) é a distribuição a priori dos parâmetros da estrutura espacial. Prever valores não observados a partir dos dados observados é um dos objetivos da Geoestatística. Krige (1951) foi o pioneiro em previsão de valores distribuídos no espaço. Portanto a técnica de prever valores não observados no espaço recebeu o nome de Krigagem. Sob o ponto de vista Bayesiano a Krigagem é feita a partir da distribuição preditiva. Seja W (obs) = (W (s 1 ),..., W (s n ) uma amostra observada no espaço e W (prev) = (W (s n+1 ),..., W (s n+p ) o conjunto de valores que se deseja prever. Será assumido que W (.) segue um processo Gaussiano Estacionário Isotrópico com média 0. Logo o par (W (obs), W (prev) ) T tem distribuição normal multivariada com média 0 e matriz de variancias Σ = σ 2 R, R ij = ρ(d i j; θ), {i, j} = 1,..., n + P, com d ij = s i s j, ou seja, W (obs) N 0 n+p, σ 2 R (obs) W (prev) 0 R (prev),(obs) R (obs),(prev) R (prev), (2.18) onde R (obs) = R ij, {i, j} = 1,..., n, R (obs)(prev) = R ij, i = 1,..., n, j = n + 1,..., n + P, R (prev)(obs) = [R (obs)(prev) ] T e R (prev) = R ij, {i, j} = n + 1,..., n + P. Logo, usando uma propriedade da distribuição normal multivariada a distribuição condicional de W (prev) dado a amostra observada e os parâmetros 27

39 da estrutura espacial (σ 2, θ), é dada por W (prev) W (obs) N P ( µ (prev) (obs), Σ (prev) (obs)) (2.19) onde e µ (prev) (obs) = R (prev),(obs) R (obs) 1 W (obs) Σ (prev) (obs) = σ 2 ( R (prev) R (prev),(obs) R (obs) 1 R (obs),(prev)). 28

40 Capítulo 3 Modelos Estáticos de Sobrevivência Neste Capítulo serão apresentados os procedimentos de inferência sob o ponto vista Bayesiano para o modelo de Cox. A função risco do modelo de Cox se divide em um produto de outras duas funções, uma que depende apenas do tempo de falha, a função de risco de base, e a outra função que depende apenas das covariáveis, ou variáveis explicativas, isto é, variáveis que não dependem do tempo. Além disso, mais adiante serão apresentados modelos de sobrevivência dinâmicos, onde o efeito das covariáveis pode variar no tempo. Portanto, o modelo de Cox será chamado de Modelo Estático de Sobrevivência por não ter coeficientes dependentes do tempo. Na Seção 3.1 o Modelo Estático de Sobrevivência será formalmente apresentado, explicitando suas quantidades desconhecidas: os coeficientes de regressão e a função de risco de base. Serão descritos para este modelo, na Seção 3.2, os procedimentos de inferência para os coeficientes de regressão, onde será assumida 29

41 uma distribuição a priori. A função de risco de base, por ser uma função contínua no tempo, não permite elicitar diretamente a distribuição a priori. Desta forma, na Seção 3.3, a função de risco de base será abordada usando três formulações distintas, a primeira usando uma modelagem paramétrica, a segunda usando processos Gama, introduzidos em análise de sobrevivência por Kalbfleish (1978) e, finalmente, usando processos correlacionados baseados em modelos dinâmicos, introduzidos em análise de sobrevivência por Gamerman (1991). Finalizando, na Seção 3.4 será feito um estudo simulado para o Modelo Estático de Sobrevivência. 3.1 Definição do Modelo O Modelo Estático de Sobrevivência, ou Modelo de Cox, vem sendo amplamente utilizado em estatística aplicada, principalmente na área biomédica. Ele foi proposto por Cox (1972). Este modelo já foi apresentado anteriormente e sua função de risco é dada em (1.12), onde se tem interesse na função de risco de base, h 0, e nos coeficientes de regressão, β. A distribuição a posteriori para β e h 0 é dada atráves da atualização da distribuição a priori via Teorema de Bayes com a função de verossimilhança (1.13): n ( p(β, h 0 [dados]) p(β, h 0 ) h0 (t i )e ) X δ iβ i exp { H 0 (t i )e } X iβ. (3.1) i=1 Será assumido que β e h 0 são independentes a priori. Portanto, p(β, h 0 ) = p(β)p(h 0 ). Essas distribuições a priori serão exploradas a seguir. Outro detalhe importante, a distribuição a posteriori (3.1) não possui forma analítica fechada portando um esquema de amostragem via MCMC será utilizado. 30

42 Nas próximas seções será descrito como obter as condicionais completas a posteriori de β e h Coeficientes de Regressão Os coeficientes de regressão serão modelados com a suposição de que eles não dependam do tempo, esta é uma imposição do próprio modelo. A distribuição a priori para os coeficientes de regressão é dada por { p(β) exp 1 } 2 (β m)t V 1 (β m) (3.2) onde p(β) é o núcleo da função de densidade da distribuição Normal com média m e variância V. Os hiperparâmetros m e V são valores conhecidos que descrevem o conhecimento subjetivo que se tem a priori do comportamento dos coeficientes. Uma priori não informativa é dada quando aumenta-se as variâncias da priori indefinidamente. A condicional completa dos coeficientes de regressão é obtida através da combinação da priori (3.2) com a verossimilhança (1.10) usando o Teorema de Bayes { p(β ) exp 1 } 2 (β m)t V 1 (β m) { n [ exp Xi βδ i H 0 (t i )e ]} X iβ (3.3) i=1 onde p(θ ) define a distribuição condicional completa a posteriori do parâmetro θ. Note que a distribuição (3.3) não é uma distribuição conhecida, isto é, não se sabe gerar amostras diretamente dela. Portanto, os coeficientes serão 31

43 gerados conjuntamente através do seguinte passeio aleatório como proposta β (p) = β (a) + u, u N(0, V β ), (3.4) onde β (p) é o vetor de coeficientes propostos, β (a) é o vetor coeficientes da iteração atual. O valor proposto será aceito ou não de acordo com a probabilidade de aceitação dada pelo mínimo entre 1 e a razão das condicionais completas, (3.3), de β (p) e β (a). 3.3 Função de Risco de Base Como a função h 0 é uma função contínua, não é possível especificar uma distribuição diretamente para ela. Logo se faz necessário o uso de técnicas indiretas para estimar a função de risco de base. Essas técnicas podem ser paramétricas que visam diminuir o número de parâmetros a ser estimados para que a função de risco de base fique bem especificada ou não-paramétricas que visam dar mais flexibilidade ao modelo, sendo desnecessário supor a distribuição dos tempos de falha. Na abordagem paramétrica será utilizada a distribuição Weibull, por ser simples e mais flexível que a distribuição exponencial. A abordagem não-paramétrica é mais flexível que a abordagem paramétrica, consequentemente é mais robusta. Nessa abordagem serão utilizados os processos Gama com incrementos independentes. Uma terceira abordagem que é uma mistura entre as abordagens paramétrica e não-paramétrica, pois é especificada uma distribuição Exponencial por Partes para o tempo de base, como na abordagem paramétrica. Por ser uma distribuição onde o número de parâmetros pode ser muito grande, essa aproximação para a função de risco pode ser também considerada uma abordagem não-paramétrica. 32

Exibir mais