Universidade Federal do Rio de Janeiro SOBREVIVÊNCIA COM FRAGILIDADE ESPACIAL. Leonardo Soares Bastos

Tamanho: px
Começar a partir da página:

Download "Universidade Federal do Rio de Janeiro SOBREVIVÊNCIA COM FRAGILIDADE ESPACIAL. Leonardo Soares Bastos"

Transcrição

1 Universidade Federal do Rio de Janeiro MODELOS DINÂMICOS E ESTATÍCOS DE SOBREVIVÊNCIA COM FRAGILIDADE ESPACIAL Leonardo Soares Bastos 2003

2 UFRJ Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade Espacial Leonardo Soares Bastos Dissertação de Mestrado submetida ao Programa de Pós-graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Mestre em Ciências Estatísticas. Orientador: Dani Gamerman Rio de Janeiro Dezembro de 2003

3 Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade Espacial Leonardo Soares Bastos Orientador: Prof. Dani Gamerman Dissertação de Mestrado submetida ao Programa de Pós-graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Mestre em Ciências Estatísticas. Aprovada por : Presidente, Prof. Dani Gamerman Prof. Hélio S. Migon Prof a. Silvia Shimakura Rio de Janeiro Dezembro de 2003

4 Bastos, Leonardo Soares Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade Espacial / Leonardo Soares Bastos. - Rio de Janeiro: UFRJ/IM, xi, 163f.: il.; 31cm. Orientador: Dani Gamerman Dissertação (mestrado) - UFRJ/IM/ Programa de Pósgraduação em Estatística, Referências Bibliográficas: f Análise de Sobrevivência. 2. Estatística Bayesiana. 3. Estatística Computacional. 4. Modelos Dinâmicos I. Gamerman, Dani II. Universidade Federal do Rio de Janeiro, Instituto de Matemática. III. Título.

5 Resumo Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade Espacial Leonardo Soares Bastos Orientador: Prof. Dani Gamerman Resumo da Dissertação de Mestrado submetida ao Programa de Pósgraduação em Estatística, Instituto de Matemática, da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários para obtenção do grau de Mestre em Ciências Estatísticas. Os Modelos de sobrevivência com fragilidade espacial além de explicar qual é o efeito de covariáveis no risco de um indivíduo falhar, eles visam descrever a heterogeneidade não observada entre as unidades em estudo com alguma informação espacial, introduzida no termo latente (fragilidade). A modelagem será inicialmente baseada nos modelos de riscos proporcionais onde a função de risco de base será ajustada de três maneiras: supondo uma forma paramétrica, usando processos Gama e usando modelos dinâmicos. Uma outra forma de modelagem é baseada em modelos dinâmicos de sobrevivência que supõem covariáveis dependentes do tempo. A fragilidade espacial será modelada usando processos Gaussianos. As estimativas serão obtidas através de métodos computacionais baseados em MCMC. A aplicação será feita a dois conjuntos de dados: um estudo de sobrevivência de pessoas residentes na Inglaterra que sofrem de Leucemia e uma estudo do tempo no emprego nos municípios do Rio de Janeiro no setor industrial. Palavras-chave: Análise de sobrevivência Bayesiana, Modelos de sobrevivência dinâmicos, Modelos Semiparamétricos, Geoestatística.

6 Abstract Spatial Frailty Dynamic and Static Survival Models Leonardo Soares Bastos Orientador: Prof. Dani Gamerman Abstract da Dissertação de Mestrado submetida ao Programa de Pósgraduação em Estatística, Instituto de Matemática, da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários para obtenção do grau de Mestre em Ciências Estatísticas. Spatial frailty survival models besides explaining which is the covariates effect in the risk of an individual to fail, aim at describing non-observed heterogeneity between the units in the study with some spatial information, introduced in a latent term (frailty). The modeling will be initially based on proportional risk models where the baseline hazard function will be adjusted in three ways: assuming parametric form, using Gamma processes and using dynamic models. Another form of modeling is based on survival dynamic models, that assume that the covariates effect can change over time. The spatial frailty will be modeled using Gaussian processes. The estimates will be based on computational methods using MCMC. The models will be applied to two data sets: a study of survival of residents in England who suffer from Leukemia and a study of the employment duration time in the industrial sector in the State of Rio de Janeiro. Key-words: Bayesian Survival Analysis, Dynamic Survival Models, Semiparametrics Models, Geostatistics.

7 Agradecimentos Em primeiro lugar a Deus. (E aos seus santos também.) À Thaís pelo apoio em todos os sentidos e por simplesmente ter aparecido na minha vida. Ao clã dos Bastos, pelo apoio que eu sempre tive durante a minha caminhada meu pai (Francisco), minha mãe (Cleusa) e meu único irmão (Breno). Gostaria de agradecer a todos os professores que me fizeram seguir por esse caminho. Principalmente ao professor Dani, que pra mim foi uma honra tê-lo como orientador durante o mestrado, e as professoras Rosangela e Cibele Queiroz da UFMG, que me orientaram durante a graduação e eu serei eternamente grato a elas. Não poderia de deixar de agradecer aos meus amigos. Os amigos do bairro (Palmeiras-BH), dando um destaque para Lúcio (Sasaki Kojiro ou Lucin), Jason (Peacemaker), Gleison (Piledrivermaker), Valéria (Val) e Flávia Komatsuzaki (Flavinha) que foram grandes companheiros e estão quase sempre on-line. Aos amigos da UFMG, Cristiano (Negão), Inara, Paula (Paulete), Roseli (Aose), Leonardo (Léo Giradi), Rafael e mais alguns que i

8 estudaram comigo ou fizeram parte das horas de truco no centro de estudos, nas longas viagens pro ENESTE e nas festas e calouradas da Federal. E no Rio, eu destaco Aline, Cristiane, Rafael e o Zim, quero dizer o Gustavo, que são pessoas que eu admiro. Outros fatos extremamente importantes nesse período que passei cursando o mestrado foram: O Cruzeiro Esporte Clube, que no ano de minha defesa conseguiu a tríplice coroa ganhando o campeonato estadual, a Copa do Brasil (pela quarta vez) e o campeonato brasileiro (título inédito para o clube). O Metal que sempre foi o fundo musical durante o desenvolvimento dessa dissertação, algumas bandas eu posso destacar Nightwish, Sratovarius, Symphony X, Blind Guardian, Angra e Shaman. E para finalizar as revistas que li em sua grande maioria Mangás que eu gostaria de destacar Samurai X, Cavaleiros do Zodíaco e Dragon Ball. ii

9 Sumário 1 Introdução Conceitos Básicos Especificação da Verossimilhança Modelos de Regressão Modelos de Fragilidade Sumário da dissertação Inferência Bayesiana Conceitos Básicos Monte Carlo via Cadeias de Markov Amostrador de Gibbs Algoritmo de Metropolis-Hastings Verificação de Convergência iii

10 2.3 Modelos Dinâmicos Geoestatística Modelos Estáticos de Sobrevivência Definição do Modelo Coeficientes de Regressão Função de Risco de Base Processos Paramétricos Processos Gama Processos Correlacionados Outros processos a priori Estudo Simulado Modelos de Fragilidade Espacial Por que usar modelos com Fragilidade Espacial? O Modelo Coeficientes de Regressão Função de Risco de Base Processos Paramétricos Processos Gama iv

11 4.4.3 Processos Correlacionados Fragilidade Espacial Estudo simulado Modelos Dinâmicos de Sobrevivência com e sem Fragilidade Espacial Modelo Dinâmico de Sobrevivência Modelo Dinâmico de Fragilidade Espacial Estudo Simulado Aplicação a dados reais Dados de Leucemia na Inglaterra Dados de tempo no emprego Conclusões e Trabalhos Futuros 134 Referências Bibliográficas 137 Apêndice 143 v

12 Capítulo 1 Introdução O objetivo desta dissertação é apresentar uma análise Bayesiana de modelos de sobrevivência com fragilidade espacial. Esses modelos além de explicar o risco do indivíduo de falhar sob o efeito de covariáveis, como os modelos de regressão em análise de sobrevivência, visam descrever a heterogeneidade não observada entre as unidades em estudo levando em consideração alguma informação espacial das observações. O modelo de fragilidade espacial é uma extensão do modelo de fragilidade, proposto inicialmente por Clayton (1978), onde ao efeito aleatório introduzido na função de risco será incorporado uma estrutura espacial. Essa estrutura será modelada usando processos gaussianos utilizados em Geoestatística, onde a informação espacial está contida na estrutura de correlação dos dados. Os modelos de fragilidade espacial são bem mais recentes que os modelos de fragilidade, Carlin e Banerjee (2002) e Henderson et al. (2002) abordaram esse tema em seus trabalhos, os primeiros usando modelos Condicionais Autoregressivos (CAR) e os segundos usando modelos Gama 1

13 Multivariados. Extendendo os modelos de fragilidade espacial será apresentada uma modelagem com parâmetros variando no tempo, usando modelos dinâmicos. Na Seção 1.1 serão descritos os conceitos básicos em análise de sobrevivência. Na Seção 1.2 será descrito como a função de verossimilhança é especificada. Na Seção 1.3 serão descritos os modelos de regressão em análise de sobrevivência e como são introduzidas as covariáveis no modelo. Na Seção 1.4 será feita uma breve apresentação dos modelos de fragilidade onde será mostrado como o efeito de fragilidade é incorporado ao modelo. Um sumário dessa dissertação será apresentado na Seção Conceitos Básicos Os dados de sobrevivência consistem no tempo até a ocorrência de um determinado evento, que será chamado de morte ou falha. Uma característica desse tipo de dado é a possibilidade da não observação do evento de interesse em algumas observações, que pode ser uma censura ou um truncamento. Dados truncados são aqueles que para entrar no estudo foram sujeitos a um condicionamento. Dados censurados são divididos em três tipos; censura à direita, onde tudo que se sabe é que o evento ainda não ocorreu até o instante observado, censura à esquerda, onde tudo o que se sabe é que o evento ocorreu em algum instante de tempo antes do início do estudo, e censura intervalar, é aquela em que se sabe que o evento ocorreu dentro de um intervalo de tempo conhecido. Nesta dissertação apenas a modelagem com censura à direita será abordada. A ocorrência ou não de censura será indicada por uma variável indicadora de falha, que vale 1 se a observação falhou e 0 se foi censurada. 2

14 Além do tempo de sobrevivência e da variável indicadora de falha, os dados de sobrevivência podem conter um conjunto de variáveis observáveis que podem estar relacionadas com estes tempos. Estas variáveis são conhecidas por covariáveis ou variáveis explicativas. Quando os tempos de sobrevivência estão relacionados com as covariáveis diz-se que a população é heterogênea. Caso contrário a população é dita homogênea. Seja T uma variável aleatória (v.a.) que representa o tempo de sobrevivência de uma observação com função de densidade f(t). A função de sobrevivência, S(t), é definida por S(t) = P r(t > t) (1.1) onde T é uma variável aleatória contínua não negativa. A formulação dos modelos de sobrevivência é feita usualmente pela função de risco, h(t), definida por h(t) = lim 0 + P r(t < T < t + T > t) (1.2) e a função de risco acumulada, H(t), é dada por H(t) = t 0 h(u)du, t > 0 (1.3) Será assumido que os tempos de sobrevivência são variáveis aleatórias absolutamente contínuas. Portanto, a função de risco determina completamente a distribuição de probabilidade destes tempos. As principais relações entre f, S e h são definidas a seguir. De (1.1), obtém-se que e de (1.2) tem-se que f(t) = d S(t), (1.4) dt h(t) = lim 0 + P r(t < T < t + T > t) 3

15 1 = P r(t > t) lim P r(t < T < t + ) 0 + = f(t) S(t) (1.5) Como T é uma v.a. positiva, h(t) = 0, t < 0. Substituindo (1.4) em (1.5) e resolvendo a equação para S(t), { t } S(t) = exp h(u)du = exp { H(t)}. (1.6) 0 Note que a função de risco é suficiente para especificar a distribuição de probabilidade da variável, pois pode-se escrever a função de densidade de probabilidade como função da função de risco, ou seja, usando (1.5) e (1.6) tem-se que { t } f(t) = h(t) exp h(u)du. (1.7) Especificação da Verossimilhança A contribuição para a função de verossimilhança para uma observação que falhou é a função de densidade, mas se a observação for censurada a informação que se tem em mãos é que a observação sobreviveu até aquele instante de tempo, portanto a contribuição para a função de verossimilhança de um indivíduo que foi censurado é a função de sobrevivência. A distinção entre falha e censura é feita através da variável indicadora de falha, δ. Desta forma, a contribuição, p(t), para a função de verossimilhança de uma observação é dada por: p(t) = f(t) δ S(t) 1 δ. (1.8) Seja uma amostra de tamanho n de dados de sobrevivência onde supõe- 4

16 se independência e que as observações sejam provenientes de uma mesma população, homogênea ou não. A função de verossimilhança é dada por L(t 1,..., t n ) = = n p(t i ) i=1 n f(t i ) δ i S(t i ) 1 δ i. (1.9) i=1 Usando as relação (1.5) e (1.6) em (1.9) a função de verossimilhança é reescrita por L(t 1,..., t n ) = n i=1 { h(t i ) δ ti } i exp h(u)d(u). (1.10) Modelos de Regressão Frequentemente os dados de sobrevivência são provenientes de populações heterogêneas, implicando na observação de um conjunto de covariáveis juntamente com os tempos de sobrevivência. Portanto, é interessante conhecer a influência das covariáveis nos tempos de sobrevivência, justificando o interesse nos modelos de regressão. O efeito das covariáveis em análise de sobrevivência é expresso através da função de risco. Nesta dissertação, serão considerados apenas efeitos multiplicativos. O principal modelo multiplicativo é o modelo de riscos proporcionais ou modelo de Cox, (Cox, 1972), que é definido por h(t X, β) = h 0 (t)g(x; β) (1.11) onde t é o tempo observado, X = (X 1,..., X p ) é o vetor de covariáveis. Os coeficientes β = (β 1,..., β p ) T são conhecidos por Coeficientes de Regressão. A função h 0 (t) é conhecida por Função de Risco de Base e a função G(.,.) 5

17 é uma função positiva, usualmente G(X; β) = exp{xβ} e que também será a função utilizada nessa dissertação. Assim (1.11) é reescrito como h(t X, β) = h 0 (t) exp{xβ}. (1.12) Este modelo é chamado de modelo de riscos proporcionais, pois a razão das taxas de falha de dois indivíduos é constante no tempo, isto é, a razão das funções de risco para dois indivíduos diferentes, i e j, é h(t X i, β) h(t X j, β) = h 0(t) exp{x i β} h 0 (t) exp{x j β} = exp{x i β X j β} que não depende do tempo. A função de verossimilhança para os modelos de regressão de riscos proporcionais é obtida, aplicando (1.12) em (1.10) L(β, h 0 ) = n ( h0 (t i )e ) X δ iβ i exp { } H 0 (t i )e X iβ i i=1 onde H 0 (t i ) é a função de risco de base acumulada, i = 1,..., n. (1.13) Quando a função de risco de base, h 0 (t), é especificada, ou seja, a função tem uma forma paramétrica conhecida, o modelo é chamado paramétrico. Mas quando a função h 0 (t) é não especificada, o modelo é dividido em duas partes: uma paramétrica, associada aos coeficientes de regressão e a outra não paramétrica, associada à função de risco de base. Esse modelo é conhecido por semiparamétrico. O modelo de riscos proporcionais supõe que as covariáveis não dependem do tempo como extensão para o modelo de Cox. Seja X(t) = (X 1 (t),..., X p (t)) um conjunto de covariáveis no tempo t, a versão do modelo de Cox com variáveis dependentes do tempo é dada através da substituição de X por X(t) em (1.12), ou seja, h(t X, β) = h 0 (t) exp{x(t)β} (1.14) 6

18 Uma outra extensão para os modelos de Cox com variáveis dependentes do tempo foi proposta por Gamerman (1991). Ele propôs uma classe de modelos baseada em modelos dinâmicos, que elimina o problema da suposição de riscos proporcionais e faz com que o modelo de riscos proporcionais seja um caso particular, essa abordagem será utilizada nessa dissertação. Uma outra forma de incluir covariáveis no modelo é usando modelos aditivos, onde o principal modelo é o modelo de Aalen (1980). Essa modelagem assim como, a classe de modelos de Gamerman(1991) e a classe extendida dos modelos de Cox (1972), aceita covariáveis dependentes do tempo. A função de risco do modelo de Aalen é dada por h(t X(t)) = α 0 (t) + ζ(x(t)α(t)) (1.15) onde α(t) = [α 1 (t),..., α p (t)] T e α 0 (t) são funções não especificadas, X(t) = (X 1 (t),..., X p (t)) é o vetor de covariáveis dependentes do tempo e ζ(.) é uma função positiva usualmente ζ(x) = x. 1.4 Modelos de Fragilidade Os modelos de fragilidade são caracterizados pela introdução de um efeito aleatório na função de risco. Clayton (1978) e Vaupel, Manton e Vallard (1979) foram os primeiros a trabalhar com esta classe de modelos, o nome fragilidade foi introduzido no segundo trabalho. A forma usual de se introduzir a fragilidade no modelo de Cox é h(t X, β) = h 0 (t)u exp(xβ) (1.16) onde u é a fragilidade. Assume-se que u tem média 1 e variância desconhecida, ξ. Usualmente assume-se também uma distribuição Gama para ξ. 7

19 Note que se u = 0 o modelo (1.17) se reduz ao modelo de riscos proporcionais (1.12). Procedimentos de inferência para esses modelos podem ser encontradas em Klein e Moeschberger (1997), sob um ponto de vista clássico, Clayton (1991) e Silva (2001) apresentam métodos bayesianos para estes modelos, o segundo autor também apresenta modelos aditivos de fragilidade. Em algumas aplicações é conveniente escrever o modelo (1.16) como h(t X, β) = h 0 (t) exp(xβ + w) (1.17) onde w é a fragilidade, que segue uma distribuição com média 0 e variância σ 2. Note que se σ = 0 o modelo (1.17) se reduz ao modelo de risco proporcionais, (1.12). Supor que w tem distribuição normal é o mesmo que supor que u tem distribuição log-normal, pois w = log(u), e McGilchrist e Aisbett (1991) modelaram a fragilidade usando a distribuição log-normal. 1.5 Sumário da dissertação Os resultados básicos em análise de sobrevivência que serão utilizados nessa dissertação foram apresentados neste capítulo. O procedimento de inferência será apresentado no Capítulo 2, onde será descrito de uma forma geral a inferência Bayesiana, apresentando as definições básicas, os métodos computacionais bayesianos com ênfase aos métodos de amostragem de Monte Carlo via Cadeias de Markov (MCMC), uma apresentação breve sobre Modelos Dinâmicos, Estatistica Espacial e métodos de comparação de modelos. No Capítulo 3 serão apresentados os procedimentos de inferência para os Modelos Estáticos de Sobrevivência, ou modelos de Regressão de Cox. O modelo em questão é modelo de Cox (1.12), que tem como quantidades 8

20 desconhecidas a função de risco de base e os coeficientes de regressão. A função de risco de base será abordada de três maneiras distintas, a primeira usando uma modelagem paramétrica, a segunda usando processos gama, introduzidos em análise de sobrevivência por Kalbfleish (1978) e, finalmente, usando processos correlacionados baseados em modelos dinâmicos, introduzidos em análise de sobrevivência por Gamerman (1991). Para os coeficientes de regressão será assumido uma distribuição a priori. Essa metodologia será aplicada a dados simulados. No Capítulo 4 serão apresentados os Modelos Estáticos de Fragilidade Espacial e será explicado como um efeito aleatório com uma estrutura espacial é incorporado aos Modelos Estáticos. A função de risco de base e os coeficientes de regressão serão abordados de maneira equivalente à abordagem dos Modelos Estáticos com o acréscimo do termo da fragilidade. A Fragilidade Espacial será abordada usando processos Gaussianos usados em Geoestatística, onde será assumido alguma função de correlação espacial para explicar a relação de dependência espacial entre as observações. Para encerrar o capítulo será feito um estudo simulado No Capítulo 5, os Modelos Dinâmicos em Sobrevivência serão apresentados. Logo em seguida os Modelos Dinâmicos em Sobrevivência serão extendidos com a introdução de uma estrutura espacial, resultando nos Modelos Dinâmicos de Fragilidade Espacial. O procedimento de inferência será descrito, onde serão definidas distribuição a priori para os parâmetros desconhecidos. Um estudo simulado será desenvolvido para os Modelos Dinâmicos com e sem Fragilidade Espacial. No Capítulo 6, as metodologias dos Capítulos 3, 4 e 5 serão aplicadas a dados reais. O primeiro conjunto de dados é um banco de dados de pessoas 9

21 residentes no Noroeste da Inglaterra que sofrem de leucemia. Esse conjunto de dados foi utilizado no trabalho de Henderson et al. (2003), com dados cedidos pelo autor. O outro conjunto de dados contém o tempo médio no emprego em cada município do estado do Rio de Janeiro para os grandes setores de emprego definidos pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Estes dados foram cedidos pelo Ministério do Trabalho e Emprego (MTE). No Capítulo 7, serão apresentadas as conclusões da dissertação, uma breve discussão computacional e propostas para trabalhos futuros. E em seguida, no Apêndice serão apresentadas todas as distribuições a posteriori omitidas na dissertação. 10

22 Capítulo 2 Inferência Bayesiana Todos procedimentos de inferência que serão utilizados nessa dissertação são completamente Bayesianos. Portanto, neste Capítulo serão descritos os conceitos necessários para se fazer inferência Bayesiana. Na Seção 2.1 serão definidos a distribuição a priori de alguma quantidade desconhecida e como se atualiza essa distribuição, usando o Teorema de Bayes, a partir de um conjunto de dados observados relacionados com a quantidade desconhecida de interesse, para se obter a distribuição a posteriori. Na Seção 2.2 serão descritos métodos computacionais para o cálculo da distribuição a posteriori, dando ênfase aos métodos de amostragem de Monte Carlo via Cadeias de Markov (MCMC). Outras técnicas que serão utilizadas nessa dissertação serão apresentadas. Na Seção 2.3 serão descritos de forma resumida os Modelos Dinâmicos, com uma ênfase nos modelos dinâmicos de primeira ordem. Na Seção 2.4 será feita uma introdução à Estatística Espacial descrevendo as três grandes subdivisões da Estatística Espacial: Geoestatística, Dados de Área e Padrões de Ponto. 11

23 2.1 Conceitos Básicos Um problema de inferência estatística é conhecer o comportamento de uma quantidade desconhecida, θ, que descreve o comportamento de uma determinada característica de uma certa população. A quantidade θ assume valores em um conjunto denotado por Θ, conhecido por espaço paramétrico. Seja H a informação inicial sobre o parâmetro de interesse. Essa informação será descrita em termos probabilísticos, podendo ser resumida através de p(θ H). Se a informação contida em H é suficiente para descrever o comportamento de θ, isto é tudo que se precisa. Mas na maioria das vezes a informação inicial H não é suficiente para descrever de forma razoável o comportamento do parâmetro. Portanto, é necessário obter mais informação sobre θ. O que se faz usualmente é a experimentação, isto é, realiza-se um experimento com a população de interesse, uma amostragem dessa população. Observa-se quantidades aleatórias, denotadas por X, que dependem do parâmetro θ. Antes de observar os valores de X deve-se conhecer a distribuição amostral de X dada por p(x θ, H). Após observar o valor de X, a informação sobre θ foi aumentada, ou seja, mudou de H para H = H {X = x}. Agora a informação sobre θ é resumida por p(θ x, H). Em termos probabilísticos essa passagem de p(θ H) para p(θ x, H) é feita através do Teorema de Bayes 1. Teorema 2.1 (Teorema de Bayes) Seja p(θ H) a distribuição inicial da 1 O Teorema de Bayes foi introduzido pelo Reverendo Thomas Bayes em dois artigos em 1793 e 1794, publicados após sua morte, como mencionado em Barnett (1973). 12

24 quantidade desconhecida θ e p(x θ, H) a distribuição amostral de X dado θ. A distribuição atualizada para θ é onde p(θ x, H) = p(x H) = θ Θ p(θ H)p(x θ, H) p(x H) p(θ H)p(x θ, H)dθ. Como a função do denominador do Teorema de Bayes não depende de θ, ele pode ser reescrito como p(θ x) p(θ)p(x θ). Note que a informação inicial H foi omitida, mas apenas para simplificar a notação, pois é um fator comum em todos os termos. O Teorema de Bayes é uma regra de atualização de probabilidades sobre θ, partindo de uma distribuição a priori p(θ) para a distribuição a posteriori p(θ x) usando a informação contida nos dados p(x θ) conhecida por função de verossimilhança. Toda inferência será feita com base na distribuição a posteriori, de onde obtém-se as estatísticas necessárias para resumir o comportamento de θ. Dentre as principais estatísticas a posteriori pode-se citar: a média a posteriori, E(θ x): E(θ x) = o quantil α a posteriori, Q(α): { Q(α) = θ Θ : θ θ Θ θp(θ x)dθ p(θ x)dθ = α }, α (0, 1); note que quando α = 0.5 tem-se a mediana a posteriori. 13

25 o intervalo 100(1 α)% de credibilidade a posteriori, (L, U): { } (L, U) = (L, U ) Θ 2 : U L p(θ x)dθ = 1 α, α (0, 1); se o intervalo é simétrico, então L = Q(α/2) e U = Q(1 α/2). Para mais detalhes sobre aspectos teóricos envolvendo inferência sob o ponto de vista Bayesiano podem ser consultados os livros de Migon e Gamerman (1999) e O Hagan (1994). Muitas vezes a distribuição a posteriori não tem forma fechada, pois a integral no denominador do Teorema de Bayes não possui solução analítica. Portanto, a distribuição a posteriori tem que ser obtida através de métodos numéricos. Na próxima Seção será apresentado um breve introdução aos métodos de simulação de Monte Carlo via Cadeias de Markov (MCMC). 2.2 Monte Carlo via Cadeias de Markov A difusão da aplicação dos métodos Bayesianos esteve limitada até aos anos 90 pelo fato da distribuição a posteriori em muitas situações práticas serem analiticamente intratáveis. Nas ultimas décadas vários métodos numéricos foram propostos visando ultrapassar essa limitação, nomeadamente, os métodos baseados em aproximações assintóticas, aproximações de Laplace, aproximações via quadratura Gaussiana e métodos baseados em simulação estocástica. Boas descrições desses métodos podem ser encontradas em Tanner (1996) e Gamerman (1997). Mas a aplicação dos médodos Bayesianos começou realmente a se difundir após a introdução dos métodos de Monte Carlo via Cadeias de Markov, de onde destacam-se o amostrador de Gibbs e o algoritmo de Metropolis-Hastings. 14

26 2.2.1 Amostrador de Gibbs Geman e Geman (1984) propuseram um esquema de amostragem uma distribuição 2 explorando as distribuições condicionais completas através de um algoritmo iterativo que define uma cadeia de Markov. Embora esse trabalho fosse de conhecimento de parte da comunidade científica estatística, este artigo foi destinado à área de processamentos de imagens e foi publicado em revista da área. Isso provavelmente levou ao atraso de sua apreensão e compreesão pela comunidade como uma técnica poderosa de abordagem de problemas dos mais variados de estatística Bayesiana. Esse erro de desenvolvimento foi reparado pelo trabalho de Gelfand e Smith (1990) que comparam o amostrador de Gibbs com outros esquemas de simulação estocástica. O amostrador de Gibbs, ( Geman e Geman, 1984), é essencialmente um esquema amostral de uma cadeia de Markov cujo núcleo de transição é formado pelas condicionais completas. Para descrever o algoritmo, suponha que a distribuição de interesse é a distribuição a posteriori p(θ x) com θ = (θ 1,..., θ S ) e considere também que todas as condicionais completas a posteriori p(θ i, θ i, x) i = 1,..., n estejam disponíveis e que sabe-se gerar amostras de cada uma delas. Portanto, o esquema de amostragem é dado por: 2 A distribuição que Geman e Geman estavam interessados chama-se distribuição de Gibbs, que dá nome ao amostrador, usada em Mecânica Estatística e tem a seguinte forma [ f(x 1,..., x n ) exp 1 ] kt E(x 1,..., x n ) onde k é uma constante positiva, T é a temperatura e E é a energia do sistema, função positiva. 15

27 Amostrador de Gibbs I - Inicialize θ (0) = (θ (0) 1,..., θ (0) S ) e k = 1 II - Obtenha um novo valor para θ (k) a partir de θ (k 1) através de sucessivas gerações de valores. Para i = 1 até S, faça: gere um valor para θ (k) i de θ (k) i p(θ i θ (k) 1,..., θ (k) i 1, θ (k 1) i+1,..., θ (k 1) S, x) III - Faça k = k + 1 e volte para II e repita o procedimento até alcançar a convergência. A medida que o número de iterações aumenta, a cadeia se aproxima da sua distribuição de equilíbrio. Assim, assume-se que a convergência é atingida em uma iteração cuja a distribuição esteja próxima da distribuição de equilíbrio, p(θ x), e não no sentido formal e inatingível do número de iterações tendendo ao infinito Algoritmo de Metropolis-Hastings O algoritmo de Metropolis foi apresentado inicialmente por Metropolis et al. (1953) e generalizado por Hastings (1970) resultando no algoritmo de Metropolis-Hastings. Esse método é usado geralmente quando é difícil gerar amostras da condicional completa a posteriori. Neste caso, gera-se valores do parâmetro a partir de uma distribuição proposta e esse é aceito ou não com uma certa probabilidade de aceitação. Para descrever o algoritmo, suponha que a distribuição de interesse é a 16

28 distribuição a posteriori p(θ x) com θ = (θ 1,..., θ S ). Considere também que todas as condicionais completas a posteriori p(θ i θ i, x). i = 1,..., n estejam disponíveis mas não se sabe gerar amostras diretamente de cada uma e que amostras de um novo valor de θ i serão geradas a partir de uma distribuição proposta condicional ao valor atual de θ i, q(θ (p) i proposto e θ (a) i amostragem é dado por: θ (a) i ), onde θ (p) i é o valor é o valor atual 3, para i = 1,..., n. Portanto o esquema de Algoritmo de Metropolis-Hastings I - Inicialize θ (0) = (θ (0) 1,..., θ (0) S ) e k = 1 II - Obtenha um novo valor para θ (k) a partir de θ (k 1) através de sucessivas gerações de valores. Para i = 1 até S, faça: (i) Gere uma proposta para θ (k) i de θ (p) i q(θ i θ (k 1) i ) (ii) Aceite a proposta com probabilidade de aceitação dada por α = min 1, p(θ (p) i θ (a) i p(θ (k 1) i θ (a) i, x)q(θ (k 1) i, x)q(θ (p) onde θ (a) i = (θ (k) 1,..., θ (k) i 1, θ (k 1) i+1,..., θ (k 1) S ). i θ (p) i ) θ (k 1) i ) III - Faça k = k + 1 e volte para II e repita o procedimento até alcançar a convergência. O algoritmo de Metropois-Hastings é bastante geral, e pode, pelo menos 3 Entenda por valor atual o valor de θ exatamente antes da proposta ser gerada, ou seja, o valor atualizado da iteração anterior. 17

29 em princípio, ser implementado com qualquer distribuição condicional completa a posteriori e para qualquer proposta. Entretanto sob o ponto de vista prático, a escolha da proposta é crucial para o bom desenvolvimento do algoritmo, ou seja, para sua convergência para a distribuição a posteriori. Algumas propostas mais comuns são: Cadeias Simétricas: Quando a distribuição proposta é simétrica em torno da iteração anterior, isto é, q(θ (p) i θ (k 1) i ) = q(θ (k 1) i θ (p) i ) α = min 1, p(θ (p) i θ (a) p(θ (k 1) i θ (a) i, x) i, x) Dentre as cadeias simétricas destaca-se o passeio aleatório, θ (p) i = θ (k 1) i + e, onde e tem um distribuição simétrica em torno zero. Cadeias independentes Quando a proposta não depende do passo anteriori, ou seja, q(θ (p) i θ (k 1) i ) = q(θ (p) i ), e a probabilidade de aceitação é dada por α = min p(θ(p) i θ (a) 1, p(θ (k 1) i i ) i ) i, x)q(θ (k 1) θ (a) i, x)q(θ (p) Um caso particular de cadeias independentes é quando a distribuição proposta é a distribuição a priori para θ i, neste caso a probabilidade de aceitação é dado somente pela função de verossimilhança, isto é, α = min 1, p(x θ (p) i, θ (a) i ) p(x θ (k 1), θ (a) i i ) Um outro caso particular de cadeias independentes é quando a distribuição proposta é a própria condicional completa a posteriori, isto 18

30 é, q(θ (p) i ) = p(θ (p) i θ (a) i, x). Fazendo isto, a probabilidade de aceitação é igual a um. Gerar da condicional completa e aceitar sempre em um algoritmo iterativo é a definição do amostrador de Gibbs, portanto o amostrador de Gibbs é um caso particular do algoritmo de Metropolis- Hastings. Para maiores informações veja em Gilks et al. (1996), onde são apresentados conceitos e resultados com aplicações dos métodos de simulação de Monte Carlo via Cadeias de Markov em inferência Bayesiana e não-bayesiana Verificação de Convergência Os método de MCMC são uma ótima ferramenta para resolução de muitos problemas práticos na análise Bayesiana. Porém, algumas questões relacionadas à convergência nestes métodos ainda merecem bastante pesquisa. Uma questão que pode surgir é Quantas iterações deve ter o processo de simulação para garantir que a cadeia convergiu para o estado de equilíbrio? A resposta definitiva para esta questão poderá nunca ser dada, visto que a distribuição estacionária será na prática desconhecida, mas pode-se sempre avaliar a convergência das cadeias detectando problemas fora do período de aquecimento 4. Para eliminar uma possível auto-correlação das cadeias seleciona a partir do burn-in a cada k iterações, o tamanho de k será chamado de lag. Uma análise de convergência em métodos de simulação pode ser feita preliminarmente analisando os gráficos ou medidas descritivas dos valores 4 O período de aquecimento limitado superiormente pelo burn-in, onde burn-in é a iteração tal que acredita-se que a partir dela a cadeia convergiu. 19

31 simulados da quantidade de interesse, θ. Os gráficos mais frequentes são o gráfico de θ ao longo das iterações e um gráfico da estimativa da distribuição a posteriori de θ, por exemplo um histograma ou uma densidade kernel. As estatísticas usuais são a média, o desvio padrão e os quantis (2,5%; 50%; 97,5%). Uma segunda fase de avaliação de convergência em métodos de MCMC faz-se usando algumas técnicas de diagnóstico de convergência. As técnicas mais populares são: Geweke (1992) que usa resultados baseados em análise espectral, Heidelberger e Welch (1983) que também usa resultados baseados em análise espectral, Raftery e Lewis (1992) que permite calcular quantas iterações são necessárias para uma cadeia atingir a distribuição estacionária através da estimação de quantis a posteriori com uma precisão previamente fixada e Gelman e Rubin (1992) que usa resultados baseados na análise de variância clássica para duas ou mais cadeias simuladas com valores iniciais diferentes. Estes métodos e outros foram comparados no trabalho de Cowles e Carlin (1996), onde se chegou a conclusão de que não se pode afirmar qual deles é o mais eficiente. As técnicas de Geweke, Heidelberger- Welch, Raftery-Lewis, Gelman-Rubin e outras estão implementadas no pacote CODA ( Cowles et al., 1997) executável no freeware R. 2.3 Modelos Dinâmicos Nesta seção será feita uma introdução aos modelos dinâmicos, uma ampla classe de modelos com parâmetros variando no tempo, adequados à modelagem de séries temporais e regressão. 20

32 Os modelos dinâmicos foram apresentados por Harrison e Stevens (1976) e estão bem estruturados em West e Harrison (1997). Os modelos lineares dinâmicos são caracterizados por duas equações: a equação de observação dada por Y t = F t β t + ɛ t, ɛ t N(0, σt 2 ) (2.1) e pela equação de sistema dada por: β t = G t β t 1 + u t, u t N(0, U t ) (2.2) onde no instante t, Y t denota a série de observações independentes condicionalmente em θ t e σt 2, F t é um vetor de constantes conhecidas (variáveis explicativas), β t = (β 1t,..., β pt ) T é um vetor-coluna com p coeficientes, G t é uma matriz de termos conhecidos que define a evolução sistemática dos parâmetros, ɛ t e u t são erros mutuamente independentes e, σt 2 e U t, as variâncias dos erros associados à observação e ao vetor de parâmetros, respectivamente. O modelo é completado com a seguinte distribuição a priori: β 1 D 1 N(m 1, C 1 ), onde D 0 é a informação relevante a priori sobre β 1. Em resumo, um modelo linear dinâmico fica completamente especificado pela quádrupla {F t, G t, σt 2, U t }. Note que os modelos de séries temporais são caracterizados por F t = F e G t = G, t e os modelos estáticos de regressão são caracterizados por G t = I p e U t = 0. Uma das principais características de um modelo linear dinâmico é que a cada instante de tempo as informações existentes são descritas pela distribuição a posteriori do vetor de estado β t. Em cada instante de tempo, os seguintes passos são feitos: evolução, previsão e atualização. No modelo {F t, G t, σt 2, U t } com priori β 1 D 1 N(m 1, C 1 ) a dinâmica é dada por: 21

33 Evolução - De (2.1) tem-se que a distribuição a priori em t é: β t D t 1 N(a t, R t ) (2.3) onde a t = G t m t e R t = G t C t 1 G T t + U t. Previsão - é: De (2.3) chega-se que a distribuição preditiva um passo a frente y t D t 1 N(f t, Q t ) (2.4) onde f t = F t a t e Q t = F t R t F T + σt 2. Atualização - Usando a verossimilhança (2.1), a priori (2.3) e o Teorema de Bayes tem-se que β t D t N(m t, C t ) (2.5) onde D t = {y t, D t 1 }, m t = a t + R t F T t (Q t + V t ) 1 (y t f t ), C t = R t R t F T t (Q t + V t ) 1 F t R T t. Suponha que sejam feitas S observações do experimento Y, isto é, Y = (Y 1,..., Y S ). Suponha também o modelo {1, 1, σ 2, U}, ou seja, Y j = β j + e j, e j N(0, σ 2 ), (2.6) β j = β j 1 + u j, u j N(0, U j ), j = 2,..., S (2.7) onde U j = Ub j, b j é um valor conhecido e, completando o modelo β 1 N(m, C). 22

34 dada por Desta forma a distribuição conjunta a priori pra β = (β 1,..., β p ) T é p(β) = S p(β 1 ) p(β i β i 1 ) i=2 { exp 1 } 2 (β m)t Λ(β m) (2.8) que é o núcleo da distribuição normal multivariada, ou S-variada, com média m e matriz de variâncias Λ 1, denotada por β N S (m, Λ 1 ) (2.9) onde m = (m,..., m) T e (2.10) Λ = 1 C b 1 1 U b U 1 1 b 2 U b 2 U b U 0 1 b U b S 1 U b S 1 U b S U (2.11) b S U b S U 2.4 Geoestatística Com o crescimento das técnicas de georeferenciamento, os bancos de dados mais atuais contém entre outras informações a posição espacial das observações. Esta posição espacial pode ser contínua, com a posição exata de cada indivíduo, onde se tem as suas coordenadas geográficas ou a posição espacial, determinada por alguma região que contenha esse indivíduo, por exemplo bairro, munícipio, estado, etc. Esta informação espacial em deter- 23

35 minados estudos é relativamente barata de ser obtida. Por exemplo, em uma pequisa médica saber o endereço do paciente é bastante simples. Dados com informação espacial vem sendo amplamente estudados em problemas de estatística aplicada (Cressie, 1993), pois em muitas situações a posição espacial pode influenciar o resultado do evento de interesse. Os modelos que incorporam alguma informação espacial visam explicar de alguma forma essa influência no resultado do evento de interesse. O conjunto de técnicas estatísticas para modelar dados com informação espacial é conhecido por Estatística Espacial. A Estatística Espacial considera os valores amostrais como sendo realizações de funções aleatórias com distribuição no espaço e, nesse caso, o valor de um ponto é função da sua posição na região de estudo. Outro fator que também é levado em consideração na estatística espacial é a posição relativa dos pontos amostrados. Assim, a similaridade entre valores amostrais é quantificada em função da distância entre amostras, representando tal relação o fundamento desse campo especial da estatística aplicada. Segundo Cressie (1993), existem três grandes subdivisões da estatística espacial: Geoestatística, dados de área e padrão de pontos. Em Geoestatística se tem interesse em conhecer o comportamento de algum processo que varia continuamente na região de estudo. Nos Dados de Área, assim com em Geoestatística, se tem interesse em conhecer o comportamento de algum processo, mas os dados estão distribuídos discretamente sob região de interesse, ou seja, os pontos observados pertencem a sub-regiões que estao contidas na região de interesse. E no Padrão de Pontos, diferente da duas abordagens anteriores, se tem interesse em conhecer a posição espacial na qual um evento irá ocorrer. Nessa dissertação o interesse é em descrever 24

36 o comportamento de um processo que pode ocorrer em qualquer lugar no espaço. Portanto, será utilizado apenas técnicas de Geoestatística e Dados de Área, dando uma ênfase à primeira abordagem, pois esta abordagem será adotada na inferência para o termo de fragilidade espacial. A idéia básica de Geoestatística é que observações próximas tem comportamento similar e, à medida que a distância entre as observações aumenta, essa similaridade tende a diminuir. Os objetivos da análise de Geoestatística são: estimação e previsão. A estimação refere-se à inferência de parâmetros do processo gerador das observações. A previsão ou interpolação refere-se a inferência em locais não-observados. Definição 2.1 (Processos Gaussianos) A função W (.) assumindo valores w(s) para s D, segue um Processo Gaussiano com função de média m(.) e função de variância C(.,.) denotado por W (.) P G (m(.), C(.,.)). Se para todo s 1, s 2,..., s n D e n = 1, 2,..., a distribuição conjunta de W (s 1 ), W (s 2 ),..., W (s n ) é normal multivariada com parâmetros dados por E(W (s i )) = m(s i ) e Cov(W (s i ), W (s j )) = C(s i, s j ). Seja W (.) um processo espacial Gaussiano estacionário isotrópico 5 com média zero, mais podem ser encontrados em Cressie (1993), ou seja, W (.) N(0, R(.,.)) (2.12) 5 Um processo é dito isotrópico quando a estrutura de correlação depende apenas da distância entre as observações e é a mesma em qualquer direção. 25

37 para s 1, s 2,..., s n D, R(s i, s j ) = σ 2 ρ(d ij ), onde ρ(d ij ) é a função de correlação espacial e d ij = s i s j é a distância entre s i e s j, i, j. As principais funções de correlação espacial usadas em Geoestatística são: Esférica, Gaussiana, exponencial, exponencial potência e a Matérn. A função de correlação esférica é dada por ( ) ( ) d 2 φ 1 d 0 < d < φ 2 φ ρ(d; φ) = 0 d > φ, φ > 0. (2.13) Note que o parâmetro φ trunca a correlação espacial. A função de correlação é Exponencial Potência é dada por { ( ) κ } d ρ(d; φ, κ) = exp, φ > 0, κ (0, 2]. (2.14) φ Essa função é bastante popular pois ela tem como casos particulares as função Exponencial, quando κ = 1, e Gaussiana, quando κ = 2. A função de correlação Matérn é dada por ρ(d; φ, κ) = { 2 κ 1 Γ(κ) } ( ) κ ( ) 1 d d K κ, φ > 0, κ > 0, (2.15) φ φ onde K κ (.) denota a função Bessel de terceiro tipo de ordem κ. Seja W = (W (s 1 ), W (s 2 ),..., W (s n )) uma amostra de observações de um processo pertecente a uma região D, onde s i indica a posição espacial do indivíduo i na região D e W (s i ) o valor do processo observado para o indivíduo i, i = 1,..., n. Como a inferência para os parâmetros do processo será feita sob o ponto de vista Bayesiano, tem-se que: onde Σ = σ 2 R, R ij correlação espacial utilizada. W Σ N n (0, Σ) (2.16) = ρ(d ij ; θ) i, j = 1,..., n e θ depende da função de 26

38 A distribuição a posteriori dos parâmetros do processo gerador de W é obtida através do Teorema de Bayes combinando uma distribuiçao a priori p(σ 2, θ) com a verossimilhança (2.16): p(σ 2, θ W ) p(σ 2, θ)(σ 2 ) n 2 R 1 2 { exp 1 } 2σ W T R 1 W 2 (2.17) onde A é o determinante da matriz A e p(σ 2, θ) é a distribuição a priori dos parâmetros da estrutura espacial. Prever valores não observados a partir dos dados observados é um dos objetivos da Geoestatística. Krige (1951) foi o pioneiro em previsão de valores distribuídos no espaço. Portanto a técnica de prever valores não observados no espaço recebeu o nome de Krigagem. Sob o ponto de vista Bayesiano a Krigagem é feita a partir da distribuição preditiva. Seja W (obs) = (W (s 1 ),..., W (s n ) uma amostra observada no espaço e W (prev) = (W (s n+1 ),..., W (s n+p ) o conjunto de valores que se deseja prever. Será assumido que W (.) segue um processo Gaussiano Estacionário Isotrópico com média 0. Logo o par (W (obs), W (prev) ) T tem distribuição normal multivariada com média 0 e matriz de variancias Σ = σ 2 R, R ij = ρ(d i j; θ), {i, j} = 1,..., n + P, com d ij = s i s j, ou seja, W (obs) N 0 n+p, σ 2 R (obs) W (prev) 0 R (prev),(obs) R (obs),(prev) R (prev), (2.18) onde R (obs) = R ij, {i, j} = 1,..., n, R (obs)(prev) = R ij, i = 1,..., n, j = n + 1,..., n + P, R (prev)(obs) = [R (obs)(prev) ] T e R (prev) = R ij, {i, j} = n + 1,..., n + P. Logo, usando uma propriedade da distribuição normal multivariada a distribuição condicional de W (prev) dado a amostra observada e os parâmetros 27

39 da estrutura espacial (σ 2, θ), é dada por W (prev) W (obs) N P ( µ (prev) (obs), Σ (prev) (obs)) (2.19) onde e µ (prev) (obs) = R (prev),(obs) R (obs) 1 W (obs) Σ (prev) (obs) = σ 2 ( R (prev) R (prev),(obs) R (obs) 1 R (obs),(prev)). 28

40 Capítulo 3 Modelos Estáticos de Sobrevivência Neste Capítulo serão apresentados os procedimentos de inferência sob o ponto vista Bayesiano para o modelo de Cox. A função risco do modelo de Cox se divide em um produto de outras duas funções, uma que depende apenas do tempo de falha, a função de risco de base, e a outra função que depende apenas das covariáveis, ou variáveis explicativas, isto é, variáveis que não dependem do tempo. Além disso, mais adiante serão apresentados modelos de sobrevivência dinâmicos, onde o efeito das covariáveis pode variar no tempo. Portanto, o modelo de Cox será chamado de Modelo Estático de Sobrevivência por não ter coeficientes dependentes do tempo. Na Seção 3.1 o Modelo Estático de Sobrevivência será formalmente apresentado, explicitando suas quantidades desconhecidas: os coeficientes de regressão e a função de risco de base. Serão descritos para este modelo, na Seção 3.2, os procedimentos de inferência para os coeficientes de regressão, onde será assumida 29

41 uma distribuição a priori. A função de risco de base, por ser uma função contínua no tempo, não permite elicitar diretamente a distribuição a priori. Desta forma, na Seção 3.3, a função de risco de base será abordada usando três formulações distintas, a primeira usando uma modelagem paramétrica, a segunda usando processos Gama, introduzidos em análise de sobrevivência por Kalbfleish (1978) e, finalmente, usando processos correlacionados baseados em modelos dinâmicos, introduzidos em análise de sobrevivência por Gamerman (1991). Finalizando, na Seção 3.4 será feito um estudo simulado para o Modelo Estático de Sobrevivência. 3.1 Definição do Modelo O Modelo Estático de Sobrevivência, ou Modelo de Cox, vem sendo amplamente utilizado em estatística aplicada, principalmente na área biomédica. Ele foi proposto por Cox (1972). Este modelo já foi apresentado anteriormente e sua função de risco é dada em (1.12), onde se tem interesse na função de risco de base, h 0, e nos coeficientes de regressão, β. A distribuição a posteriori para β e h 0 é dada atráves da atualização da distribuição a priori via Teorema de Bayes com a função de verossimilhança (1.13): n ( p(β, h 0 [dados]) p(β, h 0 ) h0 (t i )e ) X δ iβ i exp { H 0 (t i )e } X iβ. (3.1) i=1 Será assumido que β e h 0 são independentes a priori. Portanto, p(β, h 0 ) = p(β)p(h 0 ). Essas distribuições a priori serão exploradas a seguir. Outro detalhe importante, a distribuição a posteriori (3.1) não possui forma analítica fechada portando um esquema de amostragem via MCMC será utilizado. 30

42 Nas próximas seções será descrito como obter as condicionais completas a posteriori de β e h Coeficientes de Regressão Os coeficientes de regressão serão modelados com a suposição de que eles não dependam do tempo, esta é uma imposição do próprio modelo. A distribuição a priori para os coeficientes de regressão é dada por { p(β) exp 1 } 2 (β m)t V 1 (β m) (3.2) onde p(β) é o núcleo da função de densidade da distribuição Normal com média m e variância V. Os hiperparâmetros m e V são valores conhecidos que descrevem o conhecimento subjetivo que se tem a priori do comportamento dos coeficientes. Uma priori não informativa é dada quando aumenta-se as variâncias da priori indefinidamente. A condicional completa dos coeficientes de regressão é obtida através da combinação da priori (3.2) com a verossimilhança (1.10) usando o Teorema de Bayes { p(β ) exp 1 } 2 (β m)t V 1 (β m) { n [ exp Xi βδ i H 0 (t i )e ]} X iβ (3.3) i=1 onde p(θ ) define a distribuição condicional completa a posteriori do parâmetro θ. Note que a distribuição (3.3) não é uma distribuição conhecida, isto é, não se sabe gerar amostras diretamente dela. Portanto, os coeficientes serão 31

43 gerados conjuntamente através do seguinte passeio aleatório como proposta β (p) = β (a) + u, u N(0, V β ), (3.4) onde β (p) é o vetor de coeficientes propostos, β (a) é o vetor coeficientes da iteração atual. O valor proposto será aceito ou não de acordo com a probabilidade de aceitação dada pelo mínimo entre 1 e a razão das condicionais completas, (3.3), de β (p) e β (a). 3.3 Função de Risco de Base Como a função h 0 é uma função contínua, não é possível especificar uma distribuição diretamente para ela. Logo se faz necessário o uso de técnicas indiretas para estimar a função de risco de base. Essas técnicas podem ser paramétricas que visam diminuir o número de parâmetros a ser estimados para que a função de risco de base fique bem especificada ou não-paramétricas que visam dar mais flexibilidade ao modelo, sendo desnecessário supor a distribuição dos tempos de falha. Na abordagem paramétrica será utilizada a distribuição Weibull, por ser simples e mais flexível que a distribuição exponencial. A abordagem não-paramétrica é mais flexível que a abordagem paramétrica, consequentemente é mais robusta. Nessa abordagem serão utilizados os processos Gama com incrementos independentes. Uma terceira abordagem que é uma mistura entre as abordagens paramétrica e não-paramétrica, pois é especificada uma distribuição Exponencial por Partes para o tempo de base, como na abordagem paramétrica. Por ser uma distribuição onde o número de parâmetros pode ser muito grande, essa aproximação para a função de risco pode ser também considerada uma abordagem não-paramétrica. 32

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Olinda Fátima dos Santos 1 Carla Regina Guimarães Brighenti 1 1-Introdução A utilização de informação a priori em inferência

Leia mais

Metodologia de inversão

Metodologia de inversão 6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Métodos de Monte Carlo baseados em Cadeias de Markov:

Leia mais

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora Capítulo 1 Introdução A informação que se tem sobre uma quantidade de interesse θ é fundamental na Estatística. O verdadeiro valor de θ é desconhecido e a idéia é tentar reduzir este desconhecimento. Além

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um

Leia mais

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. João Daniel Nunes Duarte a, Vinícius Diniz Mayrink b a Estudante de Graduação, e-mail: joaodaniel@ufmg.br

Leia mais

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC 1 / 1 AGA 0505- Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC Laerte Sodré Jr. 1o. semestre, 2018 2 / 1 Inferência Bayesiana inferência bayesiana consideremos um conjunto de dados D que

Leia mais

Inferência Bayesiana

Inferência Bayesiana Inferência Bayesiana Joaquim Neto joaquim.neto@ufjf.edu.br www.ufjf.br/joaquim_neto Departamento de Estatística - ICE Universidade Federal de Juiz de Fora (UFJF) Versão 3.0 Joaquim Neto (UFJF) ICE - UFJF

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Inferência com dimensão variável Modelos com

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3 Séries temporais A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3.1. Princípios fundamentais Conforme Box et al. (1994), uma

Leia mais

Estimadores, pontual e intervalar, para dados com censuras intervalar

Estimadores, pontual e intervalar, para dados com censuras intervalar Estimadores, pontual e intervalar, para dados com censuras intervalar Débora Ohara, Estela Maris Pereira Bereta, Teresa Cristina Martins Dias Resumo Dados com censura intervalar ocorrem com frequência

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Geração de Números Aleatórios Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 61 Simulando de Distribuições Discretas Assume-se que um

Leia mais

Tópicos de Estatística Espacial Geoestatística

Tópicos de Estatística Espacial Geoestatística Tópicos de Estatística Espacial Geoestatística Anderson Castro Soares de Oliveira Geoestatística A geoestatística é uma análise espacial que considera que a variável em estudo se distribui continuamente

Leia mais

2 Modelos Não Lineares

2 Modelos Não Lineares Modelos Não Lineares 17 2 Modelos Não Lineares 2.1. Introdução Nos últimos anos, muitos modelos não-lineares para a análise de séries temporais têm sido propostos. Na econometria clássica, os modelos de

Leia mais

Inferência Bayesiana Exata para Processos de Cox Level-Set

Inferência Bayesiana Exata para Processos de Cox Level-Set Inferência Bayesiana Exata para Processos de Cox Level-Set Bárbara da Costa Campos Dias 1 Flávio Bambirra Gonçalves 2 Resumo Este trabalho propõe uma metodologia de inferência exata para processos de Cox

Leia mais

Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial

Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial por Nícia Custódio Hansen DME - IM - UFRJ 2009 Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da

Leia mais

Novembro/2018. Ajuste Automático ao Histórico em Simulação de Reservatórios

Novembro/2018. Ajuste Automático ao Histórico em Simulação de Reservatórios Ajuste Automático ao Histórico Simulação de Reservatórios Flavio Dickstein Paulo Goldfeld Renan V. Pinto IM/UFRJ IM/UFRJ LabMAPetro/UFRJ Novembro/2018 Simulação sob incerteza (i) O reservatório é inacessível

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Escolha de modelos Até aqui assumimos que z

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

4 Conceitos Básicos de Estatística Bayesiana e Simulação Estocástica

4 Conceitos Básicos de Estatística Bayesiana e Simulação Estocástica 4 Conceitos Básicos de Estatística Bayesiana e Simulação Estocástica 4. Elementos de inferência Bayesiana Gamerman [34] define que tanto o modelo Bayesiano quanto o freqüentista trabalham na presença de

Leia mais

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Cap. 8 - Intervalos Estatísticos para uma Única Amostra Intervalos Estatísticos para ESQUEMA DO CAPÍTULO 8.1 INTRODUÇÃO 8.2 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 8.3 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO

Leia mais

Ajuste e comparação de modelos para dados grupados e censurados

Ajuste e comparação de modelos para dados grupados e censurados Ajuste e comparação de modelos para dados grupados e censurados 1 Introdução José Nilton da Cruz 1 Liciana Vaz de Arruda Silveira 2 José Raimundo de Souza Passos 2 A análise de sobrevivência é um conjunto

Leia mais

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Dissertação de Mestrado

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Dissertação de Mestrado Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística Dissertação de Mestrado Estimação bayesiana via cópulas para dados com censura intervalar bivariados por Fábio De Araújo

Leia mais

Introdução a Inferência Bayesiana

Introdução a Inferência Bayesiana Introdução a Inferência Bayesiana Helio S. Migon IM and COPPE - UFRJ migon@im.ufrj.br 2006 Conteúdo 1. Conceitos Básicos da Inferência 2. Distribuição a Priori 3. Sumariazação 4. Inferência Preditiva 1

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Introdução Solução de equações não lineares

Leia mais

ESTATÍSTICA BAYESIANA

ESTATÍSTICA BAYESIANA UNIVERSIDADE FEDERAL DE MINAS GERAIS INSTITUTO DE CIÊNCIAS EXATAS PET MATEMÁTICA Orientadora: Rosângela Helena Loschi ESTATÍSTICA BAYESIANA Marina Muniz de Queiroz INTRODUÇÃO A estatística clássica associa

Leia mais

Análise de Sobrevivência

Análise de Sobrevivência Análise de Sobrevivência Modelagem paramétrica Valeska Andreozzi 1 valeska.andreozzi@fc.ul.pt & Marilia Sá Carvalho 2 cavalho@fiocruz.br 1 Centro de Estatística e Aplicações da Universidade de Lisboa,

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Áreas Áreas Na análise de áreas o atributo estudado é em geral resultando de uma contagem ou um

Leia mais

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 06 / Classes Especiais de Processos Aleatórios

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 06 / Classes Especiais de Processos Aleatórios Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 06 / Classes Especiais de Processos Aleatórios Prof. Eduardo Simas (eduardo.simas@ufba.br) Programa de Pós-Graduação em Engenharia Elétrica/PPGEE

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Considere o problema de encontrar o valor que

Leia mais

ALGUMAS DISTRIBUIÇÕES CONTÍNUAS DE PROBABILIDADE

ALGUMAS DISTRIBUIÇÕES CONTÍNUAS DE PROBABILIDADE ALGUMAS DISTRIBUIÇÕES CONTÍNUAS DE PROBABILIDADE 4. 1 INTRODUÇÃO Serão apresentadas aqui algumas distribuições de probabilidade associadas a v.a. s contínuas. A mais importante delas é a distribuição Normal

Leia mais

Gibbs Sampler para ANOVA e Misturas

Gibbs Sampler para ANOVA e Misturas Gibbs Sampler para ANOVA e Misturas Renato Assunção - DCC, UFMG Outubro de 014 1 Modelo ANOVA: componentes de variância Suponha que temos K grupos ou classes. Em cada grupo, temos um certo número de dados

Leia mais

5. PRINCIPAIS MODELOS CONTÍNUOS

5. PRINCIPAIS MODELOS CONTÍNUOS 5. PRINCIPAIS MODELOS CONTÍNUOS 2019 5.1. Modelo uniforme Uma v.a. contínua X tem distribuição uniforme com parâmetros e ( < ) se sua função densidade de probabilidade é dada por f ( x )={ 1 β α, α x β

Leia mais

Análise de Dados e Simulação

Análise de Dados e Simulação Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Simulação de Variáveis Aleatórias Contínuas. O método da Transformada Inversa Teorema Seja U U (0,1). Para qualquer

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Motivação Por exemplo, queremos analisar a série

Leia mais

UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA. Eduardo Yoshio Nakano 1

UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA. Eduardo Yoshio Nakano 1 1 UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA Eduardo Yoshio Nakano 1 1 Professor do Departamento de Estatística da Universidade de Brasília, UnB. RESUMO. Em estudos médicos, o comportamento

Leia mais

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Estágio supervisionado 2

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Estágio supervisionado 2 Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística Estágio supervisionado 2 Inferência Bayesiana na análise de dados de experimentos planejados por Rafael Moraes Gazzinelli

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

Cap 7 Modelo de Cox. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. 5 Modelo de Cox. Carvalho MS (2009) Sobrevida 1 / 22

Cap 7 Modelo de Cox. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. 5 Modelo de Cox. Carvalho MS (2009) Sobrevida 1 / 22 Outline Cap 7 Modelo de Cox 1 Cap 1 Introdução 2 Cap 2 O tempo 3 Cap 3 Funções de Sobrevida 4 Cap 4 Não-Paramétrica 5 Modelo de Cox Carvalho MS (2009) Sobrevida 1 / 22 Riscos Proporcionais Cap 7 Modelo

Leia mais

Métodos Computacionais para inferência estatística

Métodos Computacionais para inferência estatística Métodos Computacionais para inferência estatística Wagner Hugo Bonat LEG: Laboratório de Estatística e Geoinformação Universidade Federal do Paraná 30 de julho de 2012 Bonat et. al (LEG/UFPR) MCIE 30 de

Leia mais

3 Filtro de Kalman Discreto

3 Filtro de Kalman Discreto 3 Filtro de Kalman Discreto As medidas realizadas por sensores estão sujeitas a erros, como pode ser visto no Capítulo 2. Os filtros são aplicados aos sinais medidos pelos sensores para reduzir os erros,

Leia mais

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais egs@cin.ufpe.br Agenda Séries Temporais: Definições Exemplos Modelos simples com média zero: Ruído I.I.D Processo Binário Random

Leia mais

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000)

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) 5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) A primeira parte deste capítulo, referente à passagem dos modelos estocásticos para as equações do Filtro de Kalman, já foi previamente

Leia mais

UMA NOVA CLASSE DE MODELOS ESPAÇO-TEMPORAIS PARA DADOS. Juan Carlos Vivar-Rojas

UMA NOVA CLASSE DE MODELOS ESPAÇO-TEMPORAIS PARA DADOS. Juan Carlos Vivar-Rojas UMA NOVA CLASSE DE MODELOS ESPAÇO-TEMPORAIS PARA DADOS DE ÁREA por Juan Carlos Vivar-Rojas Dissertação de Mestrado submetida ao programa de Pós-graduação em Estatística. Instituto de Matemática da Universidade

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Modelos bayesianos estáticos globais na construção de tábuas de mortalidade para a macrorregião do sul de Minas Gerais

Modelos bayesianos estáticos globais na construção de tábuas de mortalidade para a macrorregião do sul de Minas Gerais UNIVERSIDADE FEDERAL DE ALFENAS LARISSA DE ALCÂNTARA MONTEIRO Modelos bayesianos estáticos globais na construção de tábuas de mortalidade para a macrorregião do sul de Minas Gerais Varginha-MG 2016 RESUMO

Leia mais

Tópicos Especiais em Qualidade

Tópicos Especiais em Qualidade Tópicos Especiais em Qualidade Processos estocásticos, Distribuições de probabilidade e Ajustamento de dados Qualquer sistema real opera sempre em ambientes onde a incerteza impera, principalmente quando

Leia mais

INTRODUÇÃO A INFERÊNCIA BAYESIANA. Beatriz Cristina Flamia de Azevedo (PIBIC Jr./ Fundação Araucária - UTFPR),

INTRODUÇÃO A INFERÊNCIA BAYESIANA. Beatriz Cristina Flamia de Azevedo (PIBIC Jr./ Fundação Araucária - UTFPR), INTRODUÇÃO A INFERÊNCIA BAYESIANA Beatriz Cristina Flamia de Azevedo (PIBIC Jr./ Fundação Araucária - UTFPR), Roberto Molina de Souza (Orientador), e-mail: rmolinasouza@utfpr.edu.br. Universidade Tecnológica

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

Planejamento Amostral Ótimo em Geoestatística sob Efeito de Amostragem Preferencial

Planejamento Amostral Ótimo em Geoestatística sob Efeito de Amostragem Preferencial Planejamento Amostral Ótimo em Geoestatística sob Efeito de Amostragem Preferencial Tese de Doutorado por Gustavo da Silva Ferreira Departamento de Métodos Estatísticos Instituto de Matemática Universidade

Leia mais

Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada.

Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada. Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada [alessandro@psr-inc.com] Conteúdo Introdução Estimação não paramétrica (Kernel density) Transformação

Leia mais

Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo 15

Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo 15 2 Simulação estocástica A simulação computacional consiste em empregar técnicas matemáticas em computadores com o propósito de gerar ensaios que tentam reproduzir de maneira análoga um processo ou operação

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Motivação Motivação Por

Leia mais

Introdução à Teoria de Resposta ao Item

Introdução à Teoria de Resposta ao Item Caio L. N. Azevedo, IMECC/Unicamp Dani Gamerman, DME/UFRJ I CONBRATRI, Florianópolis 9 de dezembro de 2009 Parte II Parte 2: Implementação computacional. Análise de dados 1. Modelo de 3 parâmetros via

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário (bootstrap) Este método foi proposto por Efron

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Se a integração analítica não é possível ou

Leia mais

Análise Bayesiana de Dados - Aula 1 -

Análise Bayesiana de Dados - Aula 1 - Análise Bayesiana de Dados - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão para dados correlacionados. Cibele Russo Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

Modelos Dinâmicos para Estimação de Ciclos: Um estudo sobre geração e ajuste de dados

Modelos Dinâmicos para Estimação de Ciclos: Um estudo sobre geração e ajuste de dados Universidade Federal do Rio de Janeiro Guido Alberti Moreira Modelos Dinâmicos para Estimação de Ciclos: Um estudo sobre geração e ajuste de dados Rio de Janeiro 2009 UFRJ Modelos Dinâmicos para Estimação

Leia mais

Análise conjunta de dados longitudinais e de sobrevivência: Abordagem Bayesiana

Análise conjunta de dados longitudinais e de sobrevivência: Abordagem Bayesiana Análise conjunta de dados longitudinais e de sobrevivência: Abordagem Bayesiana Rui Martins, Valeska Andreozzi e Giovani Silva Ericeira, 2010 Índice 1 Introdução Análise conjunta de Dados Longitudinais

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise

Leia mais

INTERVALOS DE CREDIBILIDADE PARA A RAZÃO DE RISCOS DO MODELO DE COX, CONSIDERANDO ESTIMATIVAS PONTUAIS BOOTSTRAP MARCELINO ALVES ROSA DE PASCOA

INTERVALOS DE CREDIBILIDADE PARA A RAZÃO DE RISCOS DO MODELO DE COX, CONSIDERANDO ESTIMATIVAS PONTUAIS BOOTSTRAP MARCELINO ALVES ROSA DE PASCOA INTERVALOS DE CREDIBILIDADE PARA A RAZÃO DE RISCOS DO MODELO DE COX, CONSIDERANDO ESTIMATIVAS PONTUAIS BOOTSTRAP MARCELINO ALVES ROSA DE PASCOA 2008 MARCELINO ALVES ROSA DE PASCOA INTERVALOS DE CREDIBILIDADE

Leia mais

Distribuição Amostral e Estimação Pontual de Parâmetros

Distribuição Amostral e Estimação Pontual de Parâmetros Roteiro Distribuição Amostral e Estimação Pontual de Parâmetros 1. Introdução 2. Teorema Central do Limite 3. Conceitos de Estimação Pontual 4. Métodos de Estimação Pontual 5. Referências População e Amostra

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Monte Carlo via cadeias de Markov: o OpenBUGS

Leia mais

Introdução Variograma Modelos básicos de correlação espacial Modelação Interpolação espacial & Simulação. Geoestatística.

Introdução Variograma Modelos básicos de correlação espacial Modelação Interpolação espacial & Simulação. Geoestatística. Geoestatística Susana Barbosa Mestrado em Ciências Geofísicas 2012-2013 Geoestatística conjunto de técnicas matemáticas e numéricas para caracterizar fenómenos espaciais contínuos tendo em conta a correlação

Leia mais

1 Probabilidade - Modelos Probabilísticos

1 Probabilidade - Modelos Probabilísticos 1 Probabilidade - Modelos Probabilísticos Modelos probabilísticos devem, de alguma forma, 1. identificar o conjunto de resultados possíveis do fenômeno aleatório, que costumamos chamar de espaço amostral,

Leia mais

4 Modelos de Regressão Dinâmica

4 Modelos de Regressão Dinâmica 4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:

Leia mais

DISTRIBUIÇÃO NORMAL DISTRIBUIÇÕES DE PROBABILIDADE CONJUNTAS ROTEIRO DISTRIBUIÇÃO NORMAL

DISTRIBUIÇÃO NORMAL DISTRIBUIÇÕES DE PROBABILIDADE CONJUNTAS ROTEIRO DISTRIBUIÇÃO NORMAL ROTEIRO DISTRIBUIÇÕES DE PROBABILIDADE CONJUNTAS 1. Distribuições conjuntas 2. Independência 3. Confiabilidade 4. Combinações lineares de variáveis aleatórias 5. Referências DISTRIBUIÇÃO NORMAL Definição:

Leia mais

Inferência Bayesiana - Aula 1 -

Inferência Bayesiana - Aula 1 - Inferência Bayesiana - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

Análise Bayesiana de Dados - Aplicações 1 -

Análise Bayesiana de Dados - Aplicações 1 - Análise Bayesiana de Dados - Aplicações 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Aplicações da IB : Pressão sistólica

Leia mais

2 Modelos em Espaço de Estado Lineares: Formulação Geral

2 Modelos em Espaço de Estado Lineares: Formulação Geral 2 Modelos em Espaço de Estado Lineares: Formulação Geral 2.1 Definição Geral de um Modelo Linear Apresenta-se uma definição de modelos em EE lineares que seja a mais geral e flexível possível, e que segue

Leia mais

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS 4 SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS Em muitos problemas de probabilidade que requerem o uso de variáveis aleatórias, uma completa especificação da função de densidade de probabilidade ou não está

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08 Teoria das Filas aplicadas a Sistemas Computacionais Aula 08 Universidade Federal do Espírito Santo - Departamento de Informática - DI Laboratório de Pesquisas em Redes Multimidia - LPRM Teoria das Filas

Leia mais

MAE 5882 aula 02. O log-retorno de período k (agregação temporal dos retornos)

MAE 5882 aula 02. O log-retorno de período k (agregação temporal dos retornos) Agregação de Retornos MAE 5882 aula 02 O log-retorno de período k (agregação temporal dos retornos) Agregação cross-section (transversal), para diversos ativos de uma carteira de investimentos, c: Suponha

Leia mais

Universidade Federal de Lavras

Universidade Federal de Lavras Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25 3. Estimação pontual USP-ICMC-SME 2013 USP-ICMC-SME () 3. Estimação pontual 2013 1 / 25 Roteiro Formulação do problema. O problema envolve um fenômeno aleatório. Interesse em alguma característica da população.

Leia mais

2 Modelos de sintetização de séries temporais de atenuação por chuva

2 Modelos de sintetização de séries temporais de atenuação por chuva 2 Modelos de sintetização de séries temporais de atenuação por chuva Alguns modelos estocásticos de sintetização de séries temporais de atenuação por chuva são baseados no modelo proposto por Maseng &

Leia mais

Inferências bayesianas com probabilidade

Inferências bayesianas com probabilidade Inferências bayesianas com probabilidade Qual é a relação entre inferência bayesiana e as distribuições probabiĺısticas recém descritas? Essa conexão é feita ao se estimar parâmetros da distribuição probabiĺıstica

Leia mais

Sistemas Reparáveis - Processo de Contagem

Sistemas Reparáveis - Processo de Contagem Sistemas Reparáveis - Processo de Contagem Enrico A. Colosimo Colaboração: Rodrigo C. P. dos Reis e Maria Luiza Toledo Programa de Pós-Graduação em Estatística - UFMG Teoria básica de Processos de Contagem

Leia mais

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística Introdução ao Planejamento e Análise Estatística de Experimentos Capítulo 3 Introdução à Probabilidade e à Inferência Estatística Introdução ao Planejamento e Análise Estatística de Experimentos Agora,

Leia mais

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague Econometria IV Modelos Lineares de Séries Temporais Fernando Chague 2016 Estacionariedade Estacionariedade Inferência estatística em séries temporais requer alguma forma de estacionariedade dos dados Intuição:

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Julgue os itens que se seguem, acerca da estatística descritiva. 51 Na distribuição da quantidade de horas trabalhadas por empregados de certa empresa, é sempre possível determinar

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ SETOR CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA ANÁLISE DE SOBREVIDA EM 90 HOMENS COM CÂNCER DE LARINGE

UNIVERSIDADE FEDERAL DO PARANÁ SETOR CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA ANÁLISE DE SOBREVIDA EM 90 HOMENS COM CÂNCER DE LARINGE UNIVERSIDADE FEDERAL DO PARANÁ SETOR CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA ANÁLISE DE SOBREVIDA EM 90 HOMENS COM CÂNCER DE LARINGE Aluna: Scheylla Calazans Orientadora: Profa. Dra. Nívea S. Matuda

Leia mais