ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO DENSIDADES A PRIORI COM DADOS AMPLIADOS Josenldo de Souza CHAVES Josemar RODRIGUES 2 RESUMO: Neste trabalho, apresentamos uma análse Bayesana para dados clíncos exponencas com varáves auxlares. Esta abordagem Bayesana, com densdades a pror nformatvas, obtdas através das varáves auxlares sob o contexto de modelos lneares generalzados, é formulada para estmar os parâmetros de nteresse, testar o modelo e prever a sobrevvênca de pacentes com doenças graves. Dferentes funções de lgações são consderadas. O método que remos examnar consste na obtenção de nformações a pror para a méda das respostas, com correspondentes varáves auxlares fxas de modo que se possa nduzr uma dstrbução a pror sobre os coefcentes de regressão a partr de médas condconas a pror. Esta abordagem utlza os algortmos computaconas do tpo Gbbs Samplng e Metropols-Hastngs. Fnalzamos com aplcações em dados clíncos exponencas para pacentes com leucema utlzando amostras censuradas. PALAVRAS-CHAVE: Inferênca Bayesana; Análse de sobrevvênca; Regressão exponencal; Médas condconadas a pror; Algortmo Metropols- Hastngs. Introdução Informações clíncas dsponíves para um médco no nstante do dagnóstco de um câncer ou de outra doença são utlzadas para: ( prevsão do tempo de sobrevvênca defndo como o tempo entre o Unversdade Federal do Maranhão CCET Departamento de Matemátca. Av. dos Portugueses, s/n; 65085-580. São Luís MA Brasl. e-mal: jschaves@demat.ufma.br 2 Unversdade Federal de São Carlos CCT Departamento de Estatístca. Rodova Washngton Luz, km 235 Caxa Postal 676; 3565-905. São Carlos SP Brasl. - e-mal: vjosemar@power.ufscar.br Rev. Mat. Estat., São Paulo, 20: 7-9, 2002 7
dagnóstco ou o níco de um tratamento específco e a morte; (2 escolher o tratamento para um dado pacente; e para mutos outros objetvos. Os dados podem provr da hstóra médca, de exames físcos, ou de estudos de laboratóro. Tas nformações podem ser chamadas de nformações concomtantes, covaradas ou varáves auxlares: por exemplo, quando o pacente entra no estudo podemos regstrar a causa e o estágo da doença. Para as varáves auxlares consderadas no estudo, váras funções de lgações podem ser propostas do ponto de vsta dos modelos lneares generalzados. Fegl & Zelen (965 desenvolveram para as funções de lgações: lnear, nversa e logarítmca, uma teora de verossmlhança assntótca para estmar os parâmetros de regressão. Zppn & Armtage (966, supondo função de lgação do tpo lnear, generalzaram o trabalho de Fegl & Zelen para pacentes censurados, sto é, alguns pacentes estavam vvos quando o expermento termnou. Byar et al (974, também propõem uma generalzação com função de lgação nversa e váras varáves auxlares. Bhattacharya et al (995 ntroduzram uma abordagem Bayesana exata, supondo função de lgação do tpo nversa e dados censurados. Mas recentemente, Bedrck et al (996 sob função de lgação logarítmca e dados sem a presença de censuras, utlzaram dstrbuções a pror nformatvas, extraídas a partr de médas condconas a pror. Este trabalho tem como prncpal objetvo, apresentar uma alternatva a abordagem Bayesana exata. Neste contexto, destacamos a formulação de dstrbuções a pror nformatvas extraídas de médas condconas a pror e a escolha das funções de lgações. Utlzamos algortmos computaconas do tpo Gbbs Samplng e Metropols- Hastngs, para estmar os parâmetros de nteresse, verfcar o ajuste e escolha do modelo, e prever a sobrevvênca de pacentes com doenças graves va dstrbuções predtvas. Na Seção 2 apresentamos a formulação de densdades a pror com médas condconas e pror com dados amplados. Um exemplo de aplcação é dado na Seção 3. As conclusões fnas deste trabalho estão apresentadas na Seção 4. A Seção 5 apresenta um apêndce com uma breve ntrodução aos modelos lneares generalzados. Os programas computaconas da metodologa aplcada podem ser obtdos com os autores através de correo eletrônco. 8 Rev. Mat. Estat., São Paulo, 20: 7-9, 2002
Pror com Médas Condconas e Pror com Dados Amplados A déa de consderar densdades a pror com médas condconas (PMC s parte da avalação das nformações a pror em p locações no espaço das varáves predtoras, (ver Bedrck et al, 996, 997. Para cada locação, especfca-se uma dstrbução a pror para a méda das observações. A pror sobre os coefcentes de regressão β é então nduzda da PMC. Densdades a pror com médas condconas (PMC s estão estretamente relaconadas a pror com dados amplados (PDA s. Na seção segunte especfcamos essas densdades sob o enfoque dos modelos lneares generalzados. Especfcação da Pror ' Consdere n observações ndependentes t com correspondente ' varável predtora x, =,..., p e seja X uma matrz p p não-sngular com x na -ésma lnha =,..., p. Seja π 0 (m uma pror própra sobre m (m,,m ' = p, onde m = E( t x, x, =,..., p. Seja, m G (X β (vetor de transformações com uma relação - entre β e m. Portanto, β = X G(m. (2. Seja π 0 (m uma pror própra arbtrára sobre m. A pror nduzda sobre β é (X π( β = (G dg (X 0 β β. (2.2 Consdere que as então, podem ser avaladas ndependentemente, m ' s Rev. Mat. Estat., São Paulo, 20: 7-9, 2002 9
p m = (m 0( π 0 = π. (2.3 Através de (2.2 a pror nduzda é dada por: p = (x X p ' π β ( g g(m 0 β = = ( p, logo ' ( ( g ( x g ( g ( ' π β β x β, (2.4 = 0 onde g é a prmera dervada da função de lgação g em relação a β. Uma PDA sobre β é uma PMC que tem a mesma forma da função de verossmlhança, baseada nas observações a pror w ( t, x, : =,..., p, onde t pode ser determnado consderandose uma observação a pror típca assocada ao x com peso w. O parâmetro w é determnado como um possível número fraconáro a pror de observações assocadas com t. É mportante observar que é muto mas fácl obter nformações sobre a méda das varáves respostas, E(t x = m, a qual está na mesma escala dos dados, do que obter conhecmento a pror sobre β, porque o sgnfcado de β depende da função de lgação. Procedmento Bayesano para um Modelo de Regressão Exponencal com uma Varável Auxlar Iremos consderar o modelo exponencal para o tempo de sobrevvênca de pacentes, ncalmente, com a segunte função de rsco: h( t = exp{ ( α + β z }, =,,n. (2.5 0 Rev. Mat. Estat., São Paulo, 20: 7-9, 2002
Logo, log(e(t = α + β z. Temos então uma função de lgação logarítmca, onde t é o tempo de sobrevvênca do -ésmo pacente, z = x x, x a varável auxlar, e α e β parâmetros desconhecdos. Denotaremos por D o conjunto de dados, o qual, consste no vetor de observações (x,t. Consdere que n pacentes entram no estudo, e que r destes morrem e n r anda permanecem vvos no fm do estudo. Então, t, t 2,..., t r, são os tempos de sobrevvênca enquanto t r+,..., t n, foram o o censurados em tr+,, tn, respectvamente. A partr do modelo (2.5, a função de verossmlhança será dada por: L( α, β = e = r ( α + β Z ( α + β Z exp{ te }exp (2.6 { n o t j j = r + e ( α + β Z j }. Nossos objetvos do ponto de vsta Bayesano são estmar a curva de sobrevvênca, P(T ( α + β ( X X > t α, β,x = exp{ te }, as densdades margnas a posteror de α e β e quants destas densdades. Pror Induzda Sobre ( α, β Segundo o procedmento de pror com médas condconas (PMC ntroduzdo na seção 2., seja m X ( α +β ( E(T,, e X = α β = X, =, 2 Rev. Mat. Estat., São Paulo, 20: 7-9, 2002
onde, {( t X,, =,2 } são dados a pror e, X e X 2 vetores lnearmente ndependentes. Supondo que m w,w Gama Inversa( t, =, 2 e w s como pesos assocados aos t, a pror nduzda sobre ( α, β é dada por: 2 ( α + β w (, e exp{ t w ( α + β π α β e }. (2.7 = Z Agora, o problema consste na escolha aproprada dos pesos w, =, 2 sob a avalação da nformação a pror t. Se fzermos uma comparação entre a parte não-censurada da função de verossmlhança em (2.6 e a pror nduzda sobre ( α, β, é razoável pensar em w =, sto é, a nformação a pror, t, tem o mesmo peso como a nformação de uma únca observação t. Esta partcular pror nduzda é a mesma obtda por Bedrck et al (996 chamada de data augmentaton pror. Para determnar os hperparâmetros t, podemos consderar t / m p = e, para uma escolha aproprada de t, =, 2 e valores especfcados τ,, 2 = P( p = τ, =, 2. em seguda determnamos γ tal que Portanto temos que, τ = P(, m t t log( t Z onde, t m Gama(,, e uma solução explícta para t é dada por: tlog( τ t =. (2.8 log( 2 Rev. Mat. Estat., São Paulo, 20: 7-9, 2002
Note que se tvéssemos tomado w, poderíamos calcular duas probabldades para cada e assm obter duas equações da forma (2.8, que podem ser resolvdas smultaneamente para ( w, t, =, 2. Densdades a Posteror A partr de (2.6 e (2.7, temos para w w = 2 =, a segunte densdade a posteror conjunta para ( α, β : π ( α, β D e + r = t e (r + 2 α + β ( Z + Z ( α + β Z + 2 + r Z = n o t = r + e exp{ ( ( α + β Z 2 t e = }. ( α + β Z + (2.9 As densdades condconas a posteror são dadas por: onde, π ( α β,d exp{ (r + 2 α }A( α, β, (2.0 r π( β α,d exp{ ( z + z + z 2 β }A( α, β = A( α, β = exp{ ( r t e = ( α + β Z + n o t = r +, (2. e ( α + β Z + 2 t e = ( α + β Z Note que estas densdades a posteror, não possuem uma forma conhecda. Entretanto, podemos obter amostras aleatóras das varáves α e β a partr das densdades condconas (2.0 e (2.. Neste caso, podemos utlzar o algortmo Metropols-Hastngs (ver por exemplo, Chb & Greenberg, 995. }. Rev. Mat. Estat., São Paulo, 20: 7-9, 2002 3
Uma Aplcação em Regressão Exponencal com Dados Censurados Iremos utlzar o desenvolvmento teórco da seção anteror para analsar os dados de Zppn & Armtage (966, consderando as funções de lgações logarítmca, nversa e lnear. Para um modelo de regressão exponencal com função de rsco (2.5 e o predtor, log 0 da quantdade ncal de glóbulos brancos no sangue (QGB mas um ntercepto, especfcamos nformações a pror a dos níves da QGB. A resposta t é o tempo de sobrevvênca em semanas para pacentes com leucema. Suponha que se possa afrmar, ndependentemente, que a proporção dos pacentes que sobrevvem além de ano é pelo menos 25% com probabldade 90% ( τ = 0,90 para o valor baxo 3 do log 0 da QGB, sto é, P(exp( t /m > 0,25 = 0,90. Consdere também que para o nível alto 5 da QGB, P(exp( t /m 2 2 > 0,75 = 0,0. ' ' Logo, fxando x = [, 3], x 2 = [, 5], t = t 2 = 52, γ = 0,25, τ 2 = 0,0 e γ 2 = 0,75, e utlzando (2.8, determna-se os t s, sto é, t = 86,37, e t2 = 9,04. A partr da expressão (2.9, teremos as seguntes densdades condconas a posteror: π( α β,d exp{ 4α }A( α, β, (3. 2 π( β α,d exp{ ( z + z + z 2 β }A( α, β = onde, + 9,04 e }., (3.2 A( α, β = exp{ ( te + 86,37 e (3.3 ( α + β Z 2 7 = ( α + β Z ( α + β Z 4 Rev. Mat. Estat., São Paulo, 20: 7-9, 2002
Para a função de lgação nversa, consderamos o rsco dado por: θ = α + β x. Sob a função de lgação lnear, consderamos o rsco - dado por: θ = ( α + β x. Através das densdades condconas (2.0 e (2., utlzamos o algortmo Metropols-Hastngs, para estmar α e β. Montoramos a convergênca do algortmo pelo o crtéro de Gelman & Rubn (992 que usa a técnca de análse de varânca para determnar se terações adconas serão necessáras. Para cada parâmetro, geramos 5 cadeas, e em seguda extraímos uma amostra aleatóra de tamanho 500. As estmatvas das curvas de sobrevvênca predtvas foram obtdas a partr da expressão: P(T t x f,d = exp{ te ( α + β x f } π( α, β D dα dβ. (3.4 Utlzamos os valores x f = 2,88 ; 4,00 e 5,00 os quas representam o mínmo, a medana e o máxmo, respectvamente, valores obtdos nos dados. A segur, apresentamos na Fgura e Tabela um resumo gráfco e algumas estatístcas, respectvamente. Em todos os casos que apresentamos, o nível descrtvo Bayesano (n d ndcou boa adequação do modelo ajustado aos dados. Em relação a escolha da função de lgação, sob o crtéro da dstrbução predtva condconal ordenada (CPO, ver por exemplo Carln & Lous (997, ndcamos a lgação nversa (maor C (, ver Tabela a segur como a mas aproprada para o uso de PDA's. Para as três funções de lgações, podemos observar uma grande dferença nas estmatvas a posteror de α e de β e uma grande mudança nos níves da dstrbução de sobrevvênca predtva, mas notável para a lgação nversa em relação as duas outras (ver Fgura. Outras consderações no uso de PDA's envolvendo dados completos e censurados, podem ser vstas em Chaves (999. Rev. Mat. Estat., São Paulo, 20: 7-9, 2002 5
( (a (b (c (2 (a (b (c (3 (a (b (c FIGURA Densdades condconas a posteror para α em (a, e para β em (b, em (c a dstrbução de sobrevvênca predtva. ( lgação logarítmca, (2 lgação nversa, (3 lgação lnear. Tabela Estatístcas a posteror para α e β consderando as funções de lgações logarítmca, nversa e lnear, com pror PDA e dados censurados. Logarítmca Inversa Lnear Méda Erro padrão Méda Erro padrão Méda Erro padrão α 4,26 0,2576 0,000 0,00099 245,99 0,7875 β -0,8842, 0,3292 0,0030 0,0009-45,92 0,47542 CPO (C ( 6,3849596362 x 0-6 3,2408304825 x 0-5 2,34289238380 x 0 7 6 Rev. Mat. Estat., São Paulo, 20: 7-9, 2002
Desejamos chamar a atenção para o fato de que o uso da lgação nversa no nosso problema, produz curvas de sobrevvênca predtvas muto próxmas para os três níves da QGB consderados. Isto resultara em prevsões que não ram dstngur bem um pacente num estado grave dos outros menos graves. Portanto, sugermos neste caso a lgação logarítmca, apesar de possur uma CPO (C( menor. Conclusões A nferênca Bayesana que desenvolvemos com densdades a pror PDA, permtu levar em consderação as funções de lgações logarítmca, nversa e lnear, sendo uma alternatva a nferênca clássca e prncpalmente a nferênca Bayesana exata. O uso da lgação nversa com pror PDA resultou em prevsões do tempo de sobrevvênca que não dstngue bem um pacente num estado grave, daqueles menos graves. Portanto, a lgação logarítmca, é sugerda neste caso como uma alternatva mas aproprada. Temos então a necessdade do uso de outros crtéros, para a dscrmnação de modelos, além da CPO. Apêndce: Modelos Lneares Generalzados Um modelo lnear generalzado (MLG, ver por exemplo, McCullagh & Nelder, (989, consste em n varáves aleatóras ndependentes T, =,..., n cada uma com função densdade de probabldade dada na segunte forma: w f(t,;w = h((t,w exp[ { t r( }], (5. onde r( e h(,, são funções conhecdas, os parâmetros w e são conhecdos e é um parâmetro de escala desconhecdo. Note que o modelo (5. pertence a famíla exponencal. A méda de T é dada por: E(T m = r(, (5.2 Rev. Mat. Estat., São Paulo, 20: 7-9, 2002 7
onde r ( = dr( / d. A varânca de T é dada por, V(T = r( / w, onde r ( é a segunda dervada de r(. V(m r( = r ( r (m é chamada de função de varânca. A estrutura lnear para dstrbuções da forma (5. é especfcada por uma função de lgação, ' g(m = x, (5.3 onde é um vetor de p coefcentes de regressão desconhecdos, x é um vetor de p varáves auxlares conhecdas, e g( é uma função monótona conhecda. Se g(m =, então temos um MLG canônco e g( é a função de lgação canônca. A função de verossmlhança para um MLG é dada por: n n w L( = h(,t,w exp { t r( }, (5.4 = = onde é obtdo como uma função de por (5.2 e (5.3. CHAVES, J. S., RODRIGUES, J. Survval Analyss usng Data Augmentaton Prors. Rev. Mat. Estat., (São Paulo, v.20, p.7-9, 2002. ABSTRACT: In ths work, a Bayesan analyss for the exponental clncal data wth auxlary varables s presented. Ths Bayesan approach, wth nformatve prors obtaned under the context of generalzed lnear models wth fxed auxlary varables, s formulated to estmate the parameters of nterest, to test models and to predct the survval tme of patents wth serous dseases. Varous lnk functons are consdered. The method that we are gong to study conssts n obtanng pror nformaton for the response mean correspondng to observable varables wth fxed covarates, such that we are able to nduce a pror dstrbuton on the regresson coeffcents. Ths approach uses Gbbs Samplng and Metropols-Hastngs algorthms. We end wth applcatons based on censored exponental clncal data for patents wth leukema dseases. KEYWORDS: Bayesan nference; Survval analyss; Exponental regresson; Condtonal means prors; Metropols-Hastngs algorthm. 8 Rev. Mat. Estat., São Paulo, 20: 7-9, 2002
Referêncas BEDRICK, J. E.; CHRISTENSEN, R.; JOHNSON, W. A New Perspectve on Prors for Generalzed Lnear Models. J. Am. Stat. Assoc., v. 9, p. 450-460, 996. BEDRICK, J. E.; CHRISTENSEN, R.; JOHNSON, W. Bayesan Bnomal Regresson: Predctng Survval at a Trauma Center. Am. Stat., v. 5, n.3, p. 2-28, 997. BHATTACHARYA, S. K.; KUMAR, D.; SINGH, N. K. Bayesan Survval Analyss of Clncal Data Usng a Covarate. Braz. J. Probab. Stat., v. 2, p. 4-56, 995. BYAR, D. P. et al. An Exponental Model Relatng Censored Survval Data and Concomtant Informaton for Prostatc Cancer Patents. J. Nat. Cancer Inst., v. 52, n. 2, p. 32-326, 974. CARLIN, B. P.; LOUIS, T. A. Bayes and Emprcal Bayes Methods for Data Analyss. London: Chapman and Hall, 997. 399 p. CHAVES, J. S. Inferênca Bayesana para Dados Clíncos Exponencas com Varáves Auxlares. 999. 94f. Dssertação (Mestrado em Matemátca Computaconal / Estatístca Insttuto de Cêncas Matemátcas e de Computação, Unversdade de São Paulo, São Carlos. CHIB, S.; GREENBERG, E. Understandng the Metropols-Hastngs Algorthm. Am. Stat., v. 49, n. 4, p. 327-335, 995. FEIGL, P.; ZELEN, M. Estmaton Exponental Survval Probabltes wth Concomtant Informaton. Bometrcs, v. 2, p. 826-838, 965. GELMAN, A.; RUBIN, D. B. Inference from Iteratve Smulaton Usng Multple Sequences. Stat. Sc., v. 7, n. 4, p. 457-5, 992. MCCULLAGH, P.; NELDER, J. A. Generalzed Lnear Models. 2.ed. London: Chapman and Hall, 989. 5 p. ZIPPIN, C.; ARMITAGE, P. Use of Concomtant Varables and Incomplete Survval Informaton n the Estmaton of an Exponental Survval Parameter. Bometrcs, v.22, p. 665-672, 966. Recebdo em 05.02.200 Rev. Mat. Estat., São Paulo, 20: 7-9, 2002 9