Ajuste e comparação de modelos para dados grupados e censurados 1 Introdução José Nilton da Cruz 1 Liciana Vaz de Arruda Silveira 2 José Raimundo de Souza Passos 2 A análise de sobrevivência é um conjunto de procedimentos estatísticos para analisar dados que correspondem ao tempo de ocorrência de um evento de interesse denominado tempo de falha), tais como o tempo até a morte ou cura de um indivíduo. O principal interesse desta área está na estimação da probabilidade de um indíviduo sobreviver até o tempo t, conhecida como função de sobrevivência, e a razão instantânea de falha no tempo t dado que ele sobreviveu até t, chamada de função de risco. Dentre as técnicas utilizadas para se estimar a função de sobrevivência podem-se destacar as não paramétricas, tais como, estimador de Kaplan-Meier ou produto limite e estimador de tabela de vida ou atuarial. Estas técnicas não levam em consideração as covariáveis relacionadas com o tempo de vida. Para considerar estas covariáveis devem-se utilizar os modelos paramétricos, em que se supõe uma distribuição de probabilidade conhecida para os tempos, ou o modelo semi-paramétrico de Cox 1972), para o qual não é necessário supor distribuição para a variável tempo. O modelo de riscos proporcionais foi proposto por Cox 1972) e em Cox 1977) foi apresentada a função de verossimilhança parcial para ajustá-lo. Ocorre, porém, que quando acontecem empates não se pode utilizar a função de verossimilhança parcial exata e, nesse caso, existem métodos alternativos tais como os apresentados por Breslow 1974) e Efron 1977). Estes autores propuseram aproximações para a função de verossimilhança parcial e estas se encontram implementadas em vários softwares estatísticos. Quando o número de empates é pequeno, ambas as aproximações fornecem valores próximos, porém a aproximação de Efron apresenta resultados mais próximos daqueles da forma exata. Autores como Kalbfleish & Prentice 1980) e Lawless 1982) indicam que no caso de muitos empates, deve-se considerar o tempo como discreto e usar os modelos de riscos proporcionais de Cox para dados agrupados ou o modelo logístico para a probabilidade de o indivíduo falhar no intervalo, dado que ele sobreviveu até o intervalo anterior. Mudholkar et al.1996) apresentaram a família Weibull Generalizada e discutem vários tipos de funções de risco que ela possui. Neste mesmo trabalho é considerado o caso de uma taxa de risco em forma de banheira no qual o modelo Weibull Generalizada é não-regular, e sugerem uma reparametrização do modelo. 1 Mestrando em Biometria - IBB - UNESP, Botucatu - SP. e-mail: niltonn-cruz@hotmail.com; agradecimento a Capes pelo apoio financeiro. 2 Prof. Dep. Bioestatística - IBB - UNESP, Botucatu - SP. 1
Hashimoto et al 2010) propuseram um modelo de regressão locação-escala para dados com censura intervalar baseado na distribuição Weibull Exponenciada e mostraram que o modelo de regressão Log-Weibull Exponenciada representa uma família de modelos paramétricos que incluem outros modelos de regressão amplamente utilizados em análise de tempos de vida. Silva et al. 2008) propuseram um modelo de regressão locação-escala baseado na distribuição Log-Burr XII para modelar dados, utilizando-a como função de taxa de falha como alternativa para o modelo de regressão Log-Logística. O objetivo deste trabalho é propor e comparar os modelos Weibull Generalizada, Log- Weibull Exponenciada e Log-Burr XII para dados grupados e censurados. 2 Material e métodos Quando realizações de uma distribuição de vida contínua são agrupados, a estimação pode ser baseada na função de verossimilhança para dados agrupados. Suponha que os tempos de vida, T l, l = 1,...,n, em que n é o tamanho da amostra, são agrupados em k intervalos, I i = a i 1,a i ), i = 1,...,k, com, 0 = a 0 < a 1 <... < a k = e assuma que todas as censuras ocorrem no final do intervalo. Seja D i o conjunto dos indivíduos que morreram no intervalo I i e R i, o conjunto dos indivíduos sob risco no início de I i. Assim, a função de verossimilhança para tabela de vida com variáveis regressoras, é dada por : [ k i=1 p i x l ) 1 p i x l )) l D i l R i D i ] = k i=1 l R i p i x l ) li 1 p i x l )) 1 li 1) em que p i x l ) é a probabilidade do l-ésimo indivíduo morrer até a i dado que ele sobreviveu até a i 1 e o vetor de variáveis regressoras x l, li é a variável indicadora de falha no i-ésimo intervalo, a qual assume valor zero quando a l-ésima observação é censurada no i-ésimo intervalo e um, em caso contrário. A função de verossimilhança dada por 3) corresponde a de uma distribuição de Bernoulli, pois a variável aleatória em questão, li, é binária, isto é, o l-ésimo indivíduo morreu ou não no intervalo I i. A família Weibull generalizada, primeiramente proposta por Mudholkar et al.1996), pode ser definida em termos da função de distribuição acumulada Fx) dada por: [ Fy) = 1 1 λy/) 1/γ] 1/λ, 0 y <,γ, > 0, < λ <. 2) Adotando-se o modelo com base na distribuição Weibull generalizada, tem-se que: p i x l ) = 1 1 λ 1 λ a i β x l a i 1 β x l ) 1/γ ) 1/γ 1/λ, 3) 2
A família Log-Weibull Exponenciada proposta por Hashimoto et al.2010) tem função de distribuição acumulada dada por: { [ )]} y µ λ Fy) = 1 exp exp, λ > 0, > 0 e < µ <. 4) Adotando-se o modelo com base na distribuição Log-Weibull Exponenciada, tem -se que: { ))} a 1 1 exp exp i β λ x l p i x l ) = 1 { ))} a 1 1 exp exp i 1 β λ 5) x l A distribuição Log-Burr XII tem função de densidade acumulada dada por: [ )] y µ λ Fy) = 1 1 + exp, < y < 6) Adotando-se o modelo com base na distribuição Log-Burr XII, tem-se que: 1 + exp p i x l ) = 1 1 + exp a i β x l γ a i 1 β x l γ 3 Resultados e Discussões ) ) λ, λ,γ > 0 e β = β 0,β 1,...,β p ) 7) Nesta seção, são apresentados os resultados dos valores ajustados para os modelos Weibull Generalizada, Log-Weibull Exponenciada e Log-Burr XII extendidos para dados grupados e censurados, com base no conjunto de dados de megacolo chagásico Almeilda, 1996). A estimação paramétrica foi feita maximizando a função log-verossimilhança para dados grupados e censurados. As Tabelas 1, 2 e 3 apresentam os valores ajustados dos modelos Weibull Generalizada, Log- Weibull Exponenciada e Log-Burr XII para os dados de megacolo chagásico, respectivamente. Verifica-se que para todos os ajustes a variável grupo controle ou pós-operados) é significativa ao nível de 1% de significância. Para determinação do melhor modelo, utilizou-se o AIC C Critério de Informação de Akaike Corrigido), uma vez que estes modelos apresentam números de parâmetros diferentes, e para os casos apresentados o uso do AIC aumentaria a chance de escolha de um modelo com menor número de parâmetros. Os valores do AIC C para o modelo Weibull Generalizada, Log-Weibull Exponenciada e Log-Burr XII foram 94,832, 102,244 e 106,75, respectivamente. 3
Tabela 1: Estimativas de máxima verossimilhança, erro-padrão, estatística t e valor p para os parâmetros do modelo Weibull Generalizada para os dados de megacolo chagásico. β 0 80,168 0,134 598,655 < 0,01 β 1 152,943 4,834 31,640 < 0,01 λ 0,808 0,016 49,829 < 0, 01 9,616 0,093 103,217 < 0, 01 α 1,499 0,049 30,231 < 0, 01 Tabela 2: Estimativas de máxima verossimilhança, erro-padrão, estatística t e valor p para os parâmetros do modelo Log-Weibull Exponenciada para os dados de megacolo chagásico. β 0 86,075 0,648 132,866 < 0,01 β 1 118,309 2,128 55,604 < 0,01 λ 0,062 0,004 15,260 < 0, 01 5,407 0,092 58,540 < 0, 01 Tabela 3: Estimativas de máxima verossimilhança, erro-padrão, estatística t e valor p para os parâmetros do modelo Log-Burr XII para os dados de megacolo chagásico. β 0-70,439 0,455-154,733 < 0,01 β 1 139,561 0,455 306,571 < 0,01 λ 0,060 0,016 3,704 < 0, 01 γ 3,641 0,969 3,759 < 0, 01 4 Conclusões Neste trabalho, os modelos Weibull Generalizada, Log-Weibull Exponenciada e log-burr XII foram extendidos para dados grupados e censurados. Estes modelos são modelos alternativos quando se tem dados os quais permitem ser tratados utilizando tal metodologia. O modelo Log-Weibull Exponenciada, apresentando um AIC C menor 94,832), ajustou-se melhor aos dados de megacolo chagásico que os demais. Os resultados mostram que a técnica cirúrgica proposta tem uma redução significativa do tempo até a eliminação dos marcadores radiológicos p < 0,01). 4
Referências [1] ALMEIDA, H. Resultados funcionais da operação de Duhamel-Haddad no tratamento do megacolo chagásico. 1996. 79 p. Dissertação - Universidade Federal de Goiás. [2] BRESLOW, N. Covariance analysis of censored survival data. Biometrics, v.30, 89-99, 1974. [3] COX, D.R. Regressiom Models and Life-Tables. Journal of the Royal statistical Society- B, v.34, p.187-220, 1972. [4] COX, D.R. Partial Likelihood. Biometrika, v.72, n.359, p.557-65, 1977. [5] EFRON, B. The Efficiency of Cox s Likelihood Function for Censored Data. Journal of the American Statistical Association, v. 72, n. 359, p. 557-65, 1977. [6] HSHIMOTO, E.M., ORTEGA, E.M.M., CANCHO, V.G. e CORDEIRO, G.M. The Log- Exponentiated Weibull regression model for interval-censored data. Computational Statistics and Data Analyisis, 54, 1017-1035, 2010. [7] KALBFLEISCH, J.D. & PRENTICE, R.L. The Statistical Analysis of Failure Time Data. John Wiley & Sons, Inc., New York, 1980. [8] LAWLESS, J.F. Statistical Models and Methods For Lifetime Data. New York: John Wiley & Sons, p.579, 1982. [9] MUDHOLKAR, G.S.; SRIVASTAVA, D.K e KOLLIA, G.D. A Generalization of the Weibull Distribution with Application to the Analysis of Survival Data. Journal of the American Statistical Association, v.91, p.1575-1583, december 1996. [10] SILVA et al. Log-Burr XII regression models with censored data. Computational Statistics and Data Analysis, Vol.52, p.3820-3842, january 2010 5