ESTIMAÇÃO PARAMÉTRICA DO MODELO DE MISTURA COM FRAGILIDADE GAMA NA PRESENÇA DE COVARIÁVEIS Jhon Franky Bernedo GONZALES 1 Vera Lucia Damasceno TOMAZELLA 1 João Paulo TACONELLI 1 RESUMO: Neste artigo é apresentada uma abordagem paramétrica para o modelo de mistura padrão com fragilidade gama na presença de covariáveis. Este modelo possui uma vantagem em relação aos modelos de sobrevivência usuais (tradicionais), em que permite incorporar a heterogeneidade de duas subpopulações (imunes e susceptíveis) ao evento de interesse. Além disso, incorporamos covariáveis tanto na proporção de curados quanto na função de sobrevivência dos susceptíveis. Uma abordagem semi-paramétrica para esse modelo foi proposta por Peng e Zhang (2008a), mas, diferentemente deles, neste trabalho assumimos a distribuição Weibull para a função de sobrevivência para os indivíduos em risco o que torna o modelo paramétrico. A proporção de cura foi modelada por meio de modelos de regressão binomial com diferentes funções de ligação. Foi utilizado o software R como ferramenta para fazer inferências do modelo proposto. Os procedimentos desenvolvidos foram aplicados a dois conjuntos de dados reais. PALAVRAS-CHAVE: Análise de sobrevivência; fragilidade; fração de cura; distribuição Weibull; distribuição gama; regressão. 1 Introdução Experimentos em que a resposta representa o tempo até a ocorrência de um evento de interesse ocorrem com frequência em diversas áreas de conhecimento, como, por exemplo, as áreas médica, financeira e industrial. Técnicas estatísticas tradicionais, como análise de variância ou modelos de regressão, poderiam ser apropriadas para este tipo de estudo, mas nem sempre existe a garantia de que todos 1 Universidade Federal de São Carlos UFSCar, Centro de Ciências Exatas e Tecnológicas, Departamento de Estatística, Caixa Postal 676, CEP: 13.565-905, São Carlos, São Paulo, Brasil, E-mail: jhonbg@gmail.com / vera@ufscar.br / jampatac@yahoo.com.br Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013 233
os elementos da amostra terão experimentado o evento de interesse no momento da coleta dos dados, o que torna a informação para tais indivíduos incompleta. O conjunto de métodos estatísticos que lida com informação parcial da resposta (denominada censura) é conhecido como análise de sobrevivência (Colosimo e Giolo, 2006), e o tempo até a ocorrência do evento de interesse é comumente denominado tempo de falha. Os trabalhos historicamente mais importantes nessa área são o estimador não paramétrico de Kaplan-Meier (Kaplan e Meier, 1958) e o modelo de riscos proporcionais de Cox (Cox, 1972). A partir do momento em que avanços em áreas médicas se tornaram mais frequentes, um número maior de pacientes passou a ser considerado curado, ou imune à doença estudada. Diante disso, estimar a proporção de curados também passou a ser algo de bastante relevância. Os trabalhos apresentados por Boag (1949) e Berkson e Gage (1952), que falam sobre o modelo de mistura padrão, formaram a base do que veio a se chamar modelo de sobrevivência de longa duração (ou modelo de sobrevivência com fração de cura). Vários autores vêm discutindo a respeito de modelos envolvendo misturas de distribuições e fração de cura. Por exemplo, Farewell (1977) abordou o modelo de mistura Weibull e investigou como os fatores de risco( por exemplo idade ao primeiro parto) afetam o tempo de desenvolvimento do câncer de mama, sendo que posteriormente utilizou o modelo de riscos proporcionais de Cox (Farewell, 1982). Peng e Dear (2000) utilizaram um modelo que assume a proporcionalidade dos riscos para modelar o efeito das covariáveis sobre o tempo de falha dos pacientes não curados de um ponto de vista semiparamétrico. Quando utiliza-se a abordagem paramétrica nos modelos de mistura, é necessário assumir uma distribuição de probabilidade para o tempo de falha dos pacientes não curados. As funções densidade e de sobrevivência são obtidas da distribuição assumida, em que podem depender de um ou mais parâmetros como pode ser visto em Farewell, (1982), Farewell e Sprott (1986), Peng et al. (1998) entre outros. Os modelos de cura assumem implicitamente que todos os indivíduos que sofreram o evento de interesse pertencem a uma população homogênea. No entanto, existe um grau de heterogeneidade induzida por fatores de risco não observados. Nestas circunstâncias, é necessário considerar modelos que incorporam heterogeneidade não observável entre os indivíduos, como o modelo de fragilidade (ver Vaupel et al., 1979). Os modelos de fragilidade são caracterizados pela inclusão de um efeito de aleatório, que é, uma variável aleatória não observável tais como fatores ambientais, genéticos ou informações que por alguma razão não foram consideradas no planejamento. Uma forma de incorporar esse efeito aleatório é introduzi-lo na função de risco com o objetivo de controlar a heterogeneidade não observável das unidades em estudo, inclusive a dependência das unidades que compartilham os mesmos fatores de risco. O fato de considerar a variável aleatória não observável introduzida na função de risco faz com que o modelo englobe duas fontes de variação para os dados. A primeira delas que gera a heterogeneidade entre as observações é causada por 234 Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013
covariáveis individuais não observáveis que não foram incluídas no planejamento em estudo, por circunstancias praticas ou por serem conhecidas como sendo fatores de risco. A segunda fonte de variação proveniente das covariaveis comuns a indivíduos de um mesmo grupo que quando não observadas geram dependência entre os tempos. Hougaard(1991) mostrou que é vantajoso considerar as duas fontes de variabilidade. Neste contexto, Longini e Halloran (1996) propuseram o modelo de mistura padrão com fragilidade e Price e Manatunaga (2001) estudaram diferentes modelos de fragilidade e observaram que o modelo de mistura padrão com fragilidade gama tem um melhor ajuste em relação ao modelo de mistura de mistura padrão. Peng e Zhang (2008a) estenderam o modelo de Longini e Halloran (1996) ao introduzirem covariáveis no modelo de mistura padrão com fragilidade. No modelo proposto por Peng e Zhang (2008a), é considerada a fragilidade gama e a abordagem é semiparamétrica. A proposta deste trabalho é considerar o modelo de mistura padrão com fragilidade gama para analisar dados de sobrevivência com fração de cura e informações observáveis e não observaveis entre os indivíduos. Além disso assumimos uma distribuição paramétrica para os tempos de vida dos indivíduos em risco, desta forma consideramos uma abordagem paramétrica para a estimação dos parâmetros do modelo. Aqui o tempo de vida dos indivíduos em risco segue uma distribuição Weibull e, além disso, a proporção de pacientes não curados é modelada através de modelos de regressão binomial com funções de ligação logito, probito e complemento log-log, a fim de verificar se existe vantagens em considerar alguma delas. Este artigo está organizado como segue na Seção 2 serão apresentados os modelos: de mistura padrão, o modelo de fragilidade e o modelo de mistura padrão com fragilidade na presença de covariáveis. Na Seção 3 apresentamos o método inferencial aplicado para os modelos. Para ilustrar a aplicabilidade do modelo, na Seção 4 foram utilizados dois conjuntos de dados reais em que a estimação dos parâmetros foi realizada por meio do método de máxima verossimilhança e na Seção 5 concluímos o artigo. 2 Formulação do modelo Em diversos experimentos notamos que a curva de sobrevivência estabiliza-se em um patamar estritamente maior que 0. Este fato ocorre com frequência cada vez maior na área clínica, em que novos tratamentos têm conseguido prolongar ou mesmo curar diversos tipos de tumores, e a proporção de indivíduos que não experimentam o evento de interesse recebe o nome de curados (ou sobreviventes de longa duração). Tal conceito também pode ser utilizado em outras áreas, bastando para isso que uma parcela dos elementos não venha a falhar em longos períodos de observação. 2.1 Modelo de mistura padrão na presença de covariáveis Seja M o número de causas para a ocorrência do evento de interesse para um indivíduo da população. Assumimos que M é desconhecido e segue uma distribuição Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013 235
de Bernoulli, com distribuição de probabilidade P [M = m; θ] = θ m (1 θ) 1 m, 0 θ 1. (1) A função geradora de probabilidade de M é dada por A p (s) = 1 θ + θs, 0 s 1, assim o modelo de mistura padrão (MP), é dado por (Tsodikov et al., 2003) S pop (t) = A p (S(t)) = 1 θ + θs(t), (2) em que 1 θ representa a incidência de curados e S(t) a função de sobrevivência dos indivíduos em risco. É interessante notar que S(t) é uma função própria, mas S pop (t) é imprópria, pois: lim t S pop(t) = 1 θ. As funções de densidade e de risco populacional são dadas por f pop (t) = 1 dt S pop(t) = θf(t) e h pop (t) = f pop(t) S pop (t) = θf(t) 1 θ + θs(t). (3) O modelo (2) pode ser estendido por considerar efeito de covariáveis. Denotamos por z e x as covariáveis que podem ter efeitos na fração de cura e na função de sobrevivência, respectivamente. Assim, o modelo em (2) pode ser reescrito por S pop (t x, z) = 1 θ(z) + θ(z)s(t x), (4) em que 1 θ(z) é a probabilidade de um indivíduo ser curado dependendo da covariável z e S(t x) é a função de sobrevivência da distribuição do tempo de falha de pacientes não curados, dependendo de x. Kuk e Chen (1992) introduziram covariáveis em S(t x) assumindo que os indivíduos não curados seguem um modelo de risco proporcionais de Cox, isto é, h(t x) = h 0 (t) exp(x β). Considerando o modelo em (4) temos que S pop (t x, z) = 1 θ(z) + θ(z)s 0 (t) exp(x β), (5) em que S 0 (t) é a função de sobrevivência base e β representa o vetor de parâmetros associados ao vetor de covariáveis x. No entanto, outros pesquisadores consideram covariáveis só na fração de cura (Rodrigues et al., 2009). Assim o modelo dado em (4) pode ser reescrito na forma S pop (t z) = 1 θ(z) + θ(z)s(t), (6) em que no restante do artigo o modelo dado anteriormente será considerado como o modelo de mistura padrão. Para modelar os efeitos das covariáveis na taxa de cura, definimos b como sendo o vetor de parâmetros desconhecidos que serão estimados para as covariáveis 236 Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013
associadas à fração de cura e utilizamos o modelo de regressão binomial com três funções de ligação: logito, probito e complemento log-log dadas, respectivamente, por θ(z) = exp(bz) 1 + exp(bz), θ(z) = Φ(bz) e θ(z) = exp( exp(bz)), em que Φ corresponde à função de distribuição acumulada de uma distribuição normal padrão. A função densidade da população para o modelo com função de sobrevivência dado em (5) é dada por f pop (t x, z) = θ(z)f 0 (t) exp(x β) S 0 (t) exp(x β) 1, (7) em que f 0 (t) é a função de densidade base. O modelo dado em (5) é conhecido como modelo de mistura padrão de riscos proporcionais. 2.2 Modelo de mistura padrão com fragilidade Em análise de sobrevivência, incorporar a heterogeneidade não observada entre os indivíduos recebe o nome de fragilidade. Neste trabalho, o termo de fragilidade atuará na função de sobrevivência dos indivíduos não imunes, como um complemento às covariáveis observadas, ajudando desta forma a estimar a função de sobrevivência populacional de maneira mais precisa. Clayton (1978) introduziu o termo de fragilidade ao modelo de Cox (1972) de forma multiplicativa, ou seja, a variável aleatória que representa a fragilidade, W, irá agir multiplicativamente na função de risco base, assim temos h(t W ) = W h 0 (t), (8) em que h 0 (t) é a função de risco base, W é uma variável aleatória não observável, denominada variável de fragilidade que aumenta o risco individual se W > 1 ou diminui se W < 1. Intuitivamente, quanto maior o valor do termo da fragilidade mais frágil seria o indivíduo, e por consequência, maior sua probabilidade de falha (Vaupel et al,. 1979). A função de risco individual h(t W ) é interpretada como a função de risco condicional dada a fragilidade W. Assim, a função de sobrevivência condicional a fragilidade W é dada por: S(t W ) = exp ( t 0 ) h(s W )ds ( = exp W t 0 ) h 0 (s)ds = exp ( W H 0 (t)), Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013 237
em que H 0 (t) representa a função de risco base acumulada no instante t. Para obter a função de sobrevivência não condicional S(t) utilizamos a transformada de Laplace, assim temos S(t) = E {S(t W )} = 0 exp( wh 0 (t))g(w)dw = L W (H 0 (t)), (9) em que g(w) é a função densidade da variável de fragilidade e L W (H 0 (t)) é a tranformada de Laplace aplicada no ponto H 0 (t), o que mostra a importância desta transformação nos modelos de fragilidade (Wienke, 2010). Um ponto importante esta relacionado a identificabilidade dos modelos de fragilidade univariados, de acordo com Elbers e Ridder (1982), é necessário que a distribuição do termo da fragilidade W, tenha média finita para o modelo ser identificável e a variância da variável da fragilidade é interpretada como uma medida de heterogeneidade da população. Pelo fato que o termo da fragilidade W é uma variável aleatória podemos considerar diferentes distribuições de probabilidade como por exemplo a distribuição gama, log-normal, Gaussiana inversa entre outras. Características gerais das distribuições para o termo da fragilidade foram estudadas por Hougaard (1995). Neste trabalho assumimos a distribuição gama para o termo da fragilidade. A vantagem de considerar a distribuição gama se deve a forma fechada da distribuição de Laplace o que torna uma expressão analítica tratável para a função de sobrevivência não condicional. 2.2.1 Modelo de mistura padrão com fragilidade gama Longini e Halloran (1996) propõem o modelo de mistura padrão com fragilidade, em que o efeito das variáveis aleatórias não observadas é considerado para os indivíduos que estão em risco. Assim, levando em conta que a variável da fragilidade segue uma distribuição gama com média 1 e variância 1/σ temos que a função de sobrevivência não condicional para os indivíduos não curados é definida por ( S(t) = L W (H 0 (t)) = 1 + H ) σ 0(t). σ Na presença de covariáveis, a distribuição dos indivíduos em risco considerando a fragilidade gama é definida por ( S(t x) = 1 + H 0(t) exp(x ) σ β). (10) σ Substituindo (10) em (4) obtemos a função de sobrevivência populacional com fração de cura e fragilidade gama na presença de covariáveis é dada por ( S pop (t x, z) = 1 θ(z) + θ(z) 1 + H 0(t) exp(x ) σ β), (11) σ 238 Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013
em que x e z são vetores de covariaveis associadas a função de sobrevivência dos não curados e a fração de cura respectivamente. A função densidade da população associada a (11) é dada por ( f pop (t x, z) = θ(z) 1 + H 0(t) exp(x ) σ 1 β) h 0 (t) exp(x β). (12) σ O modelo dado em (11) foi estudado por Peng e Zhang (2008a) considerando uma abordagem semi-paramétrica. No presente artigo, consideramos uma abordagem paramétrica, assumindo para a função de risco base a distribuição Weibull, h 0 (t) = αλ (tλ) α 1 em que α > 0 e λ > 0. 3 Inferência Para determinar a função de verossimilhança, consideremos para a i-ésima observação os dados observados (t i, δ i, x i, z i ), em que t i denota o tempo observado, δ i é a variável indicadora de censura, com δ i = 1 se t i é não censurado e δ i = 0 caso contrário, x i e z i representam o vetor de covariáveis que tem efeito na distribuição latente e na taxa de cura, respectivamente. Assim, a função de verossimilhança baseada nos dados observados supondo censura não informativa é dada por L(ϑ; D) = n {f pop (t i ; ϑ)} δ i {S pop (t i ; ϑ)} 1 δ i, (13) i=1 em que ϑ = (σ, b, β, γ ), D = (t, δ, x, z), t = (t 1,... t n ), x = (x 1,..., x n ), z = (z 1,..., z n ). Para o modelo de mistura padrão com fragilidade, f pop (t i ; ϑ) e S pop (t i ; ϑ) são definidos em (12) e (11), respectivamente. Para os outros modelos, as funções f pop (t i ; ϑ) e S pop (t i ; ϑ) serão correspondentes ao modelo escolhido. A estimação dos parâmetros do modelo ϑ será feita através da maximização do logaritmo da função de verossimilhança, l(ϑ; D) = log(l(ϑ; D)). O processo de estimação empregado é similar para as três funções de ligação. Para a estimação da probabilidade de cura, basta substituir os parâmetros pelas estimativas obtidas, de acordo com as covariáveis e a função de ligação utilizada. Consideramos desvios padrões assintóticos das estimativas dos parâmetros, que são obtidos através da inversão da matriz de informação observada. Com relação à identificabilidade do modelo de mistura padrão com fragilidade, Peng e Zhang (2008b) consideram duas situações distintas: uma quando os conjuntos de covariáveis z e x, são idênticos, e a outra quando são conjuntos distintos. Eles mostraram que o modelo é identificável se a fração de cura é modelada por uma função não constante, isto é, considerando covariáveis na taxa cura e levando em conta a condição que a distribuição da fragilidade seja proveniente de uma família completa. A identificabilidade também é garantida quando os dois componentes do modelo envolvem as mesmas covariáveis. Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013 239
4 Aplicações em dados reais Nesta seção aplicaremos os modelos apresentados para dois conjuntos de dados reais : o modelo de mistura padrão (6), o modelo de mistura padrão de riscos proporcionais (MP-RP) (5) e o modelo de mistura padrão com fragilidade gama (MPF-Gama) (11). Toda a programação utilizada neste trabalho foi desenvolvida em linguagem de programação R (R Core Team, 2013). 4.1 Aplicação em dados de melanona O conjunto de dados provém de um estudo com portadores de melanoma, que foi realizado com o objetivo de avaliar a eficácia da aplicação de uma dosagem alta de interferon alfa-2b como forma de prevenir a recorrência do câncer de pele. Os pacientes foram incluídos no estudo entre 1991 e 1995, tendo sido acompanhados até 1998. Para maiores detalhes do conjunto de dados pode ser consultado Kirkwood et al. (2000). Neste conjunto de dados temos que a variável resposta T representa o tempo até a morte de paciente ou tempo de censura. Nesta amostra temos n = 417 pacientes, com 56% de observações censuradas. Consideramos a variável nódulo como variável preditora, esta covariável é categorizada em 4 categorias (1: n = 82; 2: n = 87; 3: n = 137; 4: n = 111). As estimativas de máxima verossimilhança (EMV) e os desvios padrão (DP) para os parâmetros do modelo de mistura padrão com fragilidade gama dado em (11) são apresentados na Tabela (1). Tabela 1 EMV e DP para os parâmetros do modelo de mistura padrão com fragilidade gama considerando diferentes funções de ligação Parâmetros Logito Probito Clog-Log EMV DP EMV DP EMV DP α 2, 4285 0, 3015 2, 4301 0, 3021 2, 4301 0, 3022 λ 0, 3312 0, 0586 0, 3311 0, 0587 0, 3292 0, 0587 σ 0, 6645 0, 3487 0, 6603 0, 3478 0, 6555 0, 3453 β 1 0, 5402 0, 1675 0, 5408 0, 1678 0, 5456 0, 1686 b 0 0, 6777 0, 3886 0, 4214 0, 2427 0, 1148 0, 2670 b 1 0, 3789 0, 1230 0, 2364 0, 0760 0, 2794 0, 0926 Observamos que as estimativas dos parâmetros da distribuição Weibull tiveram valores muito próximos para as diferentes funções de ligação, e, como era de se esperar, b 0 e b 1, que dependem da função de ligação escolhida, tiveram valores distintos de acordo com a função de ligação. Na Tabela (2), apresentamos os critérios de seleção de modelo AIC e BIC. Para cada modelo ajustado observamos que os valores dos critérios de seleção são bastante similares para cada função de ligação. Por exemplo, para o modelo MP temos que o valor AIC para a função de ligação logito, probito e Clog-log são próximos. De maneira análoga acontece com o valor do BIC para cada função de 240 Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013
ligação. De acordo com os critérios utilizados, observamos que o ajuste do modelo de mistura padrão de riscos proporcionais tem um comportamento melhor em relação ao modelo de mistura padrão, porém o modelo de mistura com fragilidade gama tem um melhor ajuste em relação aos outros dois modelos. Tabela 2 Critérios AIC e BIC para os modelos ajustados Funções de ligação Logito Probito Clog-Log Modelo AIC BIC AIC BIC AIC BIC MP 1043, 182 1059, 314 1043, 175 1059, 308 1043, 708 1059, 840 MP-RP 1038, 943 1059, 108 1038, 934 1059, 100 1039, 326 1059, 492 MPF-Gama 1024, 081 1048, 280 1024, 038 1048, 237 1024, 361 1048, 559 O valor estimado da variância da variável que representa a fragilidade é dado por 1/ˆσ = 1/0, 66 = 1, 51, o que mostra que existe a heterogeneidade não observada nos indivíduos e portanto a inclusão do termo de fragilidade é justificada. A Tabela (3) mostra a fração de curados para cada nível da covariável categoria do nódulo, calculada através das respectivas estimativas de b 0 e b 1 aplicadas à cada função de ligação. Tabela 3 Estimativas das proporções de cura para o modelo MPF-Gama considerando a covariável nódulo e diferentes funções de ligação. Categoria do Nódulo Logito Probito Clog-log 1 0, 574 0, 573 0, 572 2 0, 480 0, 480 0, 473 3 0, 387 0, 387 0, 384 4 0, 302 0, 300 0, 307 Notamos que as estimativas da proporção de curados são próximas para o modelo de mistura com fragilidade, independente da função de ligação escolhida. Na Figura (1) apresentamos a estimativa não paramétrica de Kaplan-Meier (K-M) da função de sobrevivência (linha contínua), e as estimativas da função de sobrevivência da população S pop (t.) obtidas para os três modelos paramétricos, em que os indivíduos que pertencem a cada nível da covariável foi estudada. Observamos que o ajuste do modelo de mistura padrão não é tão satisfatório em relação aos outros dois modelos. Entretanto em alguns trechos iniciais da curva de sobrevivência, o modelo de mistura com fragilidade tem uma aderência melhor em relação aos outros dois modelos. As estimativas da função de sobrevivência da população dos modelos ajustados apresentados na Figura (1) foram feitas considerando a função de ligação logito. Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013 241
Função de sobrevivência 0.0 0.2 0.4 0.6 0.8 1.0 (a) 0 1 2 3 4 5 6 7 Tempo (anos) MP dado em (6). Função de sobrevivência 0.0 0.2 0.4 0.6 0.8 1.0 (b) 0 1 2 3 4 5 6 7 Tempo (anos) MP-RP dado em (5). (c) Função de sobrevivência 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 7 Tempo (anos) MP-Gama dado em (11). Figura 1 Estimativas de K-M (linhas continuas) estratificadas por categoria da variável nódulo (1-4, de cima para baixo) e as estimativas paramétricas da função de sobrevivência da população S pop (t.) para os três modelos ajustados. 4.2 Aplicação para os dados do tempo do segundo nascimento de crianças na Noruega Os dados para esta segunda aplicação foi analisado por Aalen et al., (2008), são parte do registro médico de nascimentos na Noruega em 1997. O tempo T representa o tempo entre o nascimento do primeiro e do segundo filho de um mesmo casal. Neste cenário, um evento que pode influenciar o tempo para o segundo nascimento do segundo filho do casal é a perda (falecimento) do primeiro filho no intervalo do primeiro ano de vida da criança. Neste conjunto de dados temos n = 53.543 mulheres que tiveram seu primeiro filho no período 1983 a 1997. Adotamos a perda do primeiro filho no primeiro ano, x, como a covariável no modelo (1 = sim; 0 = não) e denotamos por δ a variável indicadora de censura, em que δ = 1 indica se a mulher teve um segundo filho e δ = 0 caso contrário. Analisamos os dados considerando os três modelos descritos 242 Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013
anteriormente. Na Figura (2a) observamos a estimativa da função de sobrevivência pelo estimador não paramétrico de Kaplan-Meier para o tempo até o nascimento do segundo filho, considerando a covariável x. A curva superior representa o grupo das mães em que o primeiro filho sobreviveu no primeiro ano e a curva inferior representa os casais que perderam o filho no primeiro ano. Notamos que na Figura (2a) as curvas de K-M se estabilizam em torno do quarto ano após o nascimento do primeiro filho isto nos leva a suposição que uma porcentagem de mães não terão um segundo filho o que nos motiva a considerar a metodologia proposta. Na Tabela (4) apresentamos as estimativas dos parâmetros para o modelo de mistura padrão com fragilidade (11). Observamos que as estimativas dos parâmetros da distribuição Weibull e da variável de fragilidade são iguais e as estimativas para o vetor de parâmetros b em θ(.) são diferentes para as funções de ligação. Tabela 4 EMV e DP para os parâmetros do modelo de mistura padrão com fragilidade gama considerando diferentes funções de ligação. Parâmetros Logito Probito Clog-Log EMV DP EMV DP EMV DP α 5, 229 0, 090 5, 229 0, 090 5, 229 0, 090 λ 0, 378 0, 003 0, 378 0, 003 0, 378 0, 003 σ 0, 267 0, 016 0, 267 0, 016 0, 267 0, 016 β 1 3, 539 0, 203 3, 539 0, 204 3, 539 0, 203 b 0 1, 443 0, 081 0, 874 0, 046 1, 551 0, 073 b 1 0, 052 0, 169 0, 030 0, 096 0, 047 0, 152 Na Tabela (5), apresentamos os critérios de seleção de modelo AIC e BIC para este conjunto de dados. Para cada modelo ajustado observamos que os valores dos critérios de seleção são iguais para cada função de ligação dentro de cada modelo. De acordo com os critérios AIC e BIC o modelo de mistura padrão de riscos proporcionais tem um desempenho melhor em relação ao modelo de mistura padrão. Contudo, o modelo de mistura com fragilidade gama tem um melhor ajuste em relação aos outros modelos. Tabela 5 Critérios AIC e BIC para os modelos ajustados Funções de ligação Modelo Logito Probito Clog-Log AIC BIC AIC BIC AIC BIC MP 86916, 03 86951, 58 86912, 47 86948, 02 86912, 46 86948, 02 MP-RP 86774, 52 86818.96 86774.52 86818.96 86774.52 86818.96 MP-Gama 53706, 73 53760, 05 53706, 73 53760, 05 53706, 73 53760, 05 Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013 243
1.0 0.8 0.6 S(t) 0.4 0.2 0.0 0.0 0.2 0.4 S(t) 0.6 0.8 1.0 A estimativa da varia ncia da varia vel que representa a fragilidade e 1/b σ = 1/0, 267 = 3, 745, assim concluı mos que existe heterogeneidade na o observada entre os indivı duos e, portanto, a inclusa o do termo de fragilidade e justificada. Intuitivamente a heterogeneidade na o observada pode estar relacionado por exemplo com a idade das ma es, isto pelo fato que a idade das mulheres esta ligado com a fertilidade delas e neste trabalho na o foi considerado a idade como varia vel preditora. Na Figura (2) apresentamos os ajustes dos modelos de mistura padra o, mistura padra o de riscos proporcionais e o modelo de mistura com fragilidade gama. Observamos que o modelo de mistura padra o na o tem um ajuste ta o bom para os dados quanto o modelo de mistura com fragilidade gama: 0 2 4 6 8 10 12 14 0 2 4 Tempo(anos) 6 8 10 12 14 12 14 Tempo(anos) 0.8 0.6 S(t) 0.4 0.2 0.0 0.0 0.2 0.4 S(t) 0.6 0.8 1.0 MP dado em (6) 1.0 Estimativas de K-M 0 2 4 6 8 10 12 Tempo(anos) MP-RP dado em (5) 14 0 2 4 6 8 10 Tempo(anos) MP-Gama dado em (11). Figura 2 Estimativas de K-M (linhas continuas) estratificadas pela covaria vel perda do primeiro filho no primeiro ano (0-1, de cima para baixo) e estimativas parame tricas da func a o de sobrevive ncia da populac a o, Spop (t.), para os tre s modelos. 244 Rev. Bras. Biom., Sa o Paulo, v.31, n.2, p.233-247, 2013
Conclusões Neste trabalho foi apresentado o modelo de mistura padrão com fragilidade na presença de covariaveis sob um ponto de vista paramétrico isto é adotando uma distribuição de probabilidade para os indivíduos em risco. Assim, motivados pela flexibilidade da distribuição Weibull em acomodar diversas formas para a taxa de falha, foi considerado que os indivíduos em risco são modelados por essa distribuição e a estimação dos parâmetros foi baseada no método de estimação de máxima verossimilhança. Para aplicação da metodologia apresentada nós consideramos dois conjuntos de dados reais da literatura em que o atrativo para utilizar os conjuntos de dados foi a suspeita de dados de longa duração ou fração de curados, como também a heterogeneidade entre fatores de risco não observados dos indivíduos em risco. Por exemplo, no primeiro conjunto de dados estudado relacionado com melanoma a variável considerada foi nódulo mas poderíamos ter considerado também outras variáveis tais como idade, sexo entre outras em que a importância dessas variáveis não observadas é justificada pela inclusão do termo de fragilidade no modelo. De acordo com os resultados obtidos pelo ajuste dos modelos considerados, observamos que no primeiro conjunto de dados as estimativas dos parâmetros da função de sobrevivência para os indivíduos em risco considerando as funções de ligação logito, probito e complemento log-log são próximas entre elas, porém no segundo conjunto de dados relacionado ao tempo até o segundo nascimento de crianças na Noruega nós observamos que as estimativas dos parâmetros são iguais embora o tamanho de amostra para este conjunto de dados é maior que o primeiro. Intuitivamente a escolha da função de ligação não afeta as estimativas dos parâmetros, pelo menos nos dados considerados neste artigo. Além disso, baseado na estimativa da variância do termo da fragilidade W, para o conjunto de dados de melanoma obervamos que 1/ σ = 1, 51 e para o conjunto de dados de segundo nascimento observamos uma variancia de 1/ σ = 3, 745 pode-se afirmar que existe heterogeneidade entre os indivíduos e desta forma o modelo de mistura com fragilidade gama é uma alternativa para o modelo de mistura padrão e o modelo de mistura de riscos proporcionais. Agradecimentos Esta pesquisa foi parcialmente financiada pela FAPESP e pela CAPES. GONZALES, J. F. B.; TOMAZELLA, V. L. D.; TACONELLI, J. P. Parametric estimation of the mixture model with gamma frailty in the presence of covariates. Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013. Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013 245
ABSTRACT: In this article we present a approach parametric to standard mixture model with frailty in the presence of covariates. This model has an advantage over the usual(traditional) survival models, which allows incorporating the heterogeneity of two subpopulations (immune and susceptible) to the event of interest. Furthermore, variables incorporated in cure rate and the survival function of susceptible individuals. A semi-parametric approach for this model was proposed by Peng and Zhang (2008a), but, unlike them, in this work we assume a Weibull distribution for the survival function for individuals at risk which makes the parametric model. The cure rate was modeled through binomial regression models with different link functions. We explored the use of the R software as a tool to make inferences of the proposed model. The procedures developed were applied to two real data sets. KEYWORDS: Survival analysis; frailty; fraction cure; Weibull distribution, gamma distribution; regression. Referências AALEN, O. O.; BORGAN, Ø.; GJESSING, H. K. Survival and Event History Analysis: a Process Point of View. New York: Springer, 2008. BERKSON, J.; GAGE, R. P. Survival curve for cancer patients following treatment. Journal of the American Statistical Association, v.47, p.501-515, 1952. BOAG, J. W. Maximum likelihood estimates of the proportion of patients cured by cancer therapy. Journal of the Royal Statistical Society. Series B (Methodological), v.11, p.15-53, 1949. CLAYTON, D. G. A model for association in bivariate life tables and its application in epidemiological studies of familial tendency in chronic disease incidence. Biometrika, v.65, p.141-151, 1978. COLOSIMO, E. A.; GIOLO, S. R. Análise de Sobrevivência Aplicada. São Paulo: Edgard Blucher, 2006. COX, D. R. Regression models and life-tables. Journal of the Royal Statistical Society. Series B (Methodological), v.34, p.187-220, 1972. ELBERS, C.; RIDDER, G. True and spurious duration dependence: The identifiability of the proportional hazard model. The Review of Economic Studies, v.49, p.403-409, 1982. FAREWELL, V. T. A model for binary variable with time-censored observations. Biometrika, v.38, p.43-46, 1977. FAREWELL, V. T. The use of mixture models for the analysis of survival data with long-term survivors. Biometrics, v.38, p.1041-1046, 1982. FAREWELL, V. T.; SPROTT, D. Mixture models in survival analysis: are they worth the risk?. The Canadian Journal of Statistics, v.14, p.257-262, 1986. 246 Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013
HOUGAARD, P. Modelling heterogeneity in survival data. Journal of Applied Probability, v.28, p.695-701, 1991. KAPLAN, E. L.; MEIER, P. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, v.53, p.457-481, 1958. KIRKWOOD, J. M. et al. High- and low-dose interferon alfa-2b in high-risk melanoma: First analysis of intergroup trial e1690/s9111/c9190. Journal of Clinical Oncology, v.18, p.2444-2458, 2000. KUK, A. Y. C.; CHEN, C. A mixture model combining logistic regression with proportional hazards regression. Biometrika, v.79, p.531-541, 1992. LONGINI, I. M.; HALLORAN, M. E. A frailty mixture model for estimating vaccine efficacy. Applied Statistics, v.45, p.165-173, 1996. MALLER, R. A.; ZHOU, S. Survival Analysis with Long-Term Survivors. New York: Wiley, 1996. 304p. PENG, Y.; DEAR, K. B. G. A nonparametric mixture model for cure rate estimation. Biometrics, v.56, p.237-243, 2000. PENG, Y.; DEAR, K. B. G.; DENHAM, J. W. A generalized f mixture model for cure rate estimation. Statistics in Medicine, v.17, p.813-830, 1998. PENG, Y.; ZHANG, J. Estimation method of the semiparametric mixture cure gamma frailty model. Statistics in Medicine, v.27, n.25, p.5177-5194, 2008a. PENG, Y.; ZHANG, J. Identifiability of a mixture cure fraitly model. Statistics & Probability Letters, v.78, p.2604-2608, 2008b. PRICE, D. L.; MANATUNGA, A. K. Modelling survival data with a cured fraction using frailty models. Statistics in Medicine, v.20, p.1515-1527, 2001. RODRIGUES, J.; de CASTRO, M.; CANCHO, V.; BALAKRISHNAN, N. COM- Poisson cure rate survival models and an application to a cutaneous melanoma data. Journal of Statistical Planning and Inference, v.139, p.3605-3611, 2009. R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2013. TSODIKOV, A. D.; IBRAHIM, J. G.; YAKOVLEV, A. Y. Estimating cure rates from survival data: an alternative to two-component mixture models. Journal of the American Statistical Association, v.98, p.1063-1078, 2003. VAUPEL, J.; MANTON, K.; STALLARD, E. The impact of heterogeneity in individual frailty on the dynamics of mortality. Demography, v.16, n.3, p.439-454, 1979. WIENKE, A. Frailty Models in Survival Analysis. Boca Raton, FL: Chapman & Hall/CRC, 2010. Recebido em 06.05.2013. Aprovado após revisão em 31.10.2013. Rev. Bras. Biom., São Paulo, v.31, n.2, p.233-247, 2013 247