MODELO DE RISCO PROPORCIONAL DE COX Uma escolha popular para relacionar a função hazard e um determinado número de covariáveis consiste no modelo de Cox. A função de risco h (t) (hazard function) também chamada taxa de risco (de falha) ou força de mortalidade, representa a taxa instantânea de morte de um indivíduo no intervalo de tempo t a t+1, sabendo que sobreviveu até ao momento t Não faz pressupostos acerca da distribuição da sobrevivência Assume que a taxa de risco (hazard rate) é função das variáveis independentes (covariáveis) h (t,x) = h 0 (t) exp {β 1 X 1 +.+ β p X p } ou p β i Χ i i= 1 h (t,x)= h 0 (t) e podemos linearizar este modelo dividindo os membros da equação por h 0 (t) e depois aplicando logaritmos naturais nos dois lados
h 0 (t)= risco basal, hazard para o respectivo indivíduo quando todas as variáveis independentes são iguais a zero β 1..,β p = parâmetros do modelo X 1, X p = variáveis explicativas (variáveis de exposição, variáveis confundidoras, variáveis de interacção) O modelo de Cox é essencialmente uma regressão linear múltipla do logaritmo do hazard nas variáveis x i com um hazard de base que é o termo de intercepção que varia com o tempo Pressuposto do modelo : A relação entre hi (t) e hj (t) é constante ao longo do tempo. Método de estimação : Método de Máxima Verosimilhança Parcial (maximum likelihood- ML estimation) os parâmetros são calculados ao maximizar a função likelihood, designada por L
Porque o modelo de Cox é muito popular? Podem-se obter estimativas dos coeficientes de regressão, hazard ratios e curvas ajustadas É um modelo robusto, os resultados obtidos são muito próximos dos obtidos através de modelos paramétricos É possível estimar os coeficientes na parte exponencial do modelo, e assim avaliar o efeito das variáveis explicativas. A medida do efeito hazard ratio, é calculada sem ter de se estimar o risco basal da função. De notar que a função hazard (t,x) e as curvas de sobrevivência correspondentes S(t,X) podem ser estimadas apesar de não ser especificada a função de risco basal (baseline hazard function) É preferido ao modelo logístico quando o tempo de sobrevivência é conhecido e há censurados
Desvantagens do modelo de Cox: Proporciona estimativas constantes para o efeito das covariáveis ao longo de todo o estudo. Dificuldade de interpretação de covariáveis dependentes no tempo.
Exemplo 1: estudo de um coorte fixo com um follow-up de 13 anos de 170 homens de raça branca com 60 ou mais anos de idade em que o objectivo do estudo é determinar se o Índice de Apoio Social (SNI: Social Network Index) classificada de zero - sem apoio a 5 com - excelente apoio aumenta a sobrevivência Variáveis explicativas (explanatory variables): SNI variável de exposição Variáveis confundidoras (confounding variables) Idade (var. contínua) Tensão arterial (var. contínua) Doença crónica ( var. categórica Não=0; Sim=1) Índice de massa corporal (var. contínua)
Exemplo de uma variável de confundimento: idade Variável de exposição (casamento) Variável Resultado (cancro) Variável de confusão (idade) Conclusão errada : o casamento provoca cancro os dois grupos estavam desajustados quanto à idade, os casados eram mais velhos As variáveis de confundimento (idade) estão sempre associadas tanto às variáveis de exposição (estado civil) como às variáveis resultado
Exemplo de interacção de uma variável interferente modificadora de efeito Variável de exposição (idade) Variável Resultado (Cancro) Variável de interacção (tabagismo) O hábito de fumar também modifica a possibilidade de ter cancro, mesmo que os dois grupos (fumadores e não fumadores) estejam ajustados quanto á idade Existem duas variáveis tabaco e idade que têm efeito próprios e independentes na variável resultado
Exemplo 2 Foi realizado um estudo em doentes com leucemia em remissão seguidos ao longo de várias semanas para ver em quanto tempo permanecem em remissão. Os dados envolvem dois grupos de doentes com leucemia, com 21 doentes em cada grupo. O grupo 1 é o grupo tratamento e o grupo 2 o grupo placebo. Os dados têm também os valores dos logaritmos do número de leucócitos a variável log WBC, que é um factor de prognóstico muito conhecido indicador da sobrevivência dos doentes Para este exemplo a questão principal de interesse refere-se à comparação da experiência da sobrevivência dos dois grupos, ajustando para a possível variável de confusão e/ou efeitos de interacção dos log do nº de leucócitos
Temos assim um problema envolvendo duas variáveis explicativas como preditivas do tempo de sobrevivência T, em que T refere-se ao nº de semanas até à recidiva da doença. Designamos as variáveis explicativas: X1 (para o grupo status Rx: tratamento e placebo) e X2 (para log WBC: nº de leucócitos). A variável X1 é a variável de exposição de interesse. A variável X2 é uma variável que estamos a incluir como uma possível variável de confusão ou de efeito modificador. De notar se queremos avaliar o possível efeito de interacção do log WBC no grupo, temos de considerar uma terceira variável que é o produto de X1 e X2
1,97 1,97 1,97 1,97 23 23 23 23 1,45 1,45 1,45 1,45 35+ 35+ 35+ 35+ 2,73 2,73 2,73 2,73 22 22 22 22 1,47 1,47 1,47 1,47 34+ 34+ 34+ 34+ 2,95 2,95 2,95 2,95 17 17 17 17 2,53 2,53 2,53 2,53 32+ 32+ 32+ 32+ 2,30 2,30 2,30 2,30 15 15 15 15 2,20 2,20 2,20 2,20 32+ 32+ 32+ 32+ 3,06 3,06 3,06 3,06 12 12 12 12 1,78 1,78 1,78 1,78 25+ 25+ 25+ 25+ 1,50 1,50 1,50 1,50 12 12 12 12 2,01 2,01 2,01 2,01 20+ 20+ 20+ 20+ 2,12 2,12 2,12 2,12 11 11 11 11 2,05 2,05 2,05 2,05 19+ 19+ 19+ 19+ 3,49 3,49 3,49 3,49 11 11 11 11 2,16 2,16 2,16 2,16 17+ 17+ 17+ 17+ 3,26 3,26 3,26 3,26 8 2,60 2,60 2,60 2,60 11+ 11+ 11+ 11+ 2,32 2,32 2,32 2,32 8 2,70 2,70 2,70 2,70 10+ 10+ 10+ 10+ 3,05 3,05 3,05 3,05 8 2,80 2,80 2,80 2,80 9+ 9+ 9+ 9+ 3,52 3,52 3,52 3,52 8 3,20 3,20 3,20 3,20 6+ 6+ 6+ 6+ 3,97 3,97 3,97 3,97 5 2,57 2,57 2,57 2,57 23 23 23 23 3,49 3,49 3,49 3,49 5 2,32 2,32 2,32 2,32 22 22 22 22 2,42 2,42 2,42 2,42 4 3,60 3,60 3,60 3,60 16 16 16 16 4,36 4,36 4,36 4,36 4 2,88 2,88 2,88 2,88 13 13 13 13 4,01 4,01 4,01 4,01 3 2,96 2,96 2,96 2,96 10 10 10 10 4,48 4,48 4,48 4,48 2 4,43 4,43 4,43 4,43 7 4,91 4,91 4,91 4,91 2 3,28 3,28 3,28 3,28 6 5,00 5,00 5,00 5,00 1 4,06 4,06 4,06 4,06 6 2,80 2,80 2,80 2,80 1 2,31 2,31 2,31 2,31 6 Log Log Log Log WBC WBC WBC WBC (log log log log nº leuc leuc leuc leucócitos) citos) citos) citos) t log log log log WBC ( WBC ( WBC ( WBC (log log log log nºleuc leuc leuc leucócitos citos citos citos) t Grupo 2 (n=21) Grupo 2 (n=21) Grupo 2 (n=21) Grupo 2 (n=21) Grupo 1 (n=21) Grupo 1 (n=21) Grupo 1 (n=21) Grupo 1 (n=21) Nota + significa censurado Grupo =R x (1=placebo, 0=tratamento)
Software utilizado :SPIDA Modelo 1: Coeff Coeficiente StErr Erro padrão p-value Valor de p HR Risco morrer de 0,95 Limite inferior do IC CI Limite superior do IC P(PH) Valor de p para o pressuposto de proporcionalidade R x 1.509 0.410 0 4.523 2.027 10.094 0.794 N:42 % Cen: 28.571-2log L:172.759 h(t,x) = ĥ 0 (t) e β 1 Rx h(t,x) = ĥ 0 (t) e 1.509Rx HR=exp(1,509)(1-0)=e 1,509 =4,5 HR=4.5 significa que os doentes que pertencem ao grupo placebo têm um risco aumentado de 4.5 vezes maior de recidivarem comparados com os do grupo em tratamento
Modelo 2: Coeff Coeficiente StErr Erro padrão p-value Valor de p HR Risco de morrer 0,95 Limite inferior do IC CI Limite superior do IC P(PH) Valor de p para o pressuposto de proporcionalidade R x 1.294 0.422 0.002 3.648 1.505 8.343 0.944 Log WBC 1.604 0.329 0.000 4.975 2.609 9.486 0.917 N:42 % Cen: 28.571-2log L:144.559 Modelo estimado h(t,x)= ĥ 0 (t)eβ1rx + β2 log WBC h(t,x)= ĥ 0 (t)e 1.294Rx + 1.604 log WBC HR=exp(1,294 (1-0) + 1,604(logWBC-logWBC))=exp(1,294(1)+1,604(0)=e 1,294 HR=e 1,294 =3,6
Modelo 3: Coeff Coeficiente StErr Erro padrão p- value Valor de p HR Risco de morrer 0,95 Limite inferio r do IC CI Limite superior do IC P(PH) Valor de p para o pressuposto de proporcionalidade R x 2.355 1.681 0.161 10.537 0.391 284.200 0.628 Log WBC 1.803 0.447 0.000 6.067 2.528 14.561 0.996 R x *log WBC -0.342 0.520 0.510 0.710 0.256 1.967 0.410 N:42 % Cen: 28.571-2log L:144.131 HR=exp (2,355(1-0)+1,803(logWBC-logWBC)+ (-0,342)(1*logWBC-0*logWBC) =exp(2,355-0,342log WBC) HR=e2,355-0,342 log WBC exemplo para logwbc=2 HR=e 2,3551-0,342 (2) =5,32 para log WBC=4 HR=e 2,3551-0,342 (4) =2,68
Logo que as estimativas dos ML forem obtidas estamos interessados em fazer inferências estatísticas sobre os hazard ratios (HR) definidos em termos dessas estimativas. O HR estimado é calculado ao elevar ao expoente o coeficiente de uma variável de exposição (0,1) de interesse. De notar que o modelo em que não há termos de interacção envolve exposição. Em geral o HR é definido como o risco de um indivíduo dividido pelo risco para outro indivíduo. Os dois indivíduos que estão a ser comparados podem ser distinguidos pelos valores do conjunto de variáveis preditivas, ou seja os X HR=h(t,X * ) /h(t,x) HR= h h 0 0 ( t) e ( t) e p i = 1 p i = 1 β β i i X X * i i X*=(X* 1, X* 2,., X* p ) e X=(X 1, X 2,., X p ) representam os conjuntos dos X para os dois indivíduos HR=exp [ p i= 1 β i (X i* -X i )] é mais fácil interpretar o HR superior a 1, em que HR excede o valor nulo igual a 1 O X * corresponde ao grupo com maior risco, o grupo placebo e X o grupo tratamento com menor risco. Suponhamos que só temos uma variável de interesse X1 que é a variável de exposição (0,1) logo p=1. Logo o hazard ratio que compara expostos com não expostos é obtido por X*=1 e X=0 na formula da razão de risco. O valor estimado do HR é exp[β1(1-0) ]= e β1. REGRA GERAL : Se X1 é a variável de exposição (0,1) então HR= e β1 = efeito da exposição ajustada para as outras variáveis
COMO SE ANALISA O PRESSUPOSTO DE PROPORCIONALIDADE? Através de gráficos o mais popular comparar curvas log-log de sobrevivência em diferentes categorias das variáveis a serem analisadas. Curvas paralelas por exemplo comparando o grupo tratamento e placebo indicam que o PH foi satisfeito.
Através de testes de ajuste : goodness-of fit (GOF tests). São utilizados testes Z para amostras elevadas ou de testes do quiquadrado, que podem ser calculados para cada variável do modelo, ajustado para as outras variáveis do modelo. No exemplo utilizado da remissão da leucemia, a última coluna dos outputs contêm os valores de p dos testes GOF para as variáveis Rx e logwbc. Ambos os resultados são não significativos indicando que cada variável satisfaz o pressuposto de PH.
Vamos dar um exemplo em que o pressuposto de proporcionalidade não se verifica Consideremos um estudo em que os doentes com cancro são randomizados para cirurgia ou terapia de radiação sem cirurgia. Temos o valor (0,1) variável exposição que representa a variável estatuto cirúrgico, em que 0 representa se foi operado e 1 que não foi operado. Considere que a a variável de exposição é a única de interesse logo o modelo de Cox contém uma única variável E, representando a exposição E = 0 se cirurgia ; E= 1 se não cirurgia h(t, X)=h 0 (t) e βe O modelo de Cox é apropriado? Verifica-se que após uma cirurgia de remoção de um tumor de cancro há um risco elevado de complicações (mesmo de morte), no período após cirurgia mas após este período crítico (por exemplo 3 dias) verifica-se que o hazard dos operados passa a ser inferior ao dos não operados e as curvas cruzam ao fim de três dias, ou seja os hazards não são constantes ao longo do tempo. Aqui não é apropriado utilizar o modelo de Cox porque o hazard ratio varia ao longo do tempo.
O que fazer quando não se verifica a proporcionalidade? São várias as opções Análise por estratos da variável exposição; ou seja não criar nenhum modelo e fazer curvas de Kaplan Meier para cada grupo separadamente Iniciar a análise aos três dias, e utilizar o modelo de Cox nos que sobreviveram após os três dias. Estimar um modelo de Cox até três dias e outro após os três dias de modo a obter duas diferentes estimativas de hazard ratio (HR), uma para cada um dos períodos Estimar um modelo de Cox modificado que inclua uma variável de tempo dependente que meça a interacção da exposição com o tempo. Este modelo é designado por modelo de Cox estratificado ou estendido (extended Cox model)
O arquivo contem informação sobre o tempo (em dias) necessário para que dependentes de heroína se recuperem, em duas clínicas especializadas. Existem duas variáveis adicionais: registo de prisão anterior e dose máxima de um medicamento utilizado na recuperação (metadona) que, acredita-se que afecta o tempo de recuperação. Os dados também apresentam censura do tipo aleatória. Ajuste um modelo de Cox para o tempo de recuperação, incluindo como covariáveis. Clínica ( 1 ou 2), prisão anterior (0:nenhuma, 1: alguma) e dose (em mg/dia). Interprete cada um dos coeficientes com base nas estimativas obtidas. coef exp(coef) se(coef) z p Clinica2-0.999 0.368 0.2152-4.64 3.5e-06 Prisãonão 0.279 1.321 0.1685 1.65 9.8e-02 Metadona -0.034 0.967 0.0064-5.30 1.1e-07 De acordo com o modelo ajustado acima, temos que as variáveis clínica e dose têm efeito no tempo de recuperação. Interpretando os parâmetros, temos que, fixadas as outras covariáveis, um paciente que está na Clínica 2 tem uma taxa de chance de 64% ((1-0,368)*100) menor de ser recuperado que se ele estivesse na Clínica 1. Já para a dose máxima do medicamento, temos que um aumento de 1 mg/dia, fixadas as outras covariáveis, implica numa taxa de chance de 3% ((1-0,967)*100) menor de recuperação em relação a um paciente sem esse acréscimo. (Introdução à Análise de Sobrevivência e Aplicações, Fernando Henrique F. P da Rosa e Vagner Pedro Júnior)