Métodos Avançados de Análise de Sobrevivência. Cronograma Introdução. O Tempo Capítulo 2

Documentos relacionados
Cap 7 Modelo de Cox. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. 5 Modelo de Cox. Carvalho MS (2009) Sobrevida 1 / 22

Análise de Sobrevida. Silvia Emiko Shimakura Marilia Sá Carvalho Valeska Andreozzi. Análise de Sobrevida p. 1

Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. Carvalho MS (2009) Sobrevida 1 / 21

Covariável Tempo-Dependente Capítulo 8

Métodos Avançados de Análise de Sobrevivência. Bibliografia. Cronograma Introdução. O Tempo Capítulo 2. Modelo de Cox Capítulo 6

Análise de Sobrevivência

Cap 2 O tempo. Programa. 1 Cap 2 O tempo. Carvalho MS (2009) Sobrevida 1 / 26

Análise de Sobrevivência

Métodos Avançados de Análise de Sobrevida. Bibliografia. Cronograma Introdução. Material do curso. Agradecimentos

Aplicações de Análise de Sobrevivência na Área da Saúde

Marilia Sá Carvalho Dayse Pereira Campos Raquel de V.C. de Oliveira

t i R(t) N(t) Ŝ KM (t) = R(t i ) N(t i ) R(t i ) (15 3) 15 (12 2) 12 (10 1) 10 (9 3) 9 (6 2) 6 (4 2) 4 (2 1) 2 (1 1)

Modelos de regressão paramétricos

ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 7 Análise de Resíduos

ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 6 Modelo semiparamétrico de sobrevivência

ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 4 Estimação não-paramétrica

Análise de Sobrevivência

Análise de Sobrevivência

ANÁLISE DE SOBREVIVÊNCIA. Airlane P. Alencar IME-USP Alessandra C. Goulart FM-USP

ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 8 Covariáveis mudando no tempo

O tempo de sobrevivência é uma variável aleatória T, contínua e positiva.

Análise de sobrevivência aplicada a pacientes HIV positivos

ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 9. Funções de suavização

Modelo de Regressão de Cox

ANÁLISE DE SOBREVIVÊNCIA APLICADA

Análise de Sobrevivência. Modelos de Regressão Paramétricos. Análise de Sobrevivência Roteiro Geral. Roteiro do Módulo

Análise de Sobrevivência. Exercícios - Capítulo 1

O passo inicial de qualquer análise estatística consiste em uma descrição dos dados através de análise descritiva (tabelas, medidas e gráficos).

Ajuste e comparação de modelos para dados grupados e censurados

Universidade de Brasília IE Departamento de Estatística. Análise de Diagnóstico para o Modelo de Regressão de Cox. Camila Farage de Gouveia

Questão clínica: Prognóstico/sobrevida. Análise de sobrevida 2015

EPI3. Aula 6 Estudos de risco: Análise de sobrevida

ANÁLISE DE SOBREVIVÊNCIA (MÓDULO II)

Análise de Dados Categóricos

Análise de Sobrevivência

CONHECIMENTOS ESPECÍFICOS

Métodos Estatísticos Avançados em Epidemiologia

Análise de Sobrevivência. Modelos Probabilísticos. Análise de Sobrevivência Roteiro Geral. Roteiro do Módulo

Modelos de Análise de Sobrevivência

UNIVERSIDADE FEDERAL DO PARANÁ SETOR CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA ANÁLISE DE SOBREVIDA EM 90 HOMENS COM CÂNCER DE LARINGE

Métodos Estatísticos Avançados em Epidemiologia

Internamentos Hospitalares por VIH/SIDA em Portugal 2006: Modelos de Fragilidades na Sobrevivência

Disciplina de Modelos Lineares Professora Ariane Ferreira

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos para dados de contagem

ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 11. Eventos Competitivos

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.

Métodos Estatísticos Avançados em Epidemiologia

INTRODUÇÃO AOS MODELOS DE FRAGILIDADES APLICADOS A DADOS DE LEUCEMIA LINFOBLASTÍCA

UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA. Eduardo Yoshio Nakano 1

Estimadores, pontual e intervalar, para dados com censuras intervalar

UNIVERSIDADE FEDERAL DE MINAS GERAIS CENTRO DE DESENVOLVIMENTO E PLANEJAMENTO REGIONAL CEDEPLAR

Métodos Estatísticos Avançados em Epidemiologia

Análise de Dados Longitudinais Aula

Assume que a taxa de risco (hazard rate) é função das variáveis independentes (covariáveis)

Esse material foi extraído de Barbetta (2007 cap 13)

ANÁLISE DE SOBREVIVÊNCIA APLICADA

Modelos Lineares Generalizados

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 3 Funções Básicas de sobrevivência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

ANÁLISE DE SOBREVIVÊNCIA 2ª LISTA DE EXERCÍCIOS

XVI COBREAP - CONGRESSO BRASILEIRO DE ENGENHARIA DE AVALIAÇÕES E PERÍCIAS - IBAPE/AM 2011 NATUREZA DO TRABALHO: TRABALHO DE AVALIAÇÃO

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Lista nº 4 Modelos de Regressão Paramétricos

RESOLUÇÃO Nº 01/2016

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

MORTALIDADE DE IDOSOS POR DOENÇAS CARDIOLÓGICAS NA CIDADE DE JOÃO PESSOA-PB

UNIVERSIDADE FEDERAL DE MINAS GERAIS. Confiabilidade Lista 4. Professor: Enrico Colosimo Aluno: Augusto Filho Belo Horizonte - MG

PROGRAMA DE DISCIPLINA MÉTODOS ESTATÍSTICOS EM EPIDEMIOLOGIA

Introdução ao modelo de Cox com aplicação a dados de Pneus 11.00R22

Métodos estatísticos em epidemiologia: algumas observações sobre pesquisa cĺınica

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Modelos Lineares Generalizados

Técnicas computacionais em probabilidade e estatística II

Alternativas à Regressão Logística para análise de dados

Análise conjunta de dados longitudinais e de sobrevivência: Abordagem Bayesiana

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

XLVII SIMPÓSIO BRASILEIRO DE PESQUISA OPERACIONAL

EXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO

5 Cap 8 Análise de Resíduos. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. Carvalho MS (2009) Sobrevida 1 / 22

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

DISSERTAÇÃO DE MESTRADO. Riscos competitivos: uma aplicação na sobrevida de pacientes com câncer

ANÁLISE DE SOBREVIVÊNCIA

ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 5 Modelo paramétrico de sobrevivência

CONHECIMENTOS ESPECÍFICOS

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

i j i i Y X X X i j i i i

Gean Carlo Gomes Jéssica Jabczenski Roslindo. Análise de Sobrevivência como ferramenta auxiliar na originação e manutenção do ciclo de crédito

Métodos Quantitativos para Avaliação de Políticas Públicas

variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Transcrição:

Cap Introdução Introdução à Análise de Introdução à Análise de Marilia Sá Carvalho Dayse Pereira Campos Raquel de V.C. de Oliveira Fundação Oswaldo Cruz, Brasil Introdução Capítulo O Tempo Capítulo 2 Funções de Capítulo 3 Estimação Não-Paramétrica Capítulo 4 Estimação Paramétrica Capítulo 5 Modelo de Cox Capítulo 6 Análise de Resíduos Capítulo 7 Covariável Tempo-Dependente Capítulo 8 /228 4/228 Cap Introdução Métodos Avançados de Análise de Cap Introdução Cronograma Introdução Modelos com efeitos não lineares Capítulo 9 2 Múltiplos Eventos Capítulo 0 3 Eventos Competitivos Capítulo 4 Fragilidade Capítulo 2 Dia Tema dia Introdução, O tempo, Funções de 2 dia Estimação Não-Paramétrica, Cox 3 dia Cox, Resíduos 4 dia Resíduos, Tempo dependente 5/228 6/228

Cap Introdução Bibliografia Cap Introdução Agradecimentos Kleinbaum, D., & Klein, M. Survival analysis : a self-learning text. Springer, 997. Therneau, T. M., & Grambsch, P. M. Modeling survival data: extending the Cox model. Springer, 2000. Carvalho, M. S., Andreozzi, V. L., Codeço, C, T., Barbosa, M. T. S. & Shimakura, S. E.. Análise de : teoria e aplicações em saúde, 2a edição. à Fiocruz, que viabilizou escrever, testar e publicar o livro às instituições e seus pesquisadores que cederam, mais do que seus dados, seus problemas, idéias, perguntas: Departamento de Informação e Informática do SUS Datasus; Escola Nacional de Saúde Pública Fundação Oswaldo Cruz; Hospital Geral de Betin; Hospital Universitário Clementino Fraga Filho Universidade Federal do Rio de Janeiro; Hospital Universitário Gaffrée e Guinle Universidade Federal do Estado do Rio de Janeiro; Instituto de Pesquisa Cĺınica Evandro Chagas Fundação Oswaldo Cruz; Instituto de Saúde Coletiva Universidade Federal da Bahia; Instituto Nacional do Câncer. 7/228 8/228 Cap Introdução Material do curso Cap Introdução Notas de aula e dados para exercícios na página do livro : http://sobrevida.fiocruz.br/ R software: www.r-project.org Tutorial online do R http://www.leg.ufpr.br/rtutorial/ http://www.leg.ufpr.br/~paulojus/embrapa/rembrapa/ Em que tipo de desenho de estudo se aplica a Análise de? Coorte observacional ou de intervenção (ensaio cĺınico) pressupõe o acompanhamento dos indivíduos ao longo do tempo Que perguntas podemos responder com os modelos de sobrevivência (ou sobrevida)? 9/228 Definir taxa de incidência ou força de morbidade ou risco instantâneo 0/228

Cap Introdução A análise de sobrevivência, também chamada de análise de sobrevida, será utilizada quando o tempo for o objeto de interesse, seja este interpretado como o tempo até a ocorrência de um evento ou o risco de ocorrência de um evento por unidade de tempo. As perguntas passíveis de resposta neste tipo de abordagem são: Qual o efeito de um determinado anticancerígeno sobre o tempo de sobrevivência? Quais os fatores associados ao tempo de duração da amamentação? Quais os fatores preditivos para reinternação hospitalar, considerando o tempo entre internações? Qual o efeito da unidade assistencial na sobrevivência após um infarto agudo do miocárdio? Considerando a possível perda de seguimento (censura) Cap Introdução Refrescando a memória Supondo que TODOS conhecem modelos de regressão... o que é parâmetro? o que é estimativa? o que é distribuição normal, binomial, Poisson? quando se usa regressão logística? quando se usa regressão de Poisson? o que é um intervalo de confiança? o que é um p-valor? o que é efeito de variável? o que significa a expressão controlando por idade e sexo? /228 2/228 Cap Introdução Refrescando a memória Outline Cap Introdução Modelo logístico: o efeito de um fator de exposição sobre o risco de ocorrência de um desfecho é uma probabilidade condicional de experiência do desfecho, dada a exposição Pr(D E) Taxa ou força de incidência ou força de morbidade ou risco instantâneo λ(t) risco em expostos sobre não expostos em cada momento no tempo. 2 3 Cap 3 Funções de Sobrevida 4 5 6 7 Cap 7 Análise de Resíduos 8 3/228 5/228

O Tempo Medir o tempo Tempo até... óbito transplante doença cura Tabela : Tempo de sobrevivência (em meses) de 0 pacientes em diálise. Paciente (i) Tempo (T i ) 22 2 6 3 2 4 43 5 23 6 0 7 35 8 8 9 36 0 29 6/228 7/228 Representar o tempo Causas de Informação Incompleta Pacientes 0 2 3 4 5 6 7 8 9 0 X X X X X X X X X 0 0 20 30 40 Meses X óbito por outras causas morte do paciente por causas externas; término do estudo; perda de contato mudança de residência; recusa em continuar participando do estudo; mudança de procedimento esquema de tratamento; abandono devido a efeitos adversos de tratamento; desconhecimento da data de início em pacientes HIV+ com data de infecção desconhecida; use de dados prevalentes óbitos antes do início do estudo. Cada linha representa a trajetória de um paciente e o símbolo X indica a ocorrência do evento ou falha. Censura e truncamento 8/228 9/228

Mecanismos de censura Dados com censura à direita Censura à direita É a mais comum. Não se observa o desfecho. Sabe-se que o tempo entre o início do estudo e o evento é maior do que o tempo observado. Nesse caso aproveita-se a informação do tempo durante o qual a pessoa esteve sob observação sem que ocorresse o evento. Desprezar essa informação faria com que o risco fosse superestimado, pois o tempo até a evento é desconhecido, mas o paciente estava em risco de sofrer o evento pelo menos até o último momento observado. Exemplo Visando estudar o tempo entre o diagnóstico de Aids e o óbito, 93 pacientes foram acompanhados em um ambulatório especializado de 986 a 2000: 92 óbitos observados Ao término do estudo (dez/2000), 0 permaneciam vivos não há informação após essa data 92 eventos e 0 censuras (à direita) http://sobrevida.fiocruz.br/ 20/228 2/228 Dados com censura à direita Dados com censura à direita Graficamente Dados de 0 pacientes Notação Clássica: T i,δ i Paciente (i) Tempo (T i ) Status (δ i ) 22 2 6 0 3 2 4 43 0 5 23 6 0 7 35 8 8 0 9 36 0 29 Pacientes 0 2 3 4 5 6 7 8 9 0 X X O X X X X O X 0 0 20 30 40 Meses O X indica ocorrência do evento e O corresponde à presença de censura. 22/228 23/228

Mecanismos de censura Mecanismos de censura Censura à esquerda Acontece quando não conhecemos o momento da ocorrência do evento, mas sabemos que ele ocorreu antes do tempo observado. Considere um estudo comunitário para investigar o fatores associados à soroconversão para leptospirose, após a entrada na comunidade onde é possível a transmissão. Caso o exame seja positivo, só podemos afirmar que a transmissão ocorreu entre a data da mudança para o local e a coleta do sangue. Censura intervalar Ocorrência do evento entre tempos conhecidos No exemplo anterior seria a soroconversão entre dois exames (anuais). O tempo até a recorrência é maior do que a data do exame negativo e menor o primeiro exame positivo. 24/228 25/228 Mecanismos de censura Informativa??? 4 anos A censura ainda pode ser classificada em: Informativa: perda do indivíduo em decorrência de causa associada ao evento estudado. NÃO Informativa: quando não há razão para suspeitar que o motivo da perda de informação esteja relacionado ao desfecho. Avaliar a censura: comparação de censurados e não censurados segundo características. Evitar censura informativa busca ativa! 26/228 27/228

Truncamento Indivíduos não são incluídos por motivo relacionado à ocorrência do evento estudado Truncamento à esquerda Indivíduos já experimentaram o evento antes do início do estudo Comum no uso de dados prevalentes, bases de dados secundários Como indivíduos com maior sobrevivência tem mais chance de entrar no estudo, o risco é subestimado O estudo só inclui quem apresentou o evento na janela temporal (T E,T D ),T E no momento do início do estudo; T D momento do desfecho. 28/228 29/228 Truncamento à direita O critério de seleção inclui somente os que sofreram o evento, logo o risco é superestimado Não é problema em doenças com curta duração Comum em estudos que partem do óbito Não há censura à direita Coorte aberta Momento de entrada dos pacientes na coorte varia Pacientes 0 2 3 4 5 6 7 8 9 0 X X X X O X X X X O 0 0 20 30 40 Meses 30/228 Trajetórias individuais de pacientes com censura e com diferentes tempos de entrada em observação. 3/228

Processo de contagem Processo de contagem A formulação do processo de contagem permite provar resultados importantes na análise de sobrevivência, acomodando censuras, truncamento, eventos múltiplos. O par (T i,δ i ) é substituído por (N i (t),y i (t)), onde: N i (t) = número (0,, 2,...) de eventos observados em [0,t] evento único (óbito)n i (t) =, eventos recorrentes (ex. doença oportunista) N i (t) = 0,,2,3 Y i (t) =, se o indivíduo i está sob observação e sujeito ao risco do evento no instante t Y i (t) = 0, se o indivíduo i não está em risco. Entender quem está em risco a cada momento é essencial na construção do banco de dados. Formalmente: um processo de contagem é um processo estocástico N(t) com t > 0, de tal forma que N(0) = 0 e N(t) < ; a trajetória de N(t) é contínua à direita a partir de uma função escada com saltos de tamanho igual a um; a análise de sobrevivência pode ser pensada como um processo de contagem onde N(t) é o número de eventos observados até o tempo t e N i (t) é a diferença entre a contagem de eventos até o instante t e a contagem no momento imediatamente anterior a t. 32/228 33/228 Registro do tempo Graficamente Tempo de observação de pacientes de uma coorte aberta. Paciente Tempo Tempo Tempo T Status inicial (I) final (F) (final - inicial) δ 0 22 22 2 5 2 6 0 3 0 2 2 4 25 47 22 0 5 0 33 23 6 0 0 0 7 0 35 35 8 2 30 8 0 9 3 39 36 0 5 34 9 N A (t) Y A (t) 0 0 dn(t) 0 0 20 30 40 Meses Paciente : Diagnosticado no mês zero, acompanhado até o mês 22. A ocorrência do evento é assinalada pelo sinal Registrar as datas de entrada e do evento para cada paciente 34/228 35/228

Graficamente Graficamente Trajetória de dois pacientes censurados N B (t) Y B (t) 0 0 dn(t) Paciente 3: Diagnosticado no mês zero, acompanhado até o mês 2. A A 0 0 (t) Y(t) N o dn(t)=0 N(t) B Y(t) B 0 0 dn(t)=0 o 0 0 20 30 40 Meses 0 0 20 30 40 Meses censura aos 6 meses 0 0 20 30 40 Meses censura ao término do estudo 36/228 37/228 Graficamente Qual o ganho? Trajetória de dois pacientes censurados que entraram na coorte ao longo do estudo O que se ganha com o processo de contagem? Possibilidade de analisar: N(t) 0 5 Y(t) 5 0 dn(t) N 8 (t) Y 8 (t) 0 0 dn(t)=0 o Mudança no valor de covariável: mudança de esquema ARV Evento múltiplos: sucessivos infartos do miocárdio Dados prevalentes: hemodiálise 0 0 20 30 40 Meses 0 0 20 30 40 Meses 38/228 39/228

Organização dos dados Organização dos dados id tempo (T) status (δ) sexo idade 30 0 F 54 2 4 F 34 3 23 M 65 4 F 45 5 2 0 M 44 Tabela : Forma Clássica id inicio (I) fim (F) status (δ) sexo idade 0 30 0 F 54 2 5 9 F 34 3 3 26 M 65 4 0 F 45 5 4 6 0 M 44 Tabela : Forma em Contagem 40/228 4/228 Tempo de no R O objeto sobrevivência formato clássico O R aceita os dois formatos de registro do tempo de sobrevivência. O comando Surv() tem como função combinar, em uma única variável, a informação referente ao tempo de sobrevivência de cada indivíduo e a informação a respeito do status do paciente. Status = (um), se ocorreu o evento Status = 0 (zero) se o tempo foi censurado require(survival) Surv(tempo,status) Surv(inicio,fim,status) > require(survival) > ipec<-read.table("ipec.csv",header=t,sep=";") > ipec[:9,c("id","tempo","status")] id tempo status 852 2 2 23 3 3 45 4 4 2755 0 5 5 27 0 6 6 329 0 7 7 60 8 8 5 9 9 563 > Surv(ipec$tempo,ipec$status) [] 852 23 45 2755+ 27+ 329+ 60 5 563 42/228 43/228

O objeto sobrevivência formato contagem Tempo de no R id ini fim tempo status 243 2095 852 2 2800 2923 23 3 250 2395 45 4 95 4670 2755 0 5 2653 4770 27 0 6 3 332 329 0 7 36 96 60 8 52 5 Surv(tempo,status) clássico Surv(inicio,fim,status) contagem > Surv(ipec$ini,ipec$fim,ipec$status) [] (243,2095 ] (2800,2923 ] (250,2395 ] (95,4670+] [5] (2653,4770+] ( 3, 332+] ( 36, 96 ] (, 52 ] 44/228 45/228 Resumo Cap 3 Funções de Sobrevida Outline Cap Introdução Neste capítulo, foram apresentadas as diferentes abordagens clássica e processo de contagem para se estudar o tempo até a ocorrência de um evento, identificando-se: o tempo quando ocorre o evento; a população em risco em cada tempo; a censura não informativa e informativa; a censura à esquerda, à direita e intervalar; o truncamento à esquerda e à direita. 2 3 Cap 3 Funções de Sobrevida 4 5 6 7 Cap 7 Análise de Resíduos 8 46/228 48/228

Cap 3 Funções de Sobrevida Funções de sobrevivência Cap 3 Funções de Sobrevida Introdução Introdução Função de Densidade de Probabilidade Função de sobrevivência Função de Risco (instantâneo) Comportamento da função de risco Função de Risco Acumulado Relação entre as funções Função de Verossimilhança 50 pacientes, 4 anos de acompanhamento, 32 óbitos Taxa média de mortalidade: 32/50 = 0,64 = 64% ou 6 óbitos por 00 pessoas/ano Mas... essa taxa não é homogênea no tempo. A análise de sobrevivência responde a: Qual o risco de um paciente diagnosticado com Aids vir a falecer em até três anos após o diagnóstico? Qual a probabilidade de um paciente sobreviver por mais de dois anos após o diagnóstico de Aids? Qual seria o número esperado de óbitos em uma coorte de pacientes acompanhada por cinco anos? Qual o tempo mediano de sobrevivência? 49/228 50/228 Cap 3 Funções de Sobrevida Função densidade de probabilidade Cap 3 Funções de Sobrevida Estimativa de probabilidade sem censura T tempo de sobrevivência (até a ocorrência de um evento); T é uma variável aleatória contínua e positiva; f(t) é a sua função de densidade de probabilidade; a função f(t) pode ser interpretada como a probabilidade de um indivíduo sofrer um evento em um intervalo instantâneo de tempo. f(t) = lim ǫ 0 + Pr(t T t +ǫ) ǫ Se não houver censura, isto é, se todos os pacientes apresentarem o evento antes do fim do estudo, a função f(t) pode ser estimada a partir da tabela de frequência. Nesta tabela, os valores observados de T são distribuídos em classes e para cada classe x, calcula-se f x (t): ˆf x (t) = n o de ocorrências na classe x (n o total de ocorrências) (amplitude de x) N x (t) ˆf x (t) = (n total de ocorrências) x 5/228 52/228

Cap 3 Funções de Sobrevida Tempos de sobrevivência Aids, 32 pacientes 3 8 29 54 60 84 0 2 6 23 34 45 5 5 58 73 94 24 329 33 37 408 490 54 54 555 688 780 80 858 887 998 Cap 3 Funções de Sobrevida Estimativa de probabilidade sem censura Intervalo R x (t) N x (t) x ˆfx (t) (0,3] 32 3 0,00 (3,8] 3 5 0,002 (8,29] 30 0,003 (29,54] 29 25 0,00 (54,60] 28 6 0,005 (60,84] 27 24 0,00 (84,0] 26 26 0,00 (0,2] 25 2 0,06 (2,6] 24 4 0,008 (6,23] 23 7 0,004 (23,34] 22 0,003 (34,45] 2 0,003 (45,5] 20 2 6 0,00 (5,58] 8 7 0,004 (58,73] 7 5 0,002 53/228. 54/228 Cap 3 Funções de Sobrevida Função de sobrevivência Cap 3 Funções de Sobrevida Função de sobrevivência Qual é a probabilidade de um paciente com aids sobreviver 365 dias ou mais? Isto é, qual a probabilidade de T ser maior do que um determinado valor t = 365? Ou, mais formalmente, qual é Pr(T > 365)? A função de sobrevivência, S(t), é a probabilidade de um indivíduo sobreviver por mais do que um determinado tempo t. S(t) = Pr(T > t) Relembrando: a função de distribuição acumulada, F(t), de uma variável aleatória é definida como a probabilidade de um evento ocorrer até o tempo t. F(t) = Pr(T t) Logo, S(t) é o complemento da função de distribuição acumulada F(t): S(t) = Pr(T > t) = Pr(T t) = F(t) 55/228 56/228

Cap 3 Funções de Sobrevida Estimando a sobrevivência sem censura Ŝ x (t inf ) = no pacientes com T > t inf n o total de pacientes em que t inf é o limite inferior do intervalo de tempo considerado x. 57/228 Cap 3 Funções de Sobrevida Cálculo da Função de sobrevivência Aids Intervalo R x (t) N x (t) ˆfx (t) Ŝ x (t) (risco) (eventos) (densidade) (sobrevivência) (0,3] 32 0,00,000 (3,8] 3 0,002 0,969 (8,29] 30 0,003 0,938 (29,54] 29 0,00 0,906 (54,60] 28 0,005 0,875 (60,84] 27 0,00 0,844 (84,0] 26 0,00 0,83 (0,2] 25 0,06 0,78 (2,6] 24 0,008 0,750 (6,23] 23 0,004 0,79 (23,34] 22 0,003 0,688 (34,45] 2 0,003 0,656 (45,5] 20 2 0,00 0,625 (5,58] 8 0,004 0,563 (58,73] 7 0,002 0,53. 58/228 Cap 3 Funções de Sobrevida Função de Risco Cap 3 Funções de Sobrevida Função de Risco Qual é o risco de um paciente com aids vir a óbito após sobreviver 365 dias? Esse risco de morrer aumenta ou diminui com o tempo? λ(t) > probabilidade instantânea de um indivíduo sofrer o evento em um intervalo de tempo t e (t +ǫ) dado que ele sobreviveu até o tempo t. Sendo ǫ infinitamente pequeno, λ(t) expressa o risco instantâneo de ocorrência de um evento, dado que até então o evento não tenha ocorrido. λ(t) = lim ǫ 0 Pr((t < T < t +ǫ) T t) ǫ λ(t) também é denominada: função ou taxa de incidência, força de infecção, taxa de falha, força de mortalidade, força de mortalidade condicional. Apesar do nome risco, λ(t) é uma taxa (tempo ). Pode assumir qualquer valor positivo (não é probabilidade). 59/228 60/228

Cap 3 Funções de Sobrevida Função de Risco e de sobrevivência Cap 3 Funções de Sobrevida Estimando risco sem censura λ(t) = f(t) S(t) λ(t) = d ln(s(t)) dt e risco são inversamente proporcionais: quando o risco aumenta, a probabilidade de sobrevivência diminui e vice-versa. ˆλ x (t) = no ocorrências na classe x R x (t) (amplitude de x) Número de eventos observados no intervalo de classe x divididos pelo número de pacientes em risco no início do intervalo x e pela amplitude de x. Uma maneira alternativa de estimar λ(t) é utilizar as relações entre S(t), f(t) e λ(t). Comum nas tábuas de vida demografia. Planilha tempo.ods 6/228 62/228 Cap 3 Funções de Sobrevida Estimando risco Cap 3 Funções de Sobrevida Comportamento da Função de Risco Intervalo R x (t) N x (t) x ˆfx (t) Ŝ x (t) ˆλx (t) (0,3] 32 3 0,00,000 32 3 = 0,00 (3,8] 3 5 0,002 0,969 3 5 = 0,002 (8,29] 30 0,003 0,938 30 = 0,003 (29,54] 29 25 0,00 0,906 29 25 = 0,00 (54,60] 28 6 0,005 0,875 28 6 = 0,006 (60,84] 27 24 0,00 0,844 27 24 = 0,002 (84,0] 26 26 0,00 0,83 26 26 = 0,00 (0,2] 25 2 0,06 0,78 25 2 = 0,020 (2,6] 24 4 0,008 0,750 24 4 = 0,00 (6,23] 23 7 0,004 0,79 23 7 = 0,006 (23,34] 22 0,003 0,688 22 = 0,004 (34,45] 2 0,003 0,656 2 = 0,004 2 (45,5] 20 2 6 0,00 0,625 20 6 = 0,07 (5,58] 8 7 0,004 0,563 8 7 = 0,008 (58,73] 7 5 0,002 0,53 7 5 = 0,004. 63/228 Risco 0.6 0.8.0.2.4 0 0 20 30 40 A Tempo Risco 0.2 0.4 0.6 0.8.0 0 0 20 30 40 B Tempo 64/228

Cap 3 Funções de Sobrevida Cap 3 Funções de Sobrevida Comportamento da Função de Risco Comportamento da Função de Risco C D E F Risco 2 4 6 8 0 Risco 0.00 0.02 0.04 0.06 0.08 Risco 0.0 0.02 0.03 0.04 0.05 0.06 0.07 0.08 Risco 0.020 0.025 0.030 0.035 0.040 0.045 0 0 20 30 40 0 0 20 30 40 0 0 20 30 40 0 0 20 30 40 Tempo Tempo Tempo Tempo 65/228 66/228 Cap 3 Funções de Sobrevida Função de risco acumulado Cap 3 Funções de Sobrevida Estimando risco acumulado sem censura Qual o risco de um paciente com aids vir a óbito no primeiro ano após o diagnóstico? Qual é o risco dele vir a óbito nos primeiros 2 anos? Λ(t) > função de risco acumulado. Mede o risco de ocorrência do evento até o tempo t. É a soma (integral) de todos os riscos em todos os tempos até o tempo t. Λ(t) = t 0 λ(u)d(u) Também é uma taxa, logo não está restrita ao intervalo [0;]. x ˆΛ x (t) = ˆλ k (t) amplitude de k k= O risco acumulado até o tempo t é igual a: o risco acumulado até o tempo t mais o risco instantâneo do período anterior vezes o intervalo de tempo até t. Planilha tempo.ods 67/228 68/228

Cap 3 Funções de Sobrevida Relação entre as Funções Cap 3 Funções de Sobrevida Relação entre as funções básicas de sobrevivência S(t) = F(t) Qual a probabilidade de sobreviver por mais de t unidades de tempo? Qual o risco de sofrer o evento no tempo t se sabemos que o paciente sobreviveu até aquele momento? Qual o risco de sofrer o evento até um determinado tempo t? S(t) = exp( Λ(t)) λ(t) = d ln(s(t)) dt λ(t) = f(t) S(t) λ(t) = f(t) F(t) Λ(t) = ln(s(t)) 69/228 70/228 Cap 3 Funções de Sobrevida Função de verossimilhança Cap 3 Funções de Sobrevida Função de verossimilhança na sobrevivência A função de verossimilhança avalia o quanto os dados apoiam, concordam ou suportam cada valor possível do parâmetro a ser estimado. Exemplo: amostra para estimar prevalência de hipertensão. 0% dos participantes são hipertensos verossimilhança da proporção de hipertensos na população ser 90% é baixíssima quanto mais próximo de 0%, maior a verossimilhança Máxima Verossimilhança Pressupostos do método de Máxima Verossimilhança: Observações independentes Tempos de sobrevivência independentes Censuras independentes Sem censura: L i f(t i) Com censura à direita: L i O f(t i) i D S(t i) Com censura à esquerda: L i O f(t i) i D S(t i) i E [ S(t i)] Com censura intervalar: L i O f(t i) i D S(t i) i E [ S(t i)] i I [S(t i ) S(t + i )] Com truncamento: probabilidade condicional do indivíduo ser incluído no estudo. 7/228 72/228

Outline Estimação Não-Paramétrica Cap Introdução 2 3 Cap 3 Funções de Sobrevida 4 5 6 7 Cap 7 Análise de Resíduos 8 Introdução Kaplan-Meier Nelson-Aalen Intervalos de confiança Tempo Mediano de sobrevivência Kaplan-Meier com estratificação Teste de Log-Rank Teste de Peto Incorporando a censura Sem suposições sobre a distribuição do tempo 74/228 75/228 Introdução Kaplan-Meier Duas formas não paramétricas de estimação das funções de sobrevivência: Kaplan-Meier S(t) Nelson-Aalen Λ(t) COM censura Sem suposições sobre a distribuição do tempo A probabilidade de sobrevida até o tempo t é estimada considerando que a sobrevivência até cada tempo é independente da sobrevivência até outros tempos. A probabilidade de chegar até o tempo t é o produto da probabilidade de chegar até cada um dos tempos anteriores. Estimador produto (ou estimador limite produto) 76/228 77/228

Kaplan-Meier Kaplan-Meier Sejam t < t 2 < < t m os m tempos onde ocorreram os eventos; R(t j ) é o total de pessoas a risco no tempo t j. N(t j ) é o número de eventos ocorridos precisamente em t j. Para os m tempos t j em que ocorre um evento, a probabilidade de sobrevivência será estimada pelo número dos que sobreviveram até aquele tempo (R(t j ) N(t j )) sobre os que estavam em risco naquele tempo (R(t j )). Como os eventos são independentes S(t) é o produto das probabilidades de sobrevivência a cada tempo t j t. ( ) ( ) R(t ) N(t ) R(t2 ) N(t 2 ) Ŝ KM (t) = R(t ) R(t 2 ) ( ) R(tm ) N(t m ) R(t m ) ou na forma de produtório: Ŝ KM (t j ) = j:t j t R(t j ) N(t j ) R(t j ) 78/228 79/228 Kaplan-Meier o dado Kaplan-Meier gráfico 2 pacientes com aids (n=2) 5 óbitos (m=5) 6 censuras (indicada pelo +) 60 84 25+ 54 80+ 37 8 29 50+ 83 80 8+ 35 52 2 40 22 85+ 39 6 2+ S(t) 0.0 0.2 0.4 0.6 0.8.0 0 20 40 60 80 dias 80/228 Figura : Função de sobrevivência dos pacientes com Aids. Os símbolos + localizam as censuras. É uma função em escada, que salta em cada tempo onde ocorre evento. 8/228

Da sobrevida ao risco Gráfico da Função de Risco Acumulado Função de Risco Acumulado ˆΛ KM (t) = lnŝ KM (t) Logo... pode-se estimar qualquer das funções. Λ(t) 0.0 0.5.0.5 2.0 0 20 40 60 80 Dias 82/228 83/228 Estimador de Aalen Função de Risco Acumulado ˆΛ NA (t) = tj t N(t j ) R(t j ) Indicado para amostras muito pequenas Equivalente ao K-M pra amostras grandes planilha exerciciokm.ods Estimativas de K-M e N-A t j R(t) N(t) S KM (t) Λkm (t) Λna ( (t) 6 2 0,9524 0,0488 ) ( 2 = 0,0476 8 20 0,9048 0,00 0,0476+ ( 20) = 0,0976 2 9 0,857 0,542 0,0976+ ( 9) = 0,503 22 7 0,8067 0,248 0,502+ ( 7) = 0,209 29 5 0,7529 0,2838 0,209+ ( 5) = 0,2757 35 4 0,6992 0,3578 0,2757+ ( 4) = 0,3472 37 3 0,6454 0,4379 0,3472+ ( 3) = 0,424 39 2 0,596 0,5249 0,424+ ( 2) = 0,5074 40 0,5378 0,6203 0,5074+ ( ) = 0,5983 52 9 0,478 0,7379 0,5983+ ( 9) = 0,7094 54 8 0,483 0,876 0,7094+ ( 8) = 0,8344 60 7 0,3585,0258 0,8344+ ( 7) = 0,9773 80 6 0,2988,2080 0,9773+ ( 6) =,440 83 3 0,992,634,439+ ( 3) =,4773 84 2 0,0996 2,3066,4773+ 2) =,9773 84/228 85/228

Intervalos de confiança Intervalos de confiança Assumindo erro α, o intervalo fica assim: Variância do estimador Kaplan-Meier para a sobrevida Estimador de Greenwood Limite inferior Limite superior Ŝ KM (t) z α/2 Var(Ŝ KM (t)) Var(Ŝ KM (t)) = (Ŝ KM (t)) 2 j:t j t N(t j ) R(t j )(R(t j ) N(t j )) Ŝ KM (t)+z α/2 Var(Ŝ KM (t)) Entretanto, este intervalo permite valores negativos e maiores do que, o que é incompatível com a definição de sobrevida. 86/228 87/228 Intervalos de confiança Construindo intervalo simétrico para o risco lnλ(t) = ln( lns(t)), pode-se obter um intervalo assimétrico para S(t), porém sempre positivo e menor ou igual a. no R Criando o objeto sobrevida (tempo, status) (somente t < 90) > tempo <- c(6, 8, 2, 2, 22, 25, 29, 35, 37, 39, 40, 50, 52, 54, 60, 80, 80, 8, 83, 84, 85) > status <- c(,,0,,,0,,,,,,0,,,,0,,0,,,0) # variável status= indica evento, 0 censura > Surv(tempo,status) 6 8 2+ 2 22 25+ 29 35 37 39 40 50+ 52 54 60 80+ 80 8+ 83 84 85+ Kaplan-Meier > KM <- survfit(surv(tempo,status) ~ ) > summary(km) > plot(km) Nelson-Aalen > sob.na <- survfit(coxph(surv(tempo,status)~)) > sob.na > summary(sob.na) 88/228 89/228

Saídas do R summary(km) time n.risk n.event survival std.err lower95%ci upper95%ci 6 2 0.9524 0.0465 0.8655.000 8 20 0.9048 0.064 0.7875.000 2 9 0.857 0.0764 0.798.000 22 7 0.8067 0.0869 0.653 0.996 29 5 0.7529 0.0963 0.5859 0.968 35 4 0.6992 0.034 0.5232 0.934 37 3 0.6454 0.085 0.4642 0.897 39 2 0.596 0.20 0.4082 0.857 40 0.5378 0.40 0.3550 0.85 52 9 0.478 0.60 0.2972 0.769 54 8 0.483 0.58 0.243 0.720 60 7 0.3585 0.37 0.926 0.667 80 6 0.2988 0.093 0.459 0.62 83 3 0.992 0.092 0.0680 0.583 84 2 0.0996 0.089 0.072 0.575 90/228 Saídas do R plot(km) Função de sobrevida dos pacientes com aids, utilizando o estimador produto Kaplan-Meier. Os símbolos + localizam as censuras. S(t) 0.0 0.2 0.4 0.6 0.8.0 0 20 40 60 80 dias 9/228 Tempo Mediano de Kaplan-Meier com estratificação Medida sumária mais comum Menor tempo para o qual metade dos indivíduos sofre o evento Com censura é tempo no qual o valor estimado da sobrevivência é 50% Sem censura é exatamente 50% t med = min(t j Ŝ(t j ) 0,5) () Descrever a sobrevivência segundo características: sexo, faixa etária, etc. A sobrevivência é estimada separadamente para cada estrato, utilizando Kaplan-Meier. no R > ipec <- read.table("ipec.csv",header=t,sep=";") > survaids <- survfit(surv(tempo,status)~ sexo, data = ipec) > survaids Call: survfit(formula = resp ~ sexo, data = ipec) n events rmean se(rmean) median 0.95LCL 0.95UCL sexo=f 49 6 2096 229 Inf 37 Inf sexo=m 44 74 58 22 6 887 563 92/228 93/228

Gráfico sobrevida estratificada Gráfico sobrevida estratificada S(t) 0.0 0.2 0.4 0.6 0.8.0 Fem Masc S(t) 0.0 0.2 0.4 0.6 0.8.0 Fem Masc 0 500 000 500 2000 2500 3000 0 500 000 500 2000 2500 3000 Dias Dias Curvas de sobrevida de pacientes com aids, estratificado por sexo. 94/228 Com intervalo de confiança de 95%. 95/228 Testes Teste Log-rank Log-rank ou Mantel Haenszel Peto Hipótese nula: não há diferença entre estratos H 0 : λ (t) = λ 2 (t) = = λ k (t) Distribuição esperada de eventos igual em todos os estratos: E k (t) = N(t) R k(t) R(t) Estatística de teste log-rank para dois estratos (k = 2): Log-rank = (O E ) 2 Var(O E ) O = total de eventos observados no estrato E = total de eventos esperados no estrato. 96/228 97/228

Teste log-rank Teste de Peto A variância, que entra no cálculo como um fator de padronização, tem a fórmula (para k = 2): Var(O E ) = t R (t)r 2 (t) N(t)[R(t) N(t)] R(t) 2 [R(t) ] A estatística log-rank, sob a hipótese nula, segue uma distribuição χ 2, com k graus de liberdade. Dá maior peso às diferenças (ou semelhanças), no início da curva, onde se concentra a maior parte dos dados e por isso é mais informativa. Usa um ponderador S(t) no estimador. sendo que Peto = (O E ) 2 Var(O E ) O E = t j S(t j )(O (t j ) E (t j )) Também a estatística Peto segue aproximadamente uma distribuição χ 2 com k graus de liberdade. 98/228 99/228 no R Log-rank no R Peto > survdiff(surv(tempo,status)~sexo, data=ipec,rho=0) Call: survdiff(formula = Surv(tempo, status) ~ sexo, data = ipec, rho = 0) N Observed Expected (O-E)^2/E (O-E)^2/V sexo=f 49 6 24.5 2.93 4.03 sexo=m 44 74 65.5.09 4.03 Chisq= 4 on degrees of freedom, p= 0.0447 *** O argumento rho determina o tipo de teste a ser realizado. Para log-rank, use rho = 0 (default). Para o teste Peto, use rho =. > survdiff(surv(tempo,status)~sexo, data=ipec,rho=) Call: survdiff(formula = Surv(tempo, status) ~ sexo, data = ipec, rho = ) N Observed Expected (O-E)^2/E (O-E)^2/V sexo=f 49 2. 8.2 2.0 3.54 sexo=m 44 55. 49.0 0.746 3.54 Chisq= 3.5 on degrees of freedom, p= 0.0598 * 00/228 0/228

Resumo Outline Neste capítulo foram apresentados: Método não paramétrico para estimação da função de sobrevivência Kaplan-Meier; Método não paramétrico para estimação da função risco acumulado Nelson-Aalen; Intervalos de confiança para as duas funções; Cálculo e interpretação do tempo de sobrevivência mediano; Intervalos de confiança para o tempo de sobrevivência mediano; Testes para comparação das curvas de sobrevivência entre diferentes estratos log-rank e Peto. Cap Introdução 2 3 Cap 3 Funções de Sobrevida 4 5 6 7 Cap 7 Análise de Resíduos 8 02/228 04/228 Modelagem Paramétrica Introdução Introdução Distribuições estatísticas para modelar as funções de sobrevivência Estimação Regressão paramétrica Seleção dos modelos Avaliação de ajuste do modelo Os estimadores de Kaplan-Meier e Nelson-Aalen para as funções S(t) e λ(t) são obtidos a partir dos dados, supondo que a cada momento do tempo existe um processo diferente gerando as observações. Como cada intervalo de tempo é estimado de forma independente, a estimação não-paramétrica possui tantos parâmetros quantos intervalos de tempo. Na abordagem paramétrica o tempo segue uma distribuição de probabilidade conhecida. Para estimar o efeito de covariáveis > modelagem 05/228 06/228

Distribuição do tempo da coorte de Aids Tempo de vida acelerado Freqüência de Pacientes 0 0 20 30 40 50 60 70 O tempo T obedece à: ln(t) = µ+σw sendo: W > distribuição de probabilidade que ajusta T µ > parâmetros de média ln(t), também chamado locação σ > parâmetros de dispersão de ln(t), escala 0 500 000 500 2000 2500 3000 3500 Tempo de Sobrevida em Dias 07/228 08/228 Distribuições Distribuição Exponencial Se a variável T possui uma distribuição exponencial, Densidade de probabilidade: Distribuições estatísticas para modelar as funções de sobrevivência: Exponencial Weibull Log-normal... Funções assimétricas, contínuas, positivas Função de sobrevivência: f(t) = αexp( αt), α > 0 S(t) = exp( αt) A função risco é constante para todo o tempo de observação t, ou seja: λ(t) = f(t) S(t) = α = constante A função de risco acumulado é uma função linear no tempo e é dada por: Λ(t) = lns(t) = αt 09/228 0/228

Algumas exponenciais Interpretando risco exponencial S(t) Função de sobrevivência, de risco e de risco acumulado para a distribuição exponencial considerando diferentes valores de α 0.0 0.2 0.4 0.6 0.8.0 Sobrevida α = 0.5 α =.0 α =.5 0 2 3 4 5 Tempo λ(t) 0.4 0.6 0.8.0.2.4.6 Risco α =.5 α = α = 0.5 0 2 3 4 5 Tempo Λ(t) 0 2 4 6 α = 0.5 α =.0 α =.5 Risco Acumulado 0 2 3 4 5 A distribuição exponencial é conhecida como distribuição exponencial padrão quando α =. Tempo média: E(T) = α variância: var(t) = α 2 T mediano = ln(2)/α quanto maior o risco, menor o tempo médio de sobrevivência e menor a variabilidade deste em torno da média como a distribuição do tempo de sobrevivência T é assimétrica, usa-se mais o tempo mediano o modelo exponencial é matematicamente simples, mas a suposição de risco constante no tempo (sem memória) é pouco plausível aplicável quando o tempo é curto para supor risco constante (por ex., o risco de acidentes domésticos de crianças entre 2 e 5 anos pode ser considerado constante neste intervalo) /228 2/228 Exemplo aids Tempo médio de sobrevivência = α = 0,000497 = 202 dias; Tempo mediano de sobrevivência = ln(2) α = ln(2) 0,000497 = 394 dias. S(t) 0.2 0.4 0.6 0.8.0 sobrevivência mediana 0 500 000 500 2000 2500 3000 3500 Dias 3/228 Distribuição Weibull permite variação do risco no tempo é uma generalização da distribuição exponencial: densidade > f(t) = γα γ t γ exp( (αt) γ ) sobrevivência > S(t) = exp( (αt) γ ) γ determina a forma da função de risco > parãmetro de forma: γ < função de risco decrescente γ > função de risco crescente γ = função de risco constante (equivalente ao modelo exponencial) a função de risco acumulado é: Λ(t) = lns(t) = (αt) γ o parâmetro α determina a escala da distribuição Tempo mediano: S(t) = 0,5 = exp( (αt) γ ) 4/228

Algumas Weibull Comparando Não-paramétrico com paramétricos Aids Função de sobrevivência, de risco e de risco acumulado com parâmetro escala α = e diferentes valores do parâmetro de forma γ S(t) 0.0 0.2 0.4 0.6 0.8.0 Sobrevida γ = 0.5, α = γ =.0, α = γ =.5, α = 0 2 3 4 5 Tempo α(t) 0.0 0.5.0.5 2.0 2.5 3.0 3.5 Risco 0 2 3 4 5 Exemplos: tumores, tempo de incubação do HIV Tempo α(t) 0 2 4 6 8 0 2 Risco Acumulado 0 2 3 4 5 Tempo S(t) 0.0 0.2 0.4 0.6 0.8.0 N = 2 Kaplan Meier Exponencial Weibull 5/228 0 20 40 60 80 6/228 Modelo de Regressão Paramétrica Nos modelos paramétricos, a inclusão de covariáveis segue a forma utilizada em modelos lineares generalizados, podendo ser tanto contínuas pressão sanguínea, idade, dosagens bioquímicas como categóricas gênero, tratamento, comportamentos. O objetivo de um modelo de regressão é o de estimar o efeito de covariáveis (ou variáveis independentes ou preditores), x,x 2,,x p, sobre uma variável resposta (ou variável dependente),y. Supondo uma distribuição da família exponencial para a variável resposta teremos um modelo linear generalizado. Ainda que a distribuição exponencial e a Weibull sejam parte desta família, os modelos de regressão paramétricos para tempo de sobrevivência não são parte dos GLM por causa de dados censurados. 7/228 Modelo de Regressão Paramétrica T > tempo até o evento ou censura, variável resposta x > vetor de covariáveis Função de risco: λ(t x) = λ 0 (t)g(xβ): β > coeficientes estimados g(.) > função de ligação, positiva e contínua (exponencial, Weibull) Razão de riscos λ/λ 0 é função das covariáveis e não depende do tempo > riscos proporcionais 8/228

Modelo de Regressão Paramétrica Assumimos que o parâmetro da distribuição depende de covariáveis segundo uma função Exemplo: α(x) = exp(xβ) Modelo Exponencial: Modelo Weibull: S(t x) = exp( α(x)t) = exp( exp(xβ)t) λ(t x) = α(x) = exp(xβ) S(t) = exp( (α(x)t) γ ) = exp( (exp(xβ)t) γ ) λ(t) = γα(x) γ t γ = γ(exp(xβ)) γ t γ Exemplo Assumindo que o risco de morrer é constante ao longo do tempo, pode-se estimar o efeito da idade na sobrevivência e no risco de 6.805 pacientes em diálise acompanhados durante um ano (.603 morreram) através do modelo exponencial: λ(t idade) = exp(β 0 +idadeβ ) Os parâmetros estimados são: β 0 = 6,35 e β = 0,037, ou seja, para cada ano a mais de vida o risco aumenta de exp(0,037) =,0377. Pode-se comparar o risco constante de morte no tempo, entre dois indivíduos submetidos à diálise, um com 30 anos e outro com 70, substituindo as estimativas dos parâmetros β: λ(t x = 70) λ(t x = 30) = exp(β 0 +70β ) exp(β 0 +30β ) = 0,00073 0,00062 = 4,39 20/228 9/228 Modelo Weibull Seleção do modelo O tempo T segue uma distribuição de Weibull e o parâmetro de escala α depende das covariáveis. Neste caso são estimados os parâmetros: β 0 cuja exponencial representa o risco médio, quando todas as covariáveis são zero; β cuja exponencial é a parcela de variação no tempo de sobrevivência devida à idade do paciente; γ a forma da função de risco ao longo do tempo. Razão de Verossimilhança: RV = 2(l maior l menor ) Teste de Wald testa a hipótese nula H 0 de que o parâmetro β de cada covariável separadamente é igual a zero. Comparar um modelo com distribuição exponencial e outro com distribuição Weibull equivale a testar a hipótese nula de que o parâmetro de forma, γ, da distribuição Weibull é igual a. (compara-se o logaritmo da função de verossimilhança do modelo nulo exponencial com o modelo nulo Weibull) 2/228 22/228

Qualidade do ajuste do modelo Exemplo exponencial > survreg(formula=surv(tempo,status)~, data=dialise, dist= exponential ) Deviance > D = 2(l saturado l modelo ) D > assintoticamente uma χ 2, com n p graus de liberdade Call: survreg(formula=surv(tempo, status)~, data=dialise, dist="exponential") Coefficients: (Intercept) 4.096059 Scale fixed at Loglik(model)= -869 Loglik(intercept only)= -869 n= 6805 23/228 24/228 Exemplo Weibull Exemplo > survreg(formula=surv(tempo,status)~, data=dialise, dist= weibull ) Call: survreg(formula=surv(tempo, status)~, data=dialise, dist="weibull") Coefficients: (Intercept) 4.388833 Scale=.257539 Loglik(model)= -804.2 Loglik(intercept only)= -804.2 n= 6805 Comparando: D = 2(L weibull L exponencial ) = 2( 804,2 ( 869)) = 29,6 Como D segue uma distribuição χ 2 com um grau de liberdade, p = 0, ou seja, rejeitamos a hipótese nula de que γ =. Isto é, o modelo de Weibull, com γ = 0,795 é melhor do que o modelo exponencial. 25/228 26/228

Análise Gráfica Comparar a curva do Kaplan-Meier com as estimadas parametricamente. Quanto mais próximo o modelo paramétrico estiver da curva do Kaplan-Meier, melhor. S(t) 0.0 0.2 0.4 0.6 0.8.0 KM diabetes KM não diabetes exponencial diabetes exponencial não diabetes weibull diabetes weibull não diabetes Análise de Resíduos São três tipos de resíduos específicos dos modelos paramétricos (além dos que serão apresentados par o Modelo de Cox), que avaliam efeito de observações sobre: conjunto de parâmetros da regressão > ldcase valores preditos (em unidades de DP) > ldresp forma > ldshape 0 0 20 30 40 meses As três curvas em cinza referem-se aos paciente sem diabetes e as três curvas pretas aos pacientes com diabetes. 27/228 28/228 Análise de Resíduos Vetor de Parâmetros Análise de Resíduos Valores Preditos Vetor de Parâmetros Valores Preditos res.ldcase 0.0 0. 0.2 0.3 49 82 82 res.ldresp 0.0 0. 0.2 0.3 0.4 0.5 0 9 49 82 0 50 00 50 200 0 50 00 50 200 Índice 29/228 Índice 30/228

Análise de Resíduos Parêmetro de Forma Análise de Resíduos Casos Parâmetro de Forma res.ldshape 0.0 0.2 0.4 0.6 0.8.0.2.4 0 9 49 82 > hiv[c(9,0,49,82,82),c(4,5,6,8,3)] tempo status sexo idade tratam 9 563 M 44 0 0 247 M 23 0 49 344 0 M 30 0 82 272 0 M 22 0 82 6 M 42 3 0 50 00 50 200 Índice 3/228 32/228 Reajustando o modelo Análise de Resíduos Retirando Casos Call: survreg(formula = Surv(tempo, status) ~ idade + sexo + tratam, data = hiv, dist = "weibull") Value Std. Error z p (Intercept) 6.06842 0.5674 0.695.07e-26 idade 0.0095 0.030 0.73 4.65e-0 sexom -0.23627 0.3277-0.72 4.7e-0 tratam.48608 0.2273 6.538 6.25e- Log(scale) 0.485 0.0862.647 9.97e-02 Scale=.5 Weibull distribution Loglik(model)= -742 Loglik(intercept only)= -770.3 Chisq= 56.64 on 3 degrees of freedom, p= 3.e-2 Number of Newton-Raphson Iterations: 5 n= 93 Call: survreg(formula = Surv(tempo, status) ~ idade + sexo + tratam, data = hiv, subset = -82, dist = "weibull") Value Std. Error z p (Intercept) 5.7996 0.5760 0.069 7.60e-24 idade 0.05 0.033.37 2.55e-0 sexom -0.2603 0.323-0.806 4.20e-0 tratam.5490 0.2266 6.836 8.6e-2 Log(scale) 0.28 0.0857.496.35e-0 Scale=.4 Weibull distribution Loglik(model)= -739.2 Loglik(intercept only)= -769.7 Chisq= 6.03 on 3 degrees of freedom, p= 3.5e-3 Number of Newton-Raphson Iterations: 5 n= 92 33/228 34/228

Outline Cap Introdução 2 3 Cap 3 Funções de Sobrevida 4 5 6 7 Cap 7 Análise de Resíduos Modelo de riscos proporcionais de Cox (semi-paramétrico) Introdução Riscos proporcionais Modelo de Cox Cox estratificado Seleção dos modelos Qualidade do ajuste Tempos de vida empatados 8 36/228 37/228 Introdução Riscos Proporcionais O interesse é modelar o efeito de covariáveis sobre o tempo de sobrevivência (hazard) O modelo de regressão mais amplamente utilizado para dados de sobrevivência Ou seja, as covariáveis têm um efeito multiplicativo na função de risco Usando processo de contagem modela-se situações mais complexas > Cox estendido (curso avançado). 38/228 Ajusta a função de risco λ(t), considerando um risco basal λ 0 (t) Inclui o vetor de covariáveis x, de forma que: λ(t x) = λ 0 (t)exp(x β +x 2 β 2 + +x p β p ) = λ 0 (t)exp(xβ) A razão entre os riscos de ocorrência do evento de dois indivíduos i e j, com covariáveis x k = (x k,x k2,,x kp ) e x j = (x l,x l2,,x lp ) é: λ k (t x k ) λ l (t x l ) = exp(x kβ) exp(x l β) Observe que esta razão de riscos NÃO varia ao longo do tempo > Modelo de Riscos Proporcionais 39/228

Modelo de Riscos Proporcionais Modelo de Cox O modelo RP também pode ser escrito em termos da função de risco acumulado ou da função de sobrevivência: Λ(t x) = Λ 0 (t)exp(xβ) S(t x) = [S 0 (t)] exp(xβ) O risco acumulado basal é ˆΛ 0 (t) = i:t i t N i (t) j R(t i ) exp(x j ˆβ) Partindo do pressuposto de proporcionalidade, é possível estimar os efeitos das covariáveis sem qualquer suposição a respeito da distribuição do tempo de sobrevivência, e por isso o modelo de Cox é dito semi-paramétrico. Não se assume qualquer distribuição estatística para a função de risco basal, λ 0 (t), apenas que as covariáveis agem multiplicativamente sobre o risco e esta é a parte paramétrica do modelo. A sobrevivência basal é dada por Ŝ 0 (t) = exp[ ˆΛ 0 (t)] 40/228 4/228 Modelo de Cox - Pressupostos Estimativa dos coeficientes As covariáveis agem multiplicativamente sobre o risco > parte paramétrica do modelo. A razão de riscos é constante ao longo de tempo > riscos proporcionais. Os tempos de ocorrência do evento são independentes. Como o tempo é contínuo, não há empates na ocorrência do evento. Para estimar os coeficientes da regressão paramétrica, a função de verossimilhança foi construída a partir da função de densidade de probabilidade calculada nos tempos de ocorrência do evento, multiplicada pela função de sobrevivência calculada nos tempos de censura. No Modelo de Cox o vetor de parâmetros β é estimado a partir de uma verossimilhança parcial. De forma semelhante ao Kaplan Meier, considera-se apenas, a cada tempo t, a informação dos indivíduos sob risco, estimando os efeitos das covariáveis no tempo de sobrevivência. 42/228 43/228

Verossimilhança parcial Verossimilhança parcial Considere m diferentes tempos até a ocorrência de um evento (sem empate), ordenados assim: t < t 2 <... < t m. A verossimilhança individual, L i, é a razão entre o risco λ i (t i ) do indivíduo i falhar em t i e a soma dos riscos de ocorrência de evento de todos os indivíduos em risco: λ i (t i ) L i = j R(t i ) λ j(t j ) = exp(x i β) j R(t i ) exp(x jβ) Sob o processo de contagem a verossimilhança individual é igual a exp(x i β) L i = t 0 Y j(t)exp(x j β) com Y j (t) igual a se o indivíduo j estiver em risco no tempo t e 0, caso contrário A função de Verossimilhança NÃO depende do risco basal 44/228 45/228 Verossimilhança Parcial Exemplo TMO A verossimilhança parcial L(β) = produto das L i L(β) = { n Y i (t)exp(x i β) j Y j(t)exp(x j β) i=t 0 } Ni (t) N i (t) = diferença entre a contagem de eventos até o instante t e a contagem no momento imediatamente anterior a t. Numerador depende apenas da informação dos indivíduos que experimentam o evento Denominador utiliza informações a respeito de todos os indivíduos que ainda não experimentaram o evento, incluindo aqueles que serão censurados mais tarde. Avaliar os fatores prognósticos associados ao tempo de transplante de medula óssea TMO até o óbito nos pacientes com leucemia mielóide crônica tratados no INCA. covariáveis: sexo, idade, fase da doença no momento do transplante (fase), a ocorrência ou não de doença enxerto contra hospedeiro aguda (deag) ou crônica (decr). 46/228 47/228

Proporcionalidade Curvas de KM para avaliar o pressuposto de proporcionalidade S(t) S(t) 0.0 0.2 0.4 0.6 0.8.0 0.0 0.2 0.4 0.6 0.8.0 SEXO 0 200 400 600 800 000 Tempo DEAG Masc Fem 0 200 400 600 800 000 Tempo sem com S(t) S(t) 0.0 0.2 0.4 0.6 0.8.0 0.0 0.2 0.4 0.6 0.8.0 DECR 0 200 400 600 800 000 Tempo FASE sem com 0 200 400 600 800 000 Tempo 2 3 No R > tmo <- read.table("tmoclas.dat", header=t, sep=",") > tmo$sexo<-factor(tmo$sexo) > m <- coxph(surv(os,status)~idade+sexo,data=tmo,x=true) > summary(m) [...] coef exp(coef) se(coef) z Pr(> z ) idade -0.0267 0.97857 0.0399 -.548 0.22 sexo2-0.37649 0.68626 0.3220 -.72 0.24 exp(coef) exp(-coef) lower.95 upper.95 idade 0.9786.022 0.952.006 sexo2 0.6863.457 0.3657.288 Rsquare= 0.03 (max possible= 0.986 ) Likelihood ratio test= 2.92 on 2 df, p=0.2320 Wald test = 2.85 on 2 df, p=0.2408 Score (logrank) test = 2.85 on 2 df, p=0.2406 48/228 49/228 Cox estratificado Selecionando modelos Teste de Wald O risco basal λ 0 (t) não é o mesmo para todos os indivíduos do estudo. λ 0A (t) λ 0B (t) λ 0C (t), definindo diferentes estratos É usado quando alguma covariável não atende à proporcionalidade A variável para a qual se estratifica NÃO terá o efeito estimado. H 0 : β j = 0 z = β j /ep( β j ) Teste da Razão de Verossimilhança H 0 : Mod maior = Mod menor RV = 2(l maior l menor ) RV χ 2 l k 50/228 5/228

Selecionando Modelos Comparando modelos com função desvio Para modelos aninhados! Não se pode comparar modelos estratificados com não estratificados. A RV é assintoticamente semelhante à estatística de Wald quando o número de observações é grande. Para número de observações pequenos, a análise da função desvio é mais robusta. Se existirem valores ausentes, modelos perdem a comparabilidade > para retirar casos com variáveis com dados missing usar a função complete.cases() > anova(mod,mod2,mod3,mod4) Analysis of Deviance Table Cox model: response is Surv(os, status) Model : ~ idade + sexo Model 2: ~ idade + sexo + fase Model 3: ~ idade + sexo + fase + deag Model 4: ~ idade + sexo + fase + deag + decr loglik Chisq Df P(> Chi ) -20.94 2-94.70 4.486 2 0.000752 3-88.5 3.09 0.0002939 4-83.07 0.52 0.00443 52/228 53/228 Qualidade do Ajuste Medida Global de Ajuste R 2 O modelo se ajusta bem aos dados? Qual o poder explicativo de um modelo? Existem poucas estatísticas de ajuste: Função Desvio (Deviance) R 2 R 2 Probabilidade de concordância Gráfico de Índice Prognóstico R 2 poder explicativo das covariáveis no tempo de ocorrência do evento em estudo. R 2 LR = {L(0)/L(ˆβ)} 2/n = exp(2{l(0) l(ˆβ)}/n) Valor mínimo possível de R 2 é zero quando L(0) = L(ˆβ) Valor máximo não é (ou 00%), mas a razão entre as verossimilhanças do modelo saturado e do modelo nulo (L(0)). 54/228 55/228

Medida Global de Ajuste R 2 Probabilidade de Concordância Modelo l modelo R 2 % Variabilidade Explicada* Nulo -203,40 0,000 0,0% Saturado -,39 0,986 00,0% m: idade+sexo -20,940 0,030 3,0% m2: m+fase -94,70 0,66 6,8% m3: m2+deag -88,5 0,272 27,6% m4: m3+decr -83,07 0,345 35,0% Medida global de ajuste quando o objetivo é obter um modelo preditivo Avalia o poder discriminatório e a acurácia preditiva do modelo Similar a interpretação da Área sob a curva (AUC) na curva ROC de um modelo logístico R 2 modelo /R2 saturado 56/228 57/228 Probabilidade de Concordância No R > summary(m4) Concordância(c) Poder discriminatório 0.3 < c < 0.4 Baixo c = 0.5 ao acaso 0.6 c < 0.7 Comum 0.7 c < 0.8 Muito bom 0.8 c < 0.9 Excelente Call: coxph(formula=surv(os,status)~idade+sexo+fase+deag+decr,data=tmo,x=t) n=96, number of events=49 [...] Concordance=0.768 (se=0.044) Rsquare= 0.345 (max possible= 0.986 ) Likelihood ratio test= 40.96 on 6 df, p=3.365e-07 Wald test = 38.46 on 6 df, p=9.3e-07 Score (logrank) test = 47.62 on 6 df, p=.405e-08 58/228 59/228

Índice Prognóstico IP Gráfico de sobrevivência estratificado por índice de prognóstico (IP) IP é o preditor linear do modelo de Cox, xβ, calculado para cada indivíduo usando as covariáveis observadas e as estimativas dos coeficientes de regressão do modelo ajustado. Os indivíduos são estratificados em grupos de tamanhos aproximadamente iguais (grupos de alto, médio e baixo IP) Os valores médios de cada uma das covariáveis dentro de cada grupo são utilizados para obtenção de curvas de sobrevivência sob o modelo ajustado. Espera-se, se o modelo for razoável, que o gráfico das curvas ajustadas pelo modelo em cada estrato sejam próximas das estimadas por Kaplan-Meier. 60/228 Índice Prognóstico IP Assumindo modelo mod4 Indivíduo : sexo masculino (sexo = 0) com 56 anos (idade = 56), na fase intermediária (fase2 = e fase3 = 0), com manifestação de doença do enxerto aguda (deag=, decr=0) β idade 56 = 0,00509 56 = 0,28064 β sexo 0 = 0,27984 0 = 0 β fase2 = 0,593973 = 0,593973 β fase3 0 = 0,9384 0= 0 β deag =,9038 =,9038 β decr 0 =,06750 0 = 0 Total =, 50329 6/228 Índice Prognóstico IP Assumindo modelo mod4 Indivíduo 2: sexo feminino (sexo = ) com 20 anos (idade = 20), na fase avançada (fase2 = 0 e fase3 = ) com manifestação de doença do enxerto aguda (deag=, decr=0) β idade 20 = 0,00509 20 = 0,0038 β sexo = 0,27984 = 0,27984 β fase2 0 = 0,593973 0= 0 β fase3 = 0,9384 = 0,9384 β deag =,9038 =,9038 β decr 0 =,06750 0 = 0 Total =, 756428 Índice Prognóstico IP Gráfico de sobrevivência estratificado por índice de prognóstico. s s 0.0 0.2 0.4 0.6 0.8.0 0.0 0.2 0.4 0.6 0.8.0 M 0 00 200 300 400 500 600 Tempo M3 0 00 200 300 400 500 600 Tempo s s 0.0 0.2 0.4 0.6 0.8.0 0.0 0.2 0.4 0.6 0.8.0 M2 0 00 200 300 400 500 600 Tempo M4 0 00 200 300 400 500 600 Tempo Linha sólida representa o modelo ajustado e linha pontilhada a estimativa de Kaplan-Meier. 62/228 63/228

Tempos Empatados Resumo O modelo de Cox pode ser escrito como λ(t x) = λ 0 (t)exp(xβ), sendo que: Tempo é contínuo Na prática > DISCRETO Como a estimação só é feita quando ocorre evento, empate na censura não é problema Se censura e evento empatados > considera-se que o evento ocorreu primeiro Empate de eventos > estimação por Efron, Breslow, exata não se assume distribuição de probabilidade para o tempo T de sobrevivência; os coeficientes β são estimados por máxima verossimilhança parcial; modelos estratificados permitem a variação do risco basal λ 0 (t) entre os estratos; a avaliação da qualidade de ajuste dos modelos baseia-se na análise da função desvio, no R 2 e em análises gráficas (gráfico do índice prognóstico); modelos aninhados são selecionados através do teste da razão de verossimilhanças. 64/228 65/228 Cap 7 Análise de Resíduos Outline Cap 7 Análise de Resíduos Análise de Resíduos Cap Introdução 2 3 Cap 3 Funções de Sobrevida 4 5 6 7 Cap 7 Análise de Resíduos Premissas e ajuste de modelo quanto à: proporcionalidade do risco; observações mal ajustadas pelo modelo (pontos aberrantes e influentes); forma funcional das covariáveis. Tipos de resíduos: Schoenfeld; martingale; deviance; escore. 8 67/228 68/228