A Análise de Sobrevivência é um ramo da Estatística que estuda o tempo. de vida, ou seja, o tempo que decorre entre um instante inicial bem definido

Tamanho: px
Começar a partir da página:

Download "A Análise de Sobrevivência é um ramo da Estatística que estuda o tempo. de vida, ou seja, o tempo que decorre entre um instante inicial bem definido"

Transcrição

1

2 Resumo A Análise de Sobrevivência é um ramo da Estatística que estuda o tempo de vida, ou seja, o tempo que decorre entre um instante inicial bem definido até um acontecimento de interesse. A necessidade de desenvolver uma nova área e novas metodologias estatísticas tem a ver principalmente com duas motivações. A primeira é que raramente os dados de sobrevivência se distribuem simetricamente, aliás, na maioria das vezes, são assimétricos positivos; por isso, não é razoável admitir que sejam normalmente distribuídos. Um outro problema tem a ver com a possível presença de dados censurados, ou seja, quando para alguns indivíduos não se pode observar a realização do acontecimento de interesse durante o estudo; isto pode acontecer, por exemplo, quando o indivíduo ainda estiver vivo no final do estudo ou quando for perdido para o follow up. Neste caso apenas se dispõe de uma informação parcial sobre o tempo de vida desses indivíduos. O objetivo principal desta tese é descrever os principais métodos não paramétricos que se encontram nesta área da estatística, ou seja, técnicas que foram desenvolvidas sem fazer nenhuma hipótese sobre a distribuição do tempo de vida. No primeiro capítulo desta dissertação apresentam-se os conceitos básicos relacionados com o tempo de vida: função de sobrevivência, função de risco, tipos de i

3 censura e de truncatura. No segundo e no terceiro capítulos introduzem-se os principais métodos não paramétricos de estimação, assim como os testes de hipóteses para a comparação de curvas de sobrevivência. Nos capítulos 4 e 5 são abordados dois problemas que se encontram muito frequentemente: a presença de riscos competitivos e funções de risco que se cruzam. Finalmente, no último capítulo é apresentada uma análise de alguns conjuntos de dados, que permitem ilustrar diferentes situações que podem surgir no âmbito da análise de sobrevivência, usando o software estatístico R e SPSS. Palavras-chave: Análise de sobrevivência, métodos não paramétricos, riscos competitivos. ii

4 Abstract Survival Analysis is an area of Statistics which studies survival time, that is, the time from a well-defined initial instant to an event of interest. The need to develop a new area and new statistical methodologies is mainly related to two reasons. Firstly, survival data are rarely symmetrically distributed; in fact, most of the times, data are asymmetrically positive and, for this reason, it is not appropriate to admit that they are normally distributed. Secondly, there is the possibility of having censored data, when the event of interest cannot be observed for some individuals during the study. For example, when the individual is still alive at the end of the study or he is lost for the follow up. In this case, we have only a partial information about the survival time of these individuals. The main objective of this thesis is to describe the most important non parametric methods in this area of Statistics, that is, techniques which were developed without making any hypothesis about the distribution of the survival time. The first chapter shows the basic concepts related to survival time: survival function, hazard function, types of censoring and truncation. In the second and third chapters, non parametric estimating methods are described, and also hypothesis tests to compare survival curves. Chapters 4 and 5 deal with two very common iii

5 problems: competing risks and crossing hazard functions. Finally, the last chapter presents an analysis of some data sets using the statistical software R and SPPS, in order to illustrate different situations arising in the Survival Analysis field. Keywords: Survival analysis, non parametric methods, competing risks. iv

6 Conteúdo 1 Conceitos e definições básicas Função de sobrevivência Função de risco Relações entre as funções Vida residual média Quantis do tempo de vida Censura Censura à direita Censura à esquerda Censura intervalar Censura não informativa Truncatura Truncatura à esquerda Truncatura à direita Estimação não paramétrica pontual e intervalar Estimador de Kaplan-Meier Estimativa da variância v

7 2.2 Estimador de Nelson-Aalen Estimativa do valor médio e dos quantis do tempo de vida Intervalos de confiança para a função de sobrevivência Intervalos de confiança para o valor médio e os quantis Testes de hipóteses Teste log-rank Teste de Gehan O teste log-rank e a proporcionalidade dos riscos Teste de Tarone-Ware Outros testes Testes estratificados Teste log-rank para tendência Comparação de duas funções de risco que se cruzam Introdução Testes de Renyi Teste de Cramer-Von Mises para dados censurados Teste t para dados censurados Outros métodos utilizados Riscos Competitivos Introdução Definições básicas Estimação da função de incidência cumulativa Estimação intervalar vi

8 5.5 Testes de hipóteses Teste de Gray Teste de Pepe e Mori Exemplos de aplicação Prognóstico para mulheres com cancro da mama Análise de sobrevivência para pacientes afetados por cancro gástrico Tempo até à primeira infeção para pacientes com insuficiência renal Bibliografia 73 A Gráficos e tabelas 76 vii

9 Capítulo 1 Conceitos e definições básicas O objetivo principal da análise de sobrevivência é analisar e modelar tempos até à realização de um acontecimento de interesse, como, por exemplo, tempos até à falha de uma componente elétrica ou tempos até à recaída de uma dada doença. Nalguns casos pode acontecer que o tempo de vida não seja observado pelo investigador, porque um indivíduo ainda pode estar vivo depois do limite de observação ou porque saiu prematuramente do estudo. Neste capítulo vão ser apresentadas, além das principais noções indispensáveis para desenvolver a teoria, também as diferentes formas de censura e truncatura que podem surgir quando, por várias razões, não se dispõe de uma informação completa sobre a duração da vida dos indivíduos. 1.1 Função de sobrevivência Seja T uma variável aleatória absolutamente contínua e não negativa, cujos valores representam os tempos de vida dos indivíduos que pertencem a uma dada população homogénea. A função de sobrevivência é definida como S(t) = P(T > t) = 1 F(t), t 0 (1.1) 1

10 onde F é a função de distribuição de T. S(t) é portanto a probabilidade do tempo de vida ser maior que t. Trata-se de uma função monótona não crescente tal que S(0) = 1 e lim S(t) = 0. t Função de risco A função de risco representa o risco de morte num dado instante t e pode ser considerada como a probabilidade aproximada de um indivíduo morrer em t condicionada à sobrevivência até esse instante. De uma maneira mais formal tem-se P(t T < t+dt T t) h(t) = lim. (1.2) dt 0 dt Uma função de risco satisfaz as seguintes propriedades h(t) 0, + 0 h(t)dt = +. Ao contrário do que se passa para a função de sobrevivência, existem vários comportamentos possíveis para a função de risco. De facto, a função de risco pode ser ˆ Crescente: corresponde a uma população sujeita a um envelhecimento gradual, ou seja, quando a probabilidade de morrer num determinado instante, para os indivíduos que sobreviveram até esse instante, aumenta com o tempo. 2

11 ˆ Decrescente: trata-se de uma situação menos frequente e acontece quando há uma elevada probabilidade inicial de morte e o risco diminui com o tempo. Isto acontece por exemplo em pacientes sujeitos a transplante. ˆ Constante: quando o tempo de vida segue uma distribuição exponencial. ˆ Bathtub-shaped: modelo adequado para populações seguidas desde onascimentoatéamortereais, ondeosindivíduostêmumaltoriscode morte nos primeiros instantes de vida para depois decrescer, estabilizarse e logo continuar a aumentar devido ao normal processo de envelhecimento. ˆ Hump-shaped: quando o risco de morte tende a aumentar inicialmente e a diminuir depois de um determinado instante. Pode-se encontrar esta situação nos pacientes sujeitos a cirurgia, onde existe um elevado risco de morte que é crescente nos primeiros tempos depois da operação, devido a hemorragias ou infeções, diminuindo com o passar do tempo. Definimos também a função de risco cumulativa dada por H(t) = t 0 h(u)du (1.3) 3

12 1.3 Relações entre as funções A partir de (1.1) e (1.2) podem-se facilmente obter algumas relações interessantes entre a função de risco e a função de sobrevivência. Da definição de probabilidade condicional tem-se que P(t T < t+dt T t) = P(t T < t+dt) P(T t) = F(t+dt) F(t). S(t) A função de risco pode então ser escrita como h(t) = lim dt 0 { F(t+dt) F(t) dt } 1 S(t). { } Mas lim F(t+dt) F(t) dt 0 dt é por definição a derivada da função F(t) em ordem a t, que é a correspondente função densidade de probabilidade f(t). Por isso temos h(t) = f(t) S(t). (1.4) Além disso, segue-se que h(t) = d {logs(t)}. (1.5) dt Integrando entre 0 e t ambos os membros de (1.5) tem-se t 0 h(u)du = logs(t). Logo, ( S(t) = exp t 0 ) h(u)du. (1.6) Finalmente, usando a (1.3) obtém-se S(t) = exp{ H(t)}. (1.7) 4

13 1.4 Vida residual média A vida residual média é uma função de grande interesse na análise de sobrevivência e representa, para indivíduos de idade t, o tempo médio de vida que lhes resta viver. É portanto o valor médio do tempo de vida residual. A vida residual média é definida da seguinte forma mrl(t) = E(T t T > t). Tem-se obviamente que mrl(0) = µ = E(T). Sendo T uma variável aleatória não negativa e absolutamente contínua a função vida residual média pode ser escrita como mrl(t) = t (u t)f(u)du. S(t) Integrando por partes no numerador e tendo em conta que S( ) = 0 obtémse mrl(t) = t S(u)du S(t) Desta última relação e do facto que S(0) = 1 segue que µ = E(T) = mrl(0) = 0 S(u)du. (1.8) Da mesma forma podemos relacionar a variância de T com a função de sobrevivência. Tendo em conta que E(T 2 ) = 0 u 2 f(u)du tem-se var(t) = 2 0 [ 2 ts(t)dt S(u)du]. 0 5

14 1.5 Quantis do tempo de vida Define-se quantil de probabilidade p da distribuição de T como sendo o valor t p tal que S(t p ) = 1 p. A mediana do tempo de vida é então o quantil de probabilidade 0.5, ou seja, o valor t 0.5 tal que S(t 0.5 ) = 0.5 A mediana é a medida mais adequada para carecterizar a localização da distribuição do tempo de vida, visto esta ser geralmente assimétrica positiva. 1.6 Censura Como já foi mencionado na introdução, a censura é um dos aspetos mais importantes da análise de sobrevivência. Há presença de censura quando não é observada a realização do acontecimento de interesse durante o período de observação. Em seguida, vamos apresentar os tipos de censura mais usuais, assim como vários exemplos Censura à direita Neste caso a única informação de que se dispõe é que o tempo de vida do indivíduo excede um determinado valor. Apresentamos três tipos de censura à direita: ˆ Censura de tipo I: o acontecimento é observado só se ocorrer antes de um instante pré-determinado t 0 (limite de observação). Desta 6

15 maneira, a cada indivíduo em estudo é associado um par de variáveis (X,δ), onde δ toma o valor 0 se o tempo de vida T for maior que t 0, ou 1 se o acontecimento de interesse for observado antes de t 0. Assim sendo X = min{t,t 0 } e o número de mortes observadas é aleatório. Pode acontecer também que os indivíduos sejam sujeitos a períodos de observação t 1,t 2...,t n diferentes; neste caso fala-se de censura múltipla. ˆ Censura de tipo II: este tipo de censura surge quando o estudo decorre até à morte dos primeiros r indivíduos, com r < n, sendo os outros n r indivíduos tratados como censurados. Neste caso todos os indivíduos entram no estudo no mesmo instante. Ao contrário do que acontece na censura de tipo I, aqui o tempo de duração do estudo é aleatório. Experiências que envolvem este tipo de censura são utilizadas, por exemplo, para testar a vida de equipamentos eletrónicos onde, por vezes, é preciso poupar tempo e dinheiro. ˆ Censura aleatória: os indivíduos entram no estudo de forma aleatória; em ensaios clínicos, por exemplo, de acordo com a data de diagnóstico. Assim sendo, se o estudo terminar numa data pré-fixada, o tempo decorrido desde que o indivíduo entra em estudo até o final deste é aleatório Censura à esquerda O tempo de vida associado a um indivíduo da amostra é considerado censurado à esquerda se for menor que o correspondente tempo registado no 7

16 estudo. Isto quer dizer que o acontecimento de interesse já ocorreu antes da última observação registada. Assim como no caso anterior, a cada indivíduo é associado um par de variáveis (X,ε), onde X é igual ao tempo de vida T se este for observado e ε indica quando isto acontece (ε = 1) ou não (ε = 0) Censura intervalar Um tipo de censura mais geral surge quando o acontecimento de interesse ocorre entre dois instantes observados. Uma censura deste tipo manifesta-se, por exemplo, em ensaios clínicos ou estudos longitudinais onde os pacientes são sujeitos a controlos periódicos e a única informação que se tem é que o tempo de vida cai num certo intervalo de tempo Censura não informativa Este tipo de censura manifesta-se quando existe independência entre o mecanismo de morte e de censura. Em outras palavras, os indivíduos que são censurados no instante t têm que ser representativos de todos os indivíduos que sobvreviveram até esse instante. Por exemplo, os indivíduos que são perdidos para o follow up têm que ser censurados por causas relacionadas com efeitos secundários do tratamento e não por terem um risco de morte muito elevado ou muito baixo. De um ponto de vista mais estatístico podese dizer que existe censura não informativa quando a distribuição do tempo de censura não depende do parâmetro θ que indexa a distribuição do tempo de vida. A hipótese de censura não informativa revela-se crucial na descrição dos principais métodos da Análise de Sobrevivência. 8

17 1.7 Truncatura Fala-se de truncatura quando apenas são estudados os indivíduos cujo tempo de vida está contido num certo intervalo (Y L,Y R ). Se o acontecimento de interesse não cair dentro deste intervalo, o indivíduo não é considerado no estudo. Ao contrário da censura, onde se dispõe de dados parciais, neste caso, o investigador não recebe nenhuma informação sobre esse indivíduo e nem se apercebe da sua existência Truncatura à esquerda Quando Y R = + fala-se de truncatura à esquerda e só são incluídos no estudo os indivíduos cujo tempo de vida excede o tempo de truncatura Y L. Na área biomédica, Y L pode coincidir, por exemplo, com a ocorrência de um acontecimento intermédio tal como a recaída de uma dada doença. Todos os indivíduos que morrem antes da recaída são automaticamente excluídos sem deixar nenhuma informação. O instante de truncatura Y L é, por vezes, designado por tempo de entrada tardia, devido ao facto de que os indivíduos são seguidos a partir deste instante posterior ao instante inicial natural até à sua morte ou censura. A truncatura à esquerda é o tipo de truncatura mais difuso nos estudos de análise de sobrevivência Truncatura à direita Damesmaforma,quandoY L = 0 fala-sedetruncaturaàdireitaeconsideramse apenas os indivíduos cujo tempo de vida é menor ou igual a um dado instante conhecido Y R. Truncatura deste tipo encontra-se, por exemplo, 9

18 quando se quer estudar o tempo até à ocorrência de certa doença e os dados provêm de um registo de casos confirmados da doença (registo oncológico, registo de doentes com SIDA). 10

19 Capítulo 2 Estimação não paramétrica pontual e intervalar Um dos primeiros passos para analisar conjuntos de dados de sobrevivência consiste em resumir numericamente e representar graficamente os tempos de vida dos indivíduos que pertencem a uma dada população. Neste capítulo vão ser apresentadas as principais metodologias não paramétricas para obter estimativas da função de sobrevivência, da função de risco e de outras quantidades com elas relacionadas. 2.1 Estimador de Kaplan-Meier Vamos supor inicialmente que dispomos de uma única amostra de tempos de vida onde nenhuma das observações é censurada. Neste caso a função de sobrevivência S(t) pode ser estimada através da função de sobrevivência empírica, isto é Ŝ(t) = número de indivíduos com tempo de vida t. (2.1) número de indivíduos na amostra Esta função é igual a 1 para valores de t inferiores ao primeiro instante de morte, e igual a 0 depois do último. Trata-se de uma função em escada e é 11

20 constante entre dois instantes de morte consecutivos. Este estimador não pode ser utilizado quando a amostra contém dados censurados, porque um tempo censurado antes de um instante t 0 não dá informação para estimar a função de sobrevivência em t 0. Vamos então apresentar o método de Kaplan-Meier (1958) para estimar a função de sobrevivência na presença de dados censurados à direita. Pode-se resumir nos passos seguintes 1. Consideramos uma amostra de dimensão n e sejam t (1),t (2),...,t (r) os instantes de morte distintos e ordenados com r n. Seja t (0) o instante inicial do estudo. Vamos considerar os seguintes intervalos [ ) t(j),t (j+1) com j = 1,...,r e t(r+1) = + 2. Seja n j o número de indivíduos que estão vivos imediatamente antes de t (j) e seja d j o número de mortes ocorridas em t (j). 3. O intervalo de tempo [ t (j),t (j+1) ) inclui um único instante de morte. Por isso, a probabilidade de um indivíduo morrer nesse intervalo é estimada por d j n j. A correspondente probabilidade de sobreviver para além desse intervalo é estimada por n j d j n j. 4. Supondo que as mortes ocorrem independentemente umas das outras, a função de sobrevivência estimada num ponto t do intervalo [ t(k),t (k+1) ) é a probabilidade estimada de sobreviver para além do instante t (k), ou seja, a probabilidade de sobreviver para além do intervalo [ t (k),t (k+1) ) e de todos os intervalos precedentes. A estimativa 12

21 de Kaplan-Meier da função de sobrevivência é então dada por Ŝ(t) = k ( ) nj d j n j=1 j (2.2) com t (k) t < t (k+1), k = 1,2,...,r e Ŝ(t) = 1 para t < t (1). Podemosnotarqueseamaiorobservaçãoτ forcensurada,ŝ(t)nãoédefinida para t > τ; neste caso Ŝ(t) = Ŝ(t (r)) para t (r) t τ. Caso contrário, se o maior tempo registado for um instante de morte (t (r) ) tem-se que n r = d r e Ŝ(t) = 0 para t t (r). O gráfico da estimativa de Kaplan-Meier da função de sobrevivência é uma função em escada, decrescente, onde as probabilidades estimadas são constantes entre instantes de morte consecutivos. Se a amostra não tivesse tempos de vida censurados, então na relação (2.2) n j d j = n j+1 para j = 1,2,...,k e a mesma função se poderia escrever Isto é Ŝ(t) = n 2 n 1 n3 n 2... nk+1 n k. Ŝ(t) = n k+1 n 1 para k = 1,2,...,r 1 com Ŝ(t) = 1 para t < t (1) e Ŝ(t) = 0 para t t (r). Note-se que n 1 é o número de indivíduos em risco imediatamente antes do primeiro instante de morte (ou seja, o número total de indivíduos presentes na amostra), e n k+1 é o número de indivíduos com tempos de sobrevivência maiores ou iguais a t (k+1). Tem-se então que, na ausência de censura, Ŝ(t) é simplesmente a função de sobrevivência empírica definida em (2.1). A estimativa de Kaplan-Meier é então uma generalização da função de sobre- 13

22 vivência empírica para dados censurados. A partir da relação (1.7) temos também que H(t) = logs(t). (2.3) A função de risco cumulativa pode então ser estimada por Ĥ(t) = k ( ) nj d j log j=1 para t (k) t < t (k+1), k = 1,2,...,r, onde t (1),t (2),...,t (r) são os instantes de morte ordenados Estimativa da variância n j Vamos agora calcular uma estimativa da variância do estimador de Kaplan- Meier, elemento essencial para avaliar a precisão do estimador e instrumento útil para a construção de intervalos de confiança. Consideramos o estimador de Kaplan-Meier da função de sobrevivência definido em (2.2). Então tem-se k ( logŝ(t) = nj d j log j=1 n j ), e a variância do logaritmo de Ŝ(t) é dada por [logŝ(t) ] var = k j=1 [ ( nj d j var log n j )] (2.4) SejaS j avariável aleatóriaque representa onúmero de indivíduos quesobrevivem para além do intervalo [ ) t (j),t (j+1). Podemos supor que esta variável segue uma distribuição binomial de parâmetros n j e p j onde p j é a verdadeira probabilidade de sobreviver para além desse intervalo. O número 14

23 observado de indivíduos que sobrevivem para além de [ ) t (j),t (j+1) é dado por n j d j. Tem-se E(S j ) = n j p j e var(s j ) = n j p j (1 p j ). Sendo ˆp j = S j n j obtém-se que E(ˆp j ) = p j e var(ˆp j ) = n jp j (1 p j ) n 2 j = p j(1 p j ) n j. A variância de ˆp j pode então ser estimada por com p j = n j d j n j. var(ˆp ˆ j ) = p j (1 p j ) (2.5) n j Com o objetivo de obter a variância de log ˆp j vamos usar um método, designado por método delta, que nos permite aproximar a variância de uma função de uma variável aleatória, isto é { } dg(x) 2 var{g(x)} var(x). (2.6) dx X=E(X) Utilizando esta última relação obtém-se var{log ˆp j } 1 p 2 j var(ˆp j ) e recorrendo a (2.5) temos var{log ˆ ˆp j } (1 p j ) n j p = j d j n j (n j d j ). Assim sendo, considerando a relação (2.4) podemos escrever {logŝ(t) } var ˆ 15 k j=1 d j n j (n j d j ).

24 Aplicando mais uma vez (2.6) tem-se {logŝ(t) } var 1 } {Ŝ(t) [S(t)] 2 var. Chegamos assim finalmente à fórmula de Greenwood dada por } k d j var ˆ {Ŝ(t) [Ŝ(t)]2 n j (n j d j ) j=1 (2.7) para t (k) t < t (k+1). 2.2 Estimador de Nelson-Aalen Uma maneira alternativa para estimar a função de risco cumulativa consiste em utilizar o estimador de Nelson-Aalen, dado por H(t) = k j=1 d j n j (2.8) para t (k) t < t (k+1), k = 1,2,...,r. Trata-se da soma das probabilidades estimadas de morte desde o primeiro até o k-ésimo intervalo considerado. Consequentemente a função de sobrevivência pode ser estimada, com base em (1.7), da seguinte forma S(t) = k j=1 ( exp d ) j. (2.9) n j S(t) é designado por estimador de Breslow da função de sobrevivência. Pode-se notar que a estimativa de Kaplan-Meier é uma aproximação de 1ª ordem desta. Para mostrar isso consideramos o desenvolvimento em série de Taylor da função exponencial e x = 1 x+ x2 2! x3 3! +..., 16

25 que é aproximadamente igual a 1 x quando x for pequeno. Tem-se então que ( exp d ) j 1 d j = n j d j n j n j n j enquanto d j for pequeno relativamente a n j. Assim sendo o estimador de Kaplan-Meier em (2.2) é aproximado pelo estimador de Nelson-Aalen dado pela relação (2.9). Sendo e x 1 x para todos os valores x, a estimativa de Nelson-Aalen da função de sobrevivência será sempre maior que a correspondente estimativa de Kaplan-Meier para todos os instantes considerados; contudo, as duas estimativas são muito próximas, sobretudo para tempos relativamente pequenos, ou seja, enquanto há muitos indivíduos em risco. 2.3 Estimativa do valor médio e dos quantis do tempo de vida Uma estimativa para o tempo médio de vida, definido em (1.8), pode-se facilmente calcular através do estimador de Kaplan-Meier da função de sobrevivência. Corresponde a calcular a área abaixo do gráfico deste estimador, fazendo ˆµ = 0 Ŝ(t)dt. Sendo t (1),t (2),...,t (r) os instantes de morte, tem-se ˆµ r = r Ŝ(t (i 1) ) ( ) t (i) t (i 1), (2.10) i=1 onde Ŝ(t (0)) = 1 e t (0) = 0. Esta estimativa é apropriada só quando a maior observação corresponde a um tempo de vida, sendo o estimador de Kaplan- Meier, caso contrário, definido até à maior observação censurada. De uma 17

26 forma geral pode-se escrever ˆµ τ = ˆµ r +(1 δ τ )Ŝ(t (r))(τ t (r) ), (2.11) onde τ é a maior observação da amostra, δ τ = 1 quando τ corresponde a um tempo de vida (e neste caso τ = t (r) e ˆµ τ = ˆµ r ) e δ τ = 0 quando τ é uma observação censurada. O estimador de Kaplan-Meier pode ser utilizado também para calcular estimativas dos quantis da distribuição do tempo de vida. De uma maneira geral tem-se ˆt p = min {t (i) : Ŝ( ) } t (i) 1 p. (2.12) No caso particular em que a função de sobrevivência estimada é exatamente igual a 1 p para um certo intervalo [ t (i),t (i+1) ), Collett [2] sugere estimar o correspondente quantil pelo ponto médio desse intervalo, isto é ˆt p = t (i) +t (i+1). 2 Quando p = 0.5 obtemos a estimativa da mediana do tempo de vida. 2.4 Intervalos de confiança para a função de sobrevivência Nesta secção vamos usar os estimadores já introduzidos anteriormente para calcular intervalos de confiança da função de sobrevivência. Uma vez fixado um nível de confiança 1 α, espera-se que o verdadeiro valor da função de sobrevivência, num instante pré-determinado t 0, caia nesse intervalo. O intervalo de confiança mais utilizado no software estatístico para a função 18

27 de sobrevivência num instante t 0 é dado por ( Ŝ(t 0 ) z 1 α 2 } var{ŝ(t0 ˆ ), Ŝ(t 0 )+z 1 α 2 var{ŝ(t0 ˆ )} ), onde z 1 α é o quantil de probabilidade 1 α 2 2 da distribuição normal padrão } e var{ŝ(t0 ˆ ) é a estimativa da variância do estimador de Kaplan-Meier no ponto t 0 dada pela fórmula de Greenwood (2.7). Podem ser construídos intervalos de confiança com uma maior precisão através de transformações adequadas de Ŝ(t 0). Os limites de confiança assim obtidos podem ser depois re-transformados para obter o intervalo para S(t 0 ). Uma primeira possibilidade é considerar uma log-transformação da função de risco cumulativa, ou seja, ˆT(t0 ) = log{ logŝ(t 0)}. A variância aproximada deste valor transformado de Ŝ(t 0) pode ser calculada utilizando a relação (2.6). Como já vimos anteriormente {logŝ(t) } var ˆ Usando a relação (2.6) tem-se var[log( X)] e com X = logŝ(t 0) tem-se ) var(ˆt(t0 ˆ ) k j=1 d j n j (n j d j ). ( ) 1 X 2 var(x), X=E(X) 1 { logŝ(t 0) } 2 k j=1 d j n j (n j d j ). Denotando com (T l,t u ) e (S l,s u ) os intervalos de confiança para T(t 0 ) e S(t 0 ) respetivamente, obtém-se T u = ˆT(t 0 )+z 1 α 2 19 ) var(ˆt(t0 ˆ )

28 ( )) log( log(s u )) = log log(ŝ(t0 ) +z 1 α 2 ( ) log(s u ) = log(ŝ(t0 ) exp z 1 α 2 ) (z S u = Ŝ(t 0) exp 1 α2 var(ˆt(t ˆ 0 )). var(ˆt(t0 ˆ ) var(ˆt(t0 ˆ ) ) ) ) Da mesma forma pode-se calcular o limite inferior dado por S l = Ŝ(t 0) ( )) 1 exp (z 1 α2 var(ˆt(t ˆ 0 )) e o intervalo que assim se obtém é dado por (Ŝ(t0 ) 1/θ, Ŝ(t 0 ) θ) ( onde θ = exp z 1 α var(ˆt(t0 ˆ )) ). Note-sequeesteintervalo,aocontrário 2 do anterior, não é simétrico relativamente à estimativa da função de sobrevivência no ponto t 0. O último intervalo que vamos considerar obtém-se através de uma transformação da função de sobrevivência mais complicada que prevê o uso da raiz quadrada do arco seno, isto é sin 2 max 0,arcsin(Ŝ(t0 ) 1/2) 0.5 z 1 α 2 sin 2 min π (Ŝ(t0 2,arcsin ) 1/2) +0.5 z 1 α 2 } var{ŝ(t0 ˆ ) Ŝ(t 0 ) } var{ŝ(t0 ˆ ) Ŝ(t 0 ) ( ) 1/2 Ŝ(t0 ) 1 Ŝ(t 0), ( ) 1/2 Ŝ(t0 ) 1 Ŝ(t 0). Os intervalos que temos considerados até agora só são válidos para valores fixados de t. Nalguns casos pode ser interessante calcular bandas de 20

29 confiança que possam garantir, com um dado nível de confiança, que a função de sobrevivência caia dentro delas para todos os valores t pertencentes a um dado intervalo. Por outras palavras, queremos encontrar duas funções aleatórias L(t) e U(t) tais que P[L(t) S(t) U(t) para qualquer t : t L t t U ] = 1 α. Chama-se banda de confiança para S(t) de nível 1 α ao dito intervalo [L(t),U(t)]. Vamos agora apresentar um método para construir estas bandas. Este método foi proposto por Nair [12] e permite calcular bandas de confiança que são proporcionais aos respetivos intervalos ponto a ponto analisados anteriormente. Estas bandas são designadas por EP bands. Consideramos dois instantes t L < t U tais que t L seja maior ou igual ao mais pequeno instante de morte observado e t U menor ou igual ao maior tempo registado. Definem-se } nvar{ŝ(tl ˆ ) a L = ( ) (2.13) {Ŝ(t L)} 2 1+n var{ŝ(t ˆ L)} {Ŝ(t L)} 2 } nvar{ŝ(tu ˆ ) a U = ( ). (2.14) {Ŝ(t U)} 2 1+n var{ŝ(t ˆ U)} {Ŝ(t U)} 2 Temos três tipos de bandas, correspondentes aos três intervalos de confiança já apresentados, isto é ˆ Lineares ( Ŝ(t) c α (a L,a U ) var ˆ } {Ŝ(t), Ŝ(t)+c α (a L,a U ) var ˆ {Ŝ(t) } ) 21

30 ˆ Transformação logaritmo } (Ŝ(t) 1/θ, Ŝ(t) θ) c α (a L,a U ) var ˆ {Ŝ(t), θ = exp Ŝ(t)lnŜ(t) ˆ Transformação arcsine-square root sin 2 max ) 1/2 0,arcsin(Ŝ(t) 0.5 c α (a L,a U ) } var ˆ {Ŝ(t) ( ) 1/2 Ŝ(t) Ŝ(t) 1 Ŝ(t), sin 2 min π (Ŝ(t) ) 2,arcsin 1/ c α (a L,a U ) } var ˆ {Ŝ(t) ( ) 1/2 Ŝ(t) Ŝ(t) 1 Ŝ(t) onde c α (a L,a U ) são coeficientes que dependem do nível de confiança escolhido e das quantidades definidas em (2.13) e (2.14). 2.5 Intervalos de confiança para o valor médio e os quantis Intervalos de confiança para o valor médio são calculados à custa da variância do estimador definido em (2.11). A variância deste estimador é estimada por var(ˆµ ˆ τ ) = r [ τ ] 2 d i Ŝ(t)dt t i n i (n i d i ). i=1 Um intervalo aproximado de 100(1 α)% de confiança para o valor médio é dado por ˆµ τ ±z 1 α var(ˆµτ 2 ˆ ). (2.15) Intervalos de confiança aproximados para a mediana e os outros quantis podem ser facilmente calculados uma vez que se conhece uma estimativa 22

31 da variância destas quantidades. Uma expressão para a variância pode ser obtida a partir da relação (2.6). Temos então ( ) ] 2 dŝ(ˆt(p)) var[ŝ(ˆt(p)) dˆt(p) var[ˆt(p)] (2.16) ˆt(p)=E(ˆt(p)) onde ˆt(p) é o estimador do quantil de probabilidade p da distribuição do tempo de vida e Ŝ(ˆt(p)) é a estimativa de Kaplan-Meier no ponto ˆt(p). Tem-se agora que dŝ(ˆt(p)) dˆt(p) = ˆf(ˆt(p)), ou seja uma estimativa da densidade de probabilidade do tempo de vida no ponto ˆt(p). De (2.16) obtém-se var ˆ [ˆt(p) ] ( ) 2 1 ] var[ŝ(ˆt(p)) ˆ. ˆf(ˆt(p)) O desvio padrão de ˆt(p) é aproximado então por ŝe {ˆt(p) } 1 ] [Ŝ(ˆt(p)) ˆf(ˆt(p)) ŝe, (2.17) enquanto o desvio padrão de Ŝ(ˆt(p)) é obtido através da fórmula de Greenwood (2.7). O intervalo pretendido pode-se escrever nesta forma ˆt(p)±z 1 α 2 ŝe{ˆt(p)} (2.18) onde z 1 α 2 é o quantil de probabilidade 1 α 2 da distribuição normal padrão. Trata-se de um intervalo aproximado no sentido em que a probabilidade do intervalo (aleatório) conter o verdadeiro valor do quantil não é exatamente 1 α. 23

32 Capítulo 3 Testes de hipóteses Vamos considerar neste capítulo o problema da comparação de dois grupos de indivíduos relativamente ao seu padrão de sobrevivência. Queremos testar as seguintes hipóteses H 0 : S 1 (t) = S 2 (t) vs H 1 : S 1 (t) S 2 (t) onde S i (t), i = 1,2 são as funções de sobrevivência das duas populações de onde foram selecionados dois grupos de indivíduos de dimensão m e n respetivamente. 3.1 Teste log-rank Para construir este teste começamos por considerar o número de mortes e de indivíduos em risco em cada grupo em estudo. Sejam t (1),t (2),...,t (r) os instantes de morte distintos do conjunto dos n + m indivíduos. Vamos então definir as seguintes quantidades: ˆ d 1j : número de mortes no instante t (j) no grupo 1 ˆ d 2j : número de mortes no instante t (j) no grupo 2 24

33 ˆ n 1j : número de indivíduos em risco imediatamente antes de t (j) no grupo 1 ˆ n 2j : número de indivíduos em risco imediatamente antes de t (j) no grupo 2 Tem-se então que no total e no instante t (j) há d j = d 1j + d 2j mortes e n j = n 1j +n 2j indivíduos em risco. Podemos resumir a situação na tabela de contingência seguinte Grupo Mortes em t (j) Vivos além de t (j) Em risco antes de t (j) 1 d 1j n 1j d 1j n 1j 2 d 2j n 2j d 2j n 2j Total d j n j d j n j Consideramos agora a hipótese nula de que não haja diferença no que diz respeito à sobrevivência entre os dois grupos. Uma maneira para averiguar a validade desta hipótese é considerar a diferença entre o número observado de indivíduos que morreram nos dois grupos em cada instante de morte e o número esperado sob a hipótese nula. Supondo que os totais marginais da tabela anterior são fixos e a hipótese de independência entre os grupos verdadeira, as entradas da tabela só são determinadas a partir do valor d 1j. Podemos então tratar D 1j como sendo uma variável aleatória que toma valores entre 0 e min{d j,n 1j }. Segue que D 1j tem distribuição hipergeométrica condicional ao facto de ter fixado as margens da tabela, em que P (D 1j = d 1j ) = ( dj )( nj d j ) d 1j n 1j d 1j ( nj n 1j ). 25

34 O valor médio da distribuição hipergeométrica, neste caso o número esperado de indivíduos que morrem no instante t (j) no grupo 1, é dado por E(D 1j ) = e 1j = n 1jd j n j. Sob a hipótese nula, a probabilidade de morrer no instante t (j) não depende do grupo e, por isso, é dada por d j n j. Multiplicando por n 1j obtemos assim o número esperado de mortes em t (j) no grupo 1. Para obter uma medida do desvio entre o valor observado de D 1j e o seu valor esperado vamos considerar a estatística seguinte U L = r (D 1j e 1j ) (3.1) j=1 que é dada pela diferença entre o número total de mortes observadas no grupo 1 e o correspondente número esperado. O valor médio desta estatística é zero sendo E(D 1j ) = e 1j, e a sua variância é simplesmente a soma das variâncias de cada D 1j sendo estas variáveis aleatórias independentes entre si. Tem-se então Consequentemente var(d 1j ) = v 1j = n 1jn 2j d j (n j d j ) n 2 j (n. (3.2) j 1) var(u L ) = r v 1j = V L. (3.3) j=1 Pode-se mostrar que U L tem uma distribuição assintótica normal, e por isso U L VL, sob a hipótese nula, segue uma distribuição assintótica normal padrão U L VL N(0,1). 26

35 Tendo o quadrado de uma variável normal padrão uma distribuição quiquadrado com um grau de liberdade, obtém-se U 2 L V L χ 2 1. (3.4) Rejeita-se a hipótese nula para valores grandes da estatística de teste. Mais especificamente, uma vez fixado um nível de significância α, a região crítica é dada pelo seguinte intervalo ( χ 2 1,1 α,+ ) onde χ 2 1,1 α é o quantil de probabilidade 1 α da distrbuição qui-quadrado com um grau de liberdade, ou seja tal que P [ χ 2 1 > 1,1 α] χ2 = α. Se não quisermos fixar o nível de significância do teste, podemos obter o valor-p dado por p = P [ χ 2 1 > χ 2 obs]. 3.2 Teste de Gehan Este teste é uma generalização do teste de Mann-Whitney-Wilcoxon para dados censurados e permite-nos, assim como o teste anterior, testar a hipótese nula de igualdade das funções de sobrevivência. Vamos considerar a amostra conjunta dos tempos registados relativos aos dois grupos e associamos a cada tempo t i uma variável indicatriz δ i, onde { 1 se ti é tempo de vida observado δ i = 0 se t i é uma observação censurada à direita Vamos definir agora a seguinte pontuação +1 se (t k > t j, δ j = 1) ou (t k = t j, δ k = 0,δ j = 1) U kj = U(t k,t j ) = 1 se (t k < t j, δ k = 1) ou (t k = t j, δ k = 1,δ j = 0) 0 no caso contrário 27

36 onde estamos a comparar um determinado instante t k fixado com todos os restantes tempos observados. Mais especificamente tem-se: ˆ +1 quando o tempo de vida associado ao k-ésimo indivíduo for de certeza maior que o tempo de vida do j-ésimo indivíduo: isto pode acontecer quando t k > t j sendo t j um tempo de vida observado (t k pode ser um tempo de vida assim como uma observação censurada), ou quando t k = t j sendo t k uma observação censurada e t j um tempo de vida observado. ˆ -1 quando o tempo de vida associado ao k-ésimo indivíduo for de certeza menor que o tempo de vida do j-ésimo indivíduo: isto acontece quando t k < t j sendo t j um tempo de vida observado (t k pode ser um tempo de vida assim como uma observação censurada), ou quando t k = t j sendo t j uma observação censurada e t k um tempo de vida observado. ˆ 0 quando não se consegue ordenar t k com t j. Seja agora m+n U k = j=1 U kj para k = 1,...,m+n (j k) a pontuação atribuída a cada observação t k, que representa portanto a diferença entre o número das restantes observações que são de certeza menores que t k e o número daquelas que são de certeza maiores que t k. A estatística de teste considerada é então U = m+n k=1 U k para k : t k amostra 1. (3.5) 28

37 Sendo, sob a validade da hipótese nula, a estatística Z = E(U) = 0 e var(u) = m+n mn (U k (m+n)(m+n 1) )2, k=1 U tem distribuição assintótica normal padrão. var(u) Uma maneira equivalente de escrever a estatística de teste é U G = r n j (D 1j e 1j ), (3.6) j=1 onde n j, D 1j e e 1j são as mesmas quantidades definidas no parágrafo 3.1 e r é o número de instantes de morte distintos na amostra conjunta. A diferença principal entre U G e U L, definida em (3.1), é que no teste de Gehan cada parcela D 1j e 1j é ponderada pelo correspondente número de indivíduos em risco n j. Isto quer dizer que as diferenças D 1j e 1j têm menos peso para instantes em que o número de indivíduos que ainda estão vivos é relativamente pequeno, ou seja, para instantes perto do limite de observação. Esta estatística é então menos sensível na cauda direita da distribuição do tempo de vida. A variância de U G é dada por var(u G ) = r n 2 jv 1j = V G, j=1 com v 1j definida em (3.2). Assim sendo a estatística U2 G VG tem distribuição assintótica qui-quadrado com um grau de liberdade quando a hipótese nula for verdadeira. 3.3 O teste log-rank e a proporcionalidade dos riscos O teste log-rank é o teste mais potente quando os riscos de mortes relativos aos dois grupos sejam proporcionais. É ainda bastante potente quando 29

38 as funções de risco não forem proporcionais e não se cruzarem. Mostra-se inadequado para funções de risco que se cruzam. Para estabelecer qual é o teste mais apropriado na deteção de afastamentos da hipótese de igualdade podemos utilizar um resultado que nos diz que se as funções de risco forem proporcionais então as correspondentes funções de sobrevivência não se cruzam. Para mostrar isso vamos supor que h 1 (t) e h 2 (t) representam o risco de morte num instante t para um indivíduo pertencente ao grupo 1 e ao grupo 2, respetivamente. Se estes riscos forem proporcionais então pode-se escrever h 1 (t) = ψh 2 (t) onde ψ > 0 é uma constante que não depende de t. Logo, { exp t 0 } { h 1 (u)du = exp t 0 } ψh 2 (u)du. A partir de (1.6), se S 1 (t) e S 2 (t) forem as funções de sobrevivência dos dois grupos, pode-se escrever S 1 (t) = {S 2 (t)} ψ. Sendo S(t) uma função que só pode tomar valores entre 0 e 1, este resultado mostra que S 1 (t) é maior (menor) que S 2 (t) quando ψ < 1 (> 1), para todos os valores de t. Isto quer dizer que se as funções de risco forem proporcionais então as funções de sobrevivência nunca se cruzam; trata-se, obviamente, de uma condição necessária mas não suficiente para ter riscos proporcionais. Assim sendo, uma maneira não rigorosa para averiguar a validade da hipótese de riscos proporcionais consiste em considerar o gráfico das estimativas de Kaplan-Meier da função de sobrevivência: se as curvas relativas aos dois grupos não se cruzarem, a hipótese de proporcionalidade dos riscos pode ser 30

39 justificada e o teste log-rank pode-se considerar apropriado. Obviamente pode acontecer que as estimativas das funções de sobrevivência se cruzem apesar das correspondentes funções de risco serem proporcionais; por isso é preciso ter algum cuidado na interpretação destes gráficos. A hipótese de riscos proporcionais pode também ser avaliada através de um método gráfico. Como vimos anteriormente, se a hipótese de riscos proporcionais for verdadeira tem-se que h 1 (t) = e β h 2 (t) S 1 (t) = S 2 (t) exp(β) ou, de uma forma equivalente, log( logs 1 (t)) = β +log( logs 2 (t)). Sendo Ŝ1(t) e Ŝ2(t) as estimativas de Kaplan-Meier de S 1 (t) e S 2 (t), o gráfico de log( logŝ1(t)) versus t tenderá a ser paralelo ao gráfico de log( logŝ2(t))versus tseosriscosforemproporcionais. Porisso,adistância entre estes dois gráficos deve-se manter razoavelmente constante ao longo do tempo. 3.4 Teste de Tarone-Ware Os testes log-rank e de Gehan pertencem a uma classe de testes não paramétricos onde a estatística utilizada pode ser escrita, de uma forma geral, como [ r ] 2 j=1 w j(d 1j e 1j ) r j=1 w2 j v, (3.7) 1j 31

40 onde w j são constantes conhecidas que atribuem diferentes pesos às parcelas das somas. A distribuição assintótica, sob a hipótese H 0, é um qui-quadrado com um grau de liberdade. Para o teste log-rank tem-se que w j = 1, enquanto para o teste de Gehan w j = n j. Um compromisso entre os dois é dado pelo teste de Tarone-Ware onde as funções peso são w j = n j. 3.5 Outros testes Uma outra alternativa ao teste de Mann-Whitney-Wilcoxon para dados censurados é dada pelo teste de Peto-Peto. Define-se a seguinte estimativa da função de sobrevivência S(t) = t (i) t ( 1 d ) i, (3.8) n i +1 que é bastante próxima da estimativa de Kaplan-Meier (2.2). Peto e Peto [14] propõem usar as seguintes funções peso w(t i ) = S(t i ). Andersen et al. [1] sugerem w(t i ) = S(t i ) n i n i +1. Fleming e Harrington [3] apresentaram uma classe muito geral de testes que inclui, como casos especiais, o teste log-rank e uma versão do teste de Mann-Whitney-Wilcoxon muito próxima àquela sugerida por Peto e Peto. Seja Ŝ(t) o estimador de Kaplan-Meier para a amostra conjunta. As funções peso propostas são w p,q (t i ) = Ŝ(t i 1) p[ 1 Ŝ(t i 1)] q, p 0, q 0. Pode-se notar que a estimativa da função de sobrevivência é calculada em t i 1 : assim sendo, os pesos em t i são calculados à custa do valor de Ŝ(t) no 32

41 instante de morte anterior. Quando p = q = 0, como caso trivial, obtém-se o teste log-rank, enquanto que, quando p = 1 e q = 0, temos uma versão do teste de Mann-Whitney-Wilcoxon. Quando q = 0 e p > 0 os pesos dão mais importância à fase inicial do estudo onde os valores da função de sobrevivência são maiores. Pelo contrário, quando p = 0 e q > 0, estes testes dão mais peso aos acontecimentos que ocorrem na fase final do estudo. Através de uma adequada escolha dos valores de p e q podem-se construir testes com a máxima potência para detetar diferenças entre as experiências de vida das duas populações consideradas. 3.6 Testes estratificados Nalgumas situações pode ser preciso comparar a sobrevivência de conjuntos de indivíduos tendo em conta a presença de algumas variáveis adicionais. Por exemplo, para comparar o efeito de dois diferentes tratamentos de quimioterapia, os dados de sobrevivência disponíveis ao investigador podem ser estratificados segundo o sexo, a idade, a proveniência do paciente (centro clínico) ou outros fatores de risco relacionados com a doença em estudo. Vamosapresentarotestelog-rankparadadosestratificados. SejaU Lk ovalor daestatísticadeteste(3.1)calculadaparacadaestratok comk = 1,2,...,s, onde s é o número dos estratos analisados. Seja V Lk a variância de U Lk calculada através de (3.2) e (3.3). O teste log-rank estratificado baseia-se na estatística W S = ( s k=1 U Lk) 2 s k=1 V Lk (3.9) 33

42 que tem distribuição assintótica qui-quadrado com um grau de liberdade sob a validade de H 0. Comparando o valor observado desta estatística com o quantil χ 2 1,1 α, pode-se tomar a decisão de rejeitar ou não a hipótese de igualdade entre os efeitos dos tratamentos para todos os estratos considerados, ao nível de significância α. 3.7 Teste log-rank para tendência Em muitas situações, ao comparar três ou mais amostras de dados de sobrevivência, os grupos de indivíduos podem ser ordenados com respeito a determinadas características (diferentes doses de tratamento, estádio da doença, etc). Pode acontecer que, aplicando o teste log-rank tradicional, a análise feita não consiga detetar diferenças significativas entre as várias funções de sobrevivência, embora o risco de morte esteja a variar entre os grupos. Por isso, é mais apropriado recorrer a uma versão modificada do teste que utilize a informação contida na ordenação dos grupos. O teste log-rank para tendência baseia-se na estatística g U T = w k (d k e k ) (3.10) k=1 onde g é o número de grupos ordenados, w k é uma constante relativa ao k-ésimo grupo com k = 1,2,...,g e d k = r k d kj, e k = r k e kj j=1 j=1 são respetivamente o número observado e esperado de mortes no k-ésimo grupo, onde r k é o número de instantes de morte correspondente. Asconstantesw k são, porvezes, escolhidasdemaneiraquesejamigualmente 34

43 distanciadas, o que corresponde a uma tendência linear através dos grupos: por exemplo, se tivermos três grupos, uma possível escolha seria 1, 2, 3. A variância de U T é dada por g V T = (w k w) 2 e k k=1 onde w é uma média ponderada das constantes w k em que os pesos são os números esperados de mortes e k, isto é w = g k=1 w ke k g k=1 e. k Logo, a estatística W T = U2 T V T tem distribuição assintótica qui-quadrado com um grau de liberdade, sob a validade da hipótese de que não existe tendência através dos g grupos. 35

44 Capítulo 4 Comparação de duas funções de risco que se cruzam Vamos considerar agora o problema do cruzamento de duas funções de risco. Como já vimos anteriormente, o teste log-rank é o método ótimo para avaliar o efeito de diferentes tratamentos no caso de riscos proporcionais. Contudo, quando as funções de risco se cruzam num qualquer instante desconhecido, esta hipótese não é obviamente válida. Este fenómeno surge, por exemplo, quando os tratamentos têm efeitos diferentes ao longo do desenvolvimento de uma doença e o risco de morte varia de forma significativa. Uma maneira para estabelecer se as funções de risco se cruzam é considerar as correspondentes funções de sobrevivência. Sendo a função de sobrevivência uma transformação monótona da função de risco cumulativa, pode-se concluir que, se as funções de sobrevivência se cruzarem num dado ponto, então também as correspondentes funções de risco se cruzam pelo menos uma vez. Obviamente o contrário não é verdadeiro, ou seja, é possível que as funções de sobrevivência não se cruzem e que as funções de risco sim. Neste sentido, o método de Kaplan-Meier pode-nos ajudar a ter uma ideia 36

45 sobre o possível cruzamento das funções de risco. 4.1 Introdução Nesta secção vamos introduzir o problema em questão de um ponto de vista mais formal. Geralmente, interessa testar a hipótese de igualdade entre as funções de risco contra a hipótese alternativa específica de cruzamento, isto é H 0 : h 1 (t) = h 0 (t) para qualquer t [0,τ] vs H 1 : h 1 e h 0 cruzam-se num ponto γ [0,τ] onde h 0 e h 1 são as funções de risco dos grupos de controlo e de tratamento, respetivamente, γ é o ponto de cruzamento, [0,τ] é o intervalo de interesse e τ é o maior tempo de vida observado. Assumindo que as funções de risco sejam ambas contínuas, tem-se que a hipótese alternativa pode ser interpretada de duas formas diferentes: ˆ h 1 (t) < h 0 (t) quando t < γ, h 1 (t) = h 0 (t) quando t = γ e h 1 (t) > h 0 (t) quando t > γ. Isto quer dizer que o tratamento traz benefícios só na primeira fase da doença e que não tem vantagens a longo prazo. Por exemplo, tratamentos como a quimioterapia e a radioterapia podem melhorar as condições do paciente no período a seguir à deteção da doença, sem produzirem benefícios significativos numa fase mais avançada. ˆ h 1 (t) > h 0 (t) quando t < γ, h 1 (t) = h 0 (t) quando t = γ e h 1 (t) < h 0 (t) quando t > γ. 37

46 Tratamentos deste tipo têm vantagens a longo prazo mas podem aumentar o risco de morte na fase inicial da doença. As intervenções cirúrgicas são um bom exemplo neste sentido, sendo bastante elevada a probabilidade de infeções no período pós-operatório. Os testes que vamos apresentar têm uma maior potência do que os referidos no capítulo 3 para detetar diferenças entre funções de risco que se cruzam. 4.2 Testes de Renyi As estatísticas de teste que vamos considerar nesta secção são uma generalização para dados censurados da estatística de Kolmogorov-Smirnov usada para comparar duas amostras na ausência de censura. Para construir estes testes vamos calcular o valor da estatística (3.7) para alguma função peso em cada instante de morte registado. Quando as funções de risco se cruzam, os valores absolutos destas quantidades admitem um máximo num instante anterior ao maior tempo de vida registado. Quando este valor for elevado, rejeita-se a hipótese nula em favor da hipótese alternativa. Suponhamos então que temos duas amostras independentes de dimensão n e m, respetivamente. Sejam t 1 < t 2 <... < t r os instantes de morte distintos na amostra conjunta, d 1j,d 2j,n 1j,n 2j,d j,n j as mesmas quantidades definidas na secção 3.1 e w(t) uma função peso. Por exemplo, para a versão log-rank tem-se w(t j ) = 1 e para a versão Gehan w(t j ) = n j. Para cada valor t j calculamos Z(t j ) dado por Z(t j ) = [ ( )] dk w(t k ) d 1k n 1k n t k t k j, j = 1,...,r 38

47 Seja agora σ(τ) o desvio padrão de Z(τ), dado por σ 2 (τ) = t k τ d k w(t k ) 2 ( n1k n k )( n2k n k )( ) nk d k n k 1 onde τ é o maior instante t k para o qual n 1k,n 2k > 0. A estatística de teste é dada por Q = sup{ Z(t), t τ}. (4.1) σ(τ) Se a hipótese nula for verdadeira, a distribuição de Q pode ser aproximada pela distribuição de sup{ B(x), 0 x 1}, onde B é um movimento browniano padrão. Valores críticos de Q podem ser encontrados em Klein- Moeschberger [6]. 4.3 Teste de Cramer-Von Mises para dados censurados Para construir este teste recordemos que a estimativa de Nelson-Aalen para a função de risco cumulativa em cada grupo é dada por H i (t) = tj t d ij n ij, i = 1,2. Uma estimativa da variância de H i (t) é dada por σ 2 i(t) = t j t d ij n ij (n ij 1), i = 1,2. O teste baseia-se na diferença entre H 1 (t) e H 2 (t), e por isso precisamos de calcular também σ 2 (t) = σ1 2(t) + σ2 2 (t) que é a variância estimada de H 1 (t) H 2 (t). A estatística de Cramer-Von Mises é dada por Q 1 = ( ) 1 2 τ [ H1 σ 2 (t) (τ) H ] 2dσ 2 (t) 2 (t), (4.2) 0 39

ANÁLISE DE SOBREVIVÊNCIA. Airlane P. Alencar IME-USP Alessandra C. Goulart FM-USP

ANÁLISE DE SOBREVIVÊNCIA. Airlane P. Alencar IME-USP Alessandra C. Goulart FM-USP ANÁLISE DE SOBREVIVÊNCIA Airlane P. Alencar IME-USP Alessandra C. Goulart FM-USP Objetivo Estudar o tempo desde um instante inicial até a ocorrência de um evento (alha). Estudar o tempo de sobrevida de

Leia mais

Estimação e Testes de Hipóteses

Estimação e Testes de Hipóteses Estimação e Testes de Hipóteses 1 Estatísticas sticas e parâmetros Valores calculados por expressões matemáticas que resumem dados relativos a uma característica mensurável: Parâmetros: medidas numéricas

Leia mais

Análise de Sobrevivência. Exercícios - Capítulo 1

Análise de Sobrevivência. Exercícios - Capítulo 1 Análise de Sobrevivência Profa. Suely Ruiz Giolo Departamento de Estatística - UFPR Exercícios - Capítulo 1 1. Suponha que seis ratos foram expostos a um material cancerígeno. Os tempos até o desenvolvimento

Leia mais

Métodos Estatísticos Avançados em Epidemiologia

Métodos Estatísticos Avançados em Epidemiologia 1/42 Métodos Estatísticos Avançados em Epidemiologia Análise de Sobrevivência - Conceitos Básicos Enrico A. Colosimo Departamento de Estatística Universidade Federal de Minas Gerais http://www.est.ufmg.br/

Leia mais

Métodos Estatísticos Avançados em Epidemiologia

Métodos Estatísticos Avançados em Epidemiologia Métodos Estatísticos Avançados em Epidemiologia Análise de Sobrevivência - Conceitos Básicos Enrico A. Colosimo Departamento de Estatística Universidade Federal de Minas Gerais http://www.est.ufmg.br/

Leia mais

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses BIOESTATÍSTICA Parte 5 Testes de Hipóteses Aulas Teóricas de 05/05/2011 a 19/05/2011 5.1. Conceito de erro, estatística de teste, região de rejeição, nível de significância, valor de prova, potência do

Leia mais

O passo inicial de qualquer análise estatística consiste em uma descrição dos dados através de análise descritiva (tabelas, medidas e gráficos).

O passo inicial de qualquer análise estatística consiste em uma descrição dos dados através de análise descritiva (tabelas, medidas e gráficos). TÉCNICAS NÃO-PARAMÉTRICAS O passo inicial de qualquer análise estatística consiste em uma descrição dos dados através de análise descritiva (tabelas, medidas e gráficos). Como a presença de censura invalida

Leia mais

3 3. Variáveis Aleatórias

3 3. Variáveis Aleatórias ÍNDICE 3. VARIÁVEIS ALEATÓRIAS...49 3.. VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS...49 3.2. VARIÁVEIS DISCRETAS FUNÇÃO DE PROBABILIDADE E FUNÇÃO DISTRIBUIÇÃO DE PROBABILIDADE...50 3.2.. Função de probabilidade...50

Leia mais

Análise de Sobrevivência

Análise de Sobrevivência Análise de Sobrevivência Modelagem paramétrica Valeska Andreozzi 1 valeska.andreozzi@fc.ul.pt & Marilia Sá Carvalho 2 cavalho@fiocruz.br 1 Centro de Estatística e Aplicações da Universidade de Lisboa,

Leia mais

1 Probabilidade - Modelos Probabilísticos

1 Probabilidade - Modelos Probabilísticos 1 Probabilidade - Modelos Probabilísticos Modelos probabilísticos devem, de alguma forma, 1. identificar o conjunto de resultados possíveis do fenômeno aleatório, que costumamos chamar de espaço amostral,

Leia mais

Capítulo 4 Inferência Estatística

Capítulo 4 Inferência Estatística Capítulo 4 Inferência Estatística Slide 1 Resenha Intervalo de Confiança para uma proporção Intervalo de Confiança para o valor médio de uma variável aleatória Intervalo de Confiança para a diferença de

Leia mais

UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA. Eduardo Yoshio Nakano 1

UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA. Eduardo Yoshio Nakano 1 1 UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA Eduardo Yoshio Nakano 1 1 Professor do Departamento de Estatística da Universidade de Brasília, UnB. RESUMO. Em estudos médicos, o comportamento

Leia mais

Métodos Estatísticos Avançados em Epidemiologia

Métodos Estatísticos Avançados em Epidemiologia 1 / 44 Métodos Estatísticos Avançados em Epidemiologia Análise de Variância - ANOVA Referência: Cap. 12 - Pagano e Gauvreau (2004) - p.254 Enrico A. Colosimo/UFMG Depto. Estatística - ICEx - UFMG 2 / 44

Leia mais

ANÁLISE DE SOBREVIVÊNCIA

ANÁLISE DE SOBREVIVÊNCIA ANÁLISE DE SOBREVIVÊNCIA M Eduarda D. S. Matos Coimbra, 9 de Abril de O que é a análise de sobrevivência? A análise de sobrevivência é um conjunto de processos estatísticos, utilizados na análise dos dados,

Leia mais

Ajuste e comparação de modelos para dados grupados e censurados

Ajuste e comparação de modelos para dados grupados e censurados Ajuste e comparação de modelos para dados grupados e censurados 1 Introdução José Nilton da Cruz 1 Liciana Vaz de Arruda Silveira 2 José Raimundo de Souza Passos 2 A análise de sobrevivência é um conjunto

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

Estimadores, pontual e intervalar, para dados com censuras intervalar

Estimadores, pontual e intervalar, para dados com censuras intervalar Estimadores, pontual e intervalar, para dados com censuras intervalar Débora Ohara, Estela Maris Pereira Bereta, Teresa Cristina Martins Dias Resumo Dados com censura intervalar ocorrem com frequência

Leia mais

Inferência para duas populações

Inferência para duas populações Inferência para duas populações Capítulo 13, Estatística Básica (Bussab&Morettin, 8a Edição) 7a AULA 27/04/2015 MAE229 - Ano letivo 2015 Lígia Henriques-Rodrigues 7a aula (27/04/2015) MAE229 1 / 27 1.

Leia mais

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas Teoria da Estimação Fabricio Goecking Avelar Universidade Federal de Alfenas - Instituto de Ciências Exatas junho - 2018 Algumas distribuições importantes Sumário 1 Algumas distribuições importantes 2

Leia mais

Testes de Hipóteses Paramétricos

Testes de Hipóteses Paramétricos Testes de Hipóteses Paramétricos Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução Exemplos Testar se mais de metade da população irá consumir um novo produto

Leia mais

Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. Carvalho MS (2009) Sobrevida 1 / 21

Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. Carvalho MS (2009) Sobrevida 1 / 21 Outline 1 Cap 1 Introdução 2 Cap 2 O tempo 3 Cap 3 Funções de Sobrevida 4 Carvalho MS (2009) Sobrevida 1 / 21 Estimação Não-Paramétrica Estimadores de sobrevida e risco Kaplan-Meier e Nelson Aalen Intervalos

Leia mais

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Cap. 8 - Intervalos Estatísticos para uma Única Amostra Intervalos Estatísticos para ESQUEMA DO CAPÍTULO 8.1 INTRODUÇÃO 8.2 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 8.3 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO

Leia mais

Testes de Hipóteses Paramétricos

Testes de Hipóteses Paramétricos Testes de Hipóteses Paramétricos Departamento de Matemática Escola Superior de Tecnologia de Viseu (DepMAT ESTV) Testes de Hipóteses Paramétricos 1 / 41 Introdução. Hipóteses Estatísticas. Erro Tipo I

Leia mais

Estimação: (A) Propriedades e Distribuições Amostrais

Estimação: (A) Propriedades e Distribuições Amostrais Estimação: (A) Propriedades e Distribuições Amostrais Wagner H. Bonat Fernando P. Mayer Elias T. Krainski Universidade Federal do Paraná Departamento de Estatística Laboratório de Estatística e Geoinformação

Leia mais

Stela Adami Vayego DEST/UFPR

Stela Adami Vayego DEST/UFPR Resumo 1 Testes de hipóteses não paramétricos Os métodos não-paramétricos fazem poucas suposições sobre a natureza das distribuições dos dados. Não exige que as distribuições nas populações sejam normais,

Leia mais

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017. Professora Ana Hermínia Andrade Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise Período 2017.1 Distribuições Amostrais O intuito de fazer uma amostragem

Leia mais

Inferência estatística

Inferência estatística Inferência estatística Susana Barbosa Mestrado em Ciências Geofísicas 2013-2014 Inferência estatística Obtenção de conclusões sobre propriedades da população a partir das propriedades de uma amostra aleatória

Leia mais

Introdução à Probabilidade e à Estatística II

Introdução à Probabilidade e à Estatística II Introdução à Probabilidade e à Estatística II Introdução à Inferência Estatística Capítulo 10, Estatística Básica (Bussab&Morettin, 7a Edição) Lígia Henriques-Rodrigues MAE0229 1º semestre 2018 1 / 36

Leia mais

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Lic. Eng. Biomédica e Bioengenharia-2009/2010 Modelos de regressão É usual estarmos interessados em estabelecer uma relação entre uma variável

Leia mais

Análise de sobrevivência aplicada a pacientes HIV positivos

Análise de sobrevivência aplicada a pacientes HIV positivos Análise de sobrevivência aplicada a pacientes HIV positivos Orientadora: Professora PhD Silva Shimakura Universidade Federal do Paraná Novembro de 2014 Sumário Resultados Conclusão Sumário Dados: Amostra

Leia mais

PE-MEEC 1S 09/ Capítulo 7 - Estimação por intervalos. 7.2 Intervalos de. confiança para. média de uma. normal 7.

PE-MEEC 1S 09/ Capítulo 7 - Estimação por intervalos. 7.2 Intervalos de. confiança para. média de uma. normal 7. Capítulo 7 - Estimação por intervalos 7.1 Noções básicas 7.2 Intervalos de confiança para a média de uma população normal 7.3 Intervalos de confiança para a diferença de duas médias de populações normais

Leia mais

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski Testes de hipóteses Wagner H. Bonat Fernando P. Mayer Elias T. Krainski Universidade Federal do Paraná Departamento de Estatística Laboratório de Estatística e Geoinformação 07/06/2018 WB, FM, EK ( LEG/DEST/UFPR

Leia mais

Estatística e Modelos Probabilísticos - COE241

Estatística e Modelos Probabilísticos - COE241 Estatística e Modelos Probabilísticos - COE41 Aula passada Teste de hipótese duas médias (casos 1,,3) Teste de hipótese: variância Aula de hoje Goodness of fit: v.a. discreta Goodness of fit: v.a. contínua

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

Esse material foi extraído de Barbetta (2007 cap 13)

Esse material foi extraído de Barbetta (2007 cap 13) Esse material foi extraído de Barbetta (2007 cap 13) - Predizer valores de uma variável dependente (Y) em função de uma variável independente (X). - Conhecer o quanto variações de X podem afetar Y. Exemplos

Leia mais

Planejamento de Experimentos Introdução - Teste t

Planejamento de Experimentos Introdução - Teste t 1/22 Planejamento de Experimentos Introdução - Teste t Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Depto. Estatística - ICEx - UFMG 2/22 Introdução - Planejamento de Experimentos Experimento:

Leia mais

Stela Adami Vayego Estatística II CE003/DEST/UFPR

Stela Adami Vayego Estatística II CE003/DEST/UFPR Resumo 1 Teste de hipóteses não paramétricos Os métodos não-paramétricos fazem poucas suposições sobre a natureza das distribuições dos dados. Não exige que as distribuições nas populações sejam normais,

Leia mais

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA Suponha que numa amostra aleatória de tamanho n de uma dada população são observados dois atributos ou características A e B (qualitativas ou quantitativas), uma

Leia mais

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia ROTEIRO 1. Introdução; DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL. Teorema Central do Limite; 3. Conceitos de estimação pontual; 4. Métodos de estimação pontual; 5. Referências. 1 POPULAÇÃO E AMOSTRA População:

Leia mais

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27 Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

Distribuições por Amostragem

Distribuições por Amostragem Distribuições por Amostragem Departamento de Matemática Escola Superior de Tecnologia de Viseu (DepMAT ESTV) Distribuições por Amostragem 2007/2008 1 / 27 Introdução: População, amostra e inferência estatística

Leia mais

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5 MAE 229 - Introdução à Probabilidade e Estatística II Resolução Lista 5 Professor: Pedro Morettin e Profa. Chang Chian Exercício 1 (a) De uma forma geral, o desvio padrão é usado para medir a dispersão

Leia mais

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população

Leia mais

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza Inferência 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média Renata Souza Aspectos Gerais A estatística descritiva tem por objetivo resumir ou descrever características importantes

Leia mais

16/6/2014. Teste Qui-quadrado de independência

16/6/2014. Teste Qui-quadrado de independência UNIVERSIDADE FEDERAL DA PARAÍBA TESTES NÃO- PARAMÉTRICOS Parte I Prof. Luiz Medeiros Departamento de Estatística Teste Qui-quadrado de independência Um dos principais objetivos de se construir uma tabela

Leia mais

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS 4 SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS Em muitos problemas de probabilidade que requerem o uso de variáveis aleatórias, uma completa especificação da função de densidade de probabilidade ou não está

Leia mais

Especialização em Engenharia de Processos e de Sistemas de Produção

Especialização em Engenharia de Processos e de Sistemas de Produção Especialização em Engenharia de Processos e de Sistemas de Produção Projetos de Experimento e Confiabilidade de Sistemas da Produção Prof. Claudio Luis C. Frankenberg 3ª parte Conforme foi apresentado

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

MAB-515 Avaliação e Desempenho (DCC/UFRJ)

MAB-515 Avaliação e Desempenho (DCC/UFRJ) MAB-515 Avaliação e Desempenho (DCC/UFRJ) Aula 7: Intervalos de Confiança 13 de novembro de 2012 1 2 3 4 Percentil 100p%-percentil O ponto t 0 tal que t 0 = F 1 X (p) = min{t : F X (t) p}, 0 < p < 1 é

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

Testes de Hipóteses Não Paramétricos

Testes de Hipóteses Não Paramétricos ACH4513 INFERÊNCIA ESTATÍSTICA 2º Sem/2017 Testes de Hipóteses Não Paramétricos Prof. Marcelo S. Lauretto marcelolauretto@usp.br www.each.usp.br/lauretto Referência: W.O.Bussab, P.A.Morettin. Estatística

Leia mais

Estatística e Modelos Probabilísticos - COE241

Estatística e Modelos Probabilísticos - COE241 Estatística e Modelos Probabilísticos - COE41 Aula passada Teste de hipótese: média Teste de hipótese duas médias (casos 1,,3) Aula de hoje Teste de hipótese: variância Goodness of fit: v.a. discreta Goodness

Leia mais

Gean Carlo Gomes Jéssica Jabczenski Roslindo. Análise de Sobrevivência como ferramenta auxiliar na originação e manutenção do ciclo de crédito

Gean Carlo Gomes Jéssica Jabczenski Roslindo. Análise de Sobrevivência como ferramenta auxiliar na originação e manutenção do ciclo de crédito Gean Carlo Gomes Jéssica Jabczenski Roslindo Análise de Sobrevivência como ferramenta auxiliar na originação e manutenção do ciclo de crédito Curitiba PR 2008 Gean Carlo Gomes Jéssica Jabczenski Roslindo

Leia mais

Análise de Sobrevida. Silvia Emiko Shimakura Marilia Sá Carvalho Valeska Andreozzi. Análise de Sobrevida p. 1

Análise de Sobrevida. Silvia Emiko Shimakura Marilia Sá Carvalho Valeska Andreozzi. Análise de Sobrevida p. 1 Análise de Sobrevida Silvia Emiko Shimakura Marilia Sá Carvalho Valeska Andreozzi Análise de Sobrevida p. 1 Bibliografia Kleinbaum, D. & Klein, M. Survival analysis: a self-learning text. Springer, 1997.

Leia mais

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07 -027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA

Leia mais

UNIVERSIDADE FEDERAL DE MINAS GERAIS. Confiabilidade Lista 4. Professor: Enrico Colosimo Aluno: Augusto Filho Belo Horizonte - MG

UNIVERSIDADE FEDERAL DE MINAS GERAIS. Confiabilidade Lista 4. Professor: Enrico Colosimo Aluno: Augusto Filho Belo Horizonte - MG UNIVERSIDADE FEDERAL DE MINAS GERAIS ESPECIALIZAÇÃO EM ESTATÍSTICA Confiabilidade Lista 4 Professor: Enrico Colosimo Belo Horizonte - MG 2 Exercício 1. Os dados abaixo foram apresentados por Nelson & Schmee

Leia mais

AULA 05 Teste de Hipótese

AULA 05 Teste de Hipótese 1 AULA 05 Teste de Hipótese Ernesto F. L. Amaral 03 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução

Leia mais

AST203-CVR 4-1 AST203-CVR. Observação eletromagnética. Processamento de sinais importante em várias áreas, além da astronomia telecomunicações

AST203-CVR 4-1 AST203-CVR. Observação eletromagnética. Processamento de sinais importante em várias áreas, além da astronomia telecomunicações Bloco 4 Estatística Atualizado: 2012 4-1 Bibliografia Lena Cap. 4 (parte) - só a inspiração... Wall & Jenkins, Practical statistics for astronomers Brandt Statistical and computacional methods in data

Leia mais

Estatística Não Paramétrica. Como construir testes de aderência

Estatística Não Paramétrica. Como construir testes de aderência Estatística Não Paramétrica Como construir testes de aderência Teste Qui-quadrado Suposições amostra aleatória Dados nominais (sexo: M ou F) ou numéricos (idade: menor que 15, 15-24, 25-34, 35-44, 45-54,

Leia mais

Distribuições derivadas da distribuição Normal. Distribuição Normal., x real.

Distribuições derivadas da distribuição Normal. Distribuição Normal., x real. Distribuições derivadas da distribuição Normal Distribuição Normal Uma variável aleatória X tem distribuição normal com parâmetros µ e σ, quando sua densidade de probabilidade é f ( x) π σ e ( x µ ) σ,

Leia mais

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra) Testes de Tendência Central (média, mediana, proporção) Classificação Variável 1 Variável 2 Núm ero Gru pos Dependência Teste Z Paramétrico Quantitativa - 1 - Premissas Variância pop. * conhecida Teste

Leia mais

Intervalos Estatísticos para uma única Amostra - parte I

Intervalos Estatísticos para uma única Amostra - parte I Intervalos Estatísticos para uma única Amostra - parte I Intervalo de confiança para média 14 de Janeiro Objetivos Ao final deste capítulo você deve ser capaz de: Construir intervalos de confiança para

Leia mais

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros Distribuições Amostrais e Estimação Pontual de Parâmetros - parte I 19 de Maio de 2011 Introdução Objetivos Ao final deste capítulo você deve ser capaz de: Entender estimação de parâmetros de uma distribuição

Leia mais

Métodos Quantitativos para Avaliação de Políticas Públicas

Métodos Quantitativos para Avaliação de Políticas Públicas ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Leia mais

Testes de hipóteses Paramétricos

Testes de hipóteses Paramétricos Testes de hipóteses Paramétricos Modelos de análise de variância com um factor Teste de Bartlett Teste de comparações múltiplas de Scheffé Rita Brandão (Univ. Açores) Testes de hipóteses Paramétricos 1

Leia mais

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA) 1. Sabe-se que o nível de significância é a probabilidade de cometermos um determinado tipo de erro quando da realização de um teste de hipóteses. Então: a) A escolha ideal seria um nível de significância

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

Testes não paramétricos são testes de hipóteses que não requerem pressupostos sobre a forma da distribuição subjacente aos dados.

Testes não paramétricos são testes de hipóteses que não requerem pressupostos sobre a forma da distribuição subjacente aos dados. TESTES NÃO PARAMÉTRICOS Testes não paramétricos são testes de hipóteses que não requerem pressupostos sobre a forma da distribuição subjacente aos dados. Bioestatística, 2007 15 Vantagens dos testes não

Leia mais

Análise de Dados Categóricos Tabelas 2 2

Análise de Dados Categóricos Tabelas 2 2 1/49 Análise de Dados Categóricos Tabelas 2 2 Enrico A. Colosimo/UFMG Depto. Estatística - ICEx - UFMG 2/49 Tabela 2 2: Exemplo Exemplo: Fischl et al. (1987) publicaram o primeiro relato de um ensaio clínico

Leia mais

Análise de Aderência e de Associação

Análise de Aderência e de Associação Análise de Aderência e de Associação Capítulo 14, Estatística Básica (Bussab & Morettin, 8a Edição) Capítulo 8, Introdução Computacional à Probabilidade e Estatística (Pedrosa & Gama, Porto Editora) 8a

Leia mais

Capítulo 6 Estatística não-paramétrica

Capítulo 6 Estatística não-paramétrica Capítulo 6 Estatística não-paramétrica Slide 1 Teste de ajustamento do Qui-quadrado Testes de independência e de homogeneidade do Qui-quadrado Testes dos sinais e de Wilcoxon Teste de Mann-Whitney Teste

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Frequência NOME:

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Frequência NOME: DEPARTAMENTO DE MATEMÁTICA DA UNIVERSIDADE DE COIMBRA Estatística Computacional (Licenciatura em Matemática) Duração: 2h Frequência 24-05-2011 NOME: Observação: A resolução completa das perguntas inclui

Leia mais

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves Capítulo 9 - Regressão Linear Simples RLS: Notas breves Regressão Linear Simples Estrutura formal do modelo de Regressão Linear Simples RLS: Y i = β 0 + β 1 x i + ε i, 1 onde Y i : variável resposta ou

Leia mais

É dada uma tabela de contingências, sendo os factores de classificação as proveniências (a=3 níveis) e os terrenos (b=3 níveis).

É dada uma tabela de contingências, sendo os factores de classificação as proveniências (a=3 níveis) e os terrenos (b=3 níveis). ISTITUTO SUPERIOR DE AGROOMIA ESTATÍSTICA E DELIEAMETO 3 de ovembro, 017 PRIMEIRO TESTE 017-18 Uma resolução possível I É dada uma tabela de contingências, sendo os factores de classificação as proveniências

Leia mais

AULA 7 - Inferência em MQO: ICs e Testes de

AULA 7 - Inferência em MQO: ICs e Testes de AULA 7 - Inferência em MQO: ICs e Testes de Hipóteses Susan Schommer Econometria I - IE/UFRJ Nosso primeiro objetivo aqui é relembrar a diferença entre estimação de ponto vs estimação de intervalo. Vamos

Leia mais

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja: Pessoal, trago a vocês a resolução da prova de Estatística do concurso para Auditor Fiscal aplicada pela FCC. Foram 10 questões de estatística! Não identifiquei possibilidade para recursos. Considero a

Leia mais

Uma Incursão pela Sobrevivência Relativa

Uma Incursão pela Sobrevivência Relativa DM Uma Incursão pela Sobrevivência Relativa DISSERTAÇÃO DE MESTRADO Tatiana Filipa Fernandes Temtem Nunes MESTRADO EM MATEMÁTICA dezembro fevereiro 2017 Uma Incursão pela Sobrevivência Relativa DISSERTAÇÃO

Leia mais

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra Análise da Regressão múltipla: MQO Assintótico Capítulo 5 do Wooldridge Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades

Leia mais

O tempo de sobrevivência é uma variável aleatória T, contínua e positiva.

O tempo de sobrevivência é uma variável aleatória T, contínua e positiva. ESPECIFICAÇÃO DO TEMPO DE SOBREVIVÊNCIA O tempo de sobrevivência é uma variável aleatória T, contínua e positiva. Os valores que T pode assumir têm alguma distribuição de probabilidade que pode ser especificada

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Julgue os itens que se seguem, acerca da estatística descritiva. 51 Na distribuição da quantidade de horas trabalhadas por empregados de certa empresa, é sempre possível determinar

Leia mais

AULA 04 Teste de hipótese

AULA 04 Teste de hipótese 1 AULA 04 Teste de hipótese Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal

Leia mais

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100% . Definição dos acontecimentos: M T-shirt tem manchas C T-shirt tem costuras defeituosas D T-shirt é defeituosa A Preço da t-shirt é alterado a) PM) = % PC) = 5% PM C) = % LEEC Probabilidades e Estatística

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

3. Experimentos a um único fator: Análise de Variância (ANOVA) 3.7 Comparações entre médias de tratamento

3. Experimentos a um único fator: Análise de Variância (ANOVA) 3.7 Comparações entre médias de tratamento 3. Experimentos a um único fator: Análise de Variância (ANOVA) 3.7 Comparações entre médias de tratamento Suponha que a hipótese nula, de médias de tratamento iguais, tenha sido rejeitada em favor da hipótese

Leia mais

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística Introdução ao Planejamento e Análise Estatística de Capítulo 3 Introdução à Probabilidade e à Inferência Estatística INTERVALOS DE CONFIANÇA: Diferentes pesquisadores, selecionando amostras de uma mesma

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

AULA 03 Estimativas e tamanhos amostrais

AULA 03 Estimativas e tamanhos amostrais 1 AULA 03 Estimativas e tamanhos amostrais Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade

Leia mais

Professora Ana Hermínia Andrade. Período

Professora Ana Hermínia Andrade. Período Estimação intervalar Professora Ana Hermínia Andrade Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise Período 2017.1 Estimação Intervalar Vimos que como

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Análise de regressão linear simples. Diagrama de dispersão

Análise de regressão linear simples. Diagrama de dispersão Introdução Análise de regressão linear simples Departamento de Matemática Escola Superior de Tecnologia de Viseu A análise de regressão estuda o relacionamento entre uma variável chamada a variável dependente

Leia mais

Delineamento e Análise Experimental Aula 3

Delineamento e Análise Experimental Aula 3 Aula 3 Castro Soares de Oliveira Teste de hipótese Teste de hipótese é uma metodologia estatística que permite tomar decisões sobre uma ou mais populações baseando-se no conhecimento de informações da

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros Distribuições Amostrais e Estimação Pontual de Parâmetros - parte I 2012/02 1 Introdução 2 3 4 5 Objetivos Ao final deste capítulo você deve ser capaz de: Entender estimação de parâmetros de uma distribuição

Leia mais

Universidade Federal de Lavras

Universidade Federal de Lavras Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes

Leia mais

Aula 9 Intervalo de confiança para a média da N(μ; σ 2 ), σ 2 desconhecida

Aula 9 Intervalo de confiança para a média da N(μ; σ 2 ), σ 2 desconhecida Aula 9 Intervalo de confiança para a média da N(μ; σ 2 ), σ 2 desconhecida Nesta aula você completará seu estudo básico sobre intervalos de confiança, analisando o problema de estimação da média de uma

Leia mais