Avaliação e correções de testes de hipóteses em modelos de sobrevivência com fração de cura

Tamanho: px
Começar a partir da página:

Download "Avaliação e correções de testes de hipóteses em modelos de sobrevivência com fração de cura"

Transcrição

1 Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Programa de Pós-Graduação em Matemática Aplicada e Estatística Laís Helen Loose Avaliação e correções de testes de hipóteses em modelos de sobrevivência com fração de cura Natal - RN Fevereiro de 2016

2 Laís Helen Loose Avaliação e correções de testes de hipóteses em modelos de sobrevivência com fração de cura Trabalho apresentado ao Programa de Pós-Graduação em Matemática Aplicada e Estatística da Universidade Federal do Rio Grande do Norte, em cumprimento com as exigências legais para obtenção do título de Mestre. Área de Concentração: Probabilidade e Estatística Orientadora: Prof a. Dr a. Dione Maria Valença Coorientador: Prof. Dr. Fábio Mariano Bayer Natal, fevereiro de 2016

3 Laís Helen Loose Avaliação e correções de testes de hipóteses em modelos de sobrevivência com fração de cura Trabalho apresentado ao Programa de Pós-Graduação em Matemática Aplicada e Estatística da Universidade Federal do Rio Grande do Norte, em cumprimento com as exigências legais para obtenção do título de Mestre. Área de Concentração: Probabilidade e Estatística Aprovado em: / / Banca Examinadora: Prof a. Dr a. Dione Maria Valença Departamento de Estatística - UFRN Orientadora Prof. Dr. Fábio Mariano Bayer Departamento de Estatística - UFSM Coorientador Prof. Dr. Marcelo Bourguignon Pereira Departamento de Estatística - UFRN Examinador Interno Prof. Dr. Francisco Cribari Neto Departamento de Estatística - UFPE Examinador Externo

4 Catalogação da Publicação na Fonte Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI Loose, Laís Helen. Avaliação e correções de testes de hipóteses em modelos de sobrevivência com fração de cura / Laís Helen Loose. - Natal, vi, 72f: il. Orientadora: Profa. Dra. Dione Maria Valença. Coorientador: Prof. Dr. Fábio Mariano Bayer. Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Programa de Pós- Graduação em Matemática Aplicada e Estatística. 1. Análise de sobrevivência. 2. Fração de cura. 3. Melhoramentos inferenciais. 4. Bootstrap. 5. Correção em testes de hipóteses. I. Valença, Dione Maria. II. Bayer, Fábio Mariano. III. Título.

5 Dedicatória Ao meus pais, Sidio e Haidi, com muito amor. i

6 Agradecimentos À minha orientadora, Dione Maria Valença, pela disponibilidade, paciência, comprometimento, dedicação e clareza na orientação. Obrigada por todos os ensinamentos e por acreditar que seria possível realizar esse trabalho. Ao meu coorientador, Fábio Mariano Bayer, pelas valiosas sugestões, pela disponibilidade, comprometimento e por ser o exemplo de professor, pesquisador e pessoa que és. Obrigada pelo incentivo, pelos conselhos, por me acompanhar desde a graduação e ter contribuído significativamente na minha formação acadêmica e pessoal. A minha família e amigos, por entenderem minha ausência e mesmo longe estarem sempre torcendo por mim. Em especial aos meus pais, pelos ensinamentos e exemplos de honestidade, perseverança e força. Obrigada por respeitarem minhas decisões, pelo apoio incondicional, por vibrarem a cada conquista e pelo amor sem fim. Aos meus irmãos Luís e Léo, por suprirem minha ausência e por todo apoio. Ao meu namorado Moizés e sua família, por todos os momentos em família que me proporcionaram mesmo longe do RS. Em especial ao Moizés, além de meu namorado, tornou-se meu amigo, meu companheiro de estudo, com quem compartilhei muitas horas de estudos durante a realização desse trabalho. Obrigada por toda paciência, amor e carinho. Aos meus amigos Jhonnata e Felipe, pela acolhida em Natal, por todas as horas de estudos e pelos momentos de descontração. Obrigada pela amizade e carinho de vocês. Aos colegas do PPGMAE, pelos estudos, pelas discussões acadêmicas, pelas brincadeiras e risadas. Aos professores do PPGMAE, pelos ensinamentos, apoio e atenção. Aos participantes da banca examinadora pelas sugestões. À CAPES pelo apoio financeiro. ii

7 Resumo Os modelos de sobrevivência tratam do estudo do tempo até a ocorrência de um evento de interesse. Em algumas situações, uma proporção da população pode não estar mais sujeita à ocorrência do evento. Nesse contexto, surgiram os modelos com fração de cura. Dentre os modelos que incorporam uma fração de curados um dos mais conhecidos é o modelo de tempo de promoção. No presente trabalho abordamos inferências em termos de testes de hipóteses no modelo de tempo de promoção assumindo a distribuição Weibull para os tempos de falha dos indivíduos suscetíveis. Os testes de hipóteses nesse modelo podem ser realizados com base nas estatísticas da razão de verossimilhanças, gradiente, escore ou Wald. Os valores críticos dos testes são obtidos através de aproximações válidas em grandes amostras, que podem conduzir a distorções no tamanho do teste em amostras de tamanho finito. Nesse sentido, o presente trabalho propõe correções via bootstrap para os testes mencionados e Bartlett bootstrap para a estatística da razão de verossimilhanças no modelo tempo de promoção Weibull. Por meio de simulações de Monte Carlo comparamos o desempenho em amostras finitas das correções propostas com os testes usuais. Os resultados numéricos obtidos evidenciam o bom desempenho das correções propostas. Ao final do trabalho é apresentada uma aplicação a dados reais. Palavras-chave: análise de sobrevivência, fração de cura, melhoramentos inferenciais, bootstrap, correção em testes de hipóteses. iii

8 Abstract Survival models deals with the modelling of time to event data. In certain situations, a share of the population can no longer be subjected to the event occurrence. In this context, the cure fraction models emerged. Among the models that incorporate a fraction of cured one of the most known is the promotion time model. In the present study we discuss hypothesis testing in the promotion time model with Weibull distribution for the failure times of susceptible individuals. Hypothesis testing in this model may be performed based on likelihood ratio, gradient, score or Wald statistics. The critical values are obtained from asymptotic approximations, which may result in size distortions in finite sample sizes. This study proposes bootstrap corrections to the aforementioned tests and Bartlett bootstrap to the likelihood ratio statistic in Weibull promotion time model. Using Monte Carlo simulations we compared the finite sample performances of the proposed corrections in contrast with the usual tests. The numerical evidence favors the proposed corrected tests. At the end of the work an empirical application is presented. Keywords: Survival analysis, cure fraction, inferential improvement, bootstrap, improvement in hypothesis testing iv

9 Sumário 1 Introdução Objetivos Descrição dos capítulos Modelos de sobrevivência com fração de cura e modelo de tempo de promoção Weibull Introdução à análise de sobrevivência Função de sobrevivência e função risco Censura Modelos paramétricos Modelos com fração de cura Formulação do modelo Verossimilhança para o modelo de tempo de promoção Modelo de tempo de promoção Weibull Testes de hipóteses e melhoramentos inferenciais em pequenas amostras Estatísticas de teste Melhoramentos inferenciais em testes de hipóteses Correção bootstrap usual Correção de Bartlett bootstrap para a estatística LR Bootstrap para dados com censura Testes de hipóteses em modelos de sobrevivência Resultados numéricos 22 5 Aplicação 32 6 Considerações finais 36 v

10 Referências Bibliográficas 37 A Demonstrações 43 A.1 Obtenção do logaritmo da função de verossimilhança do modelo de tempo de promoção Weibull A.2 Obtenção do vetor escore B Valores fixados para os parâmetros nas simulações 46 C Aspectos computacionais 48 C.1 Simulações C.2 Aplicação vi

11 Capítulo 1 Introdução O tempo até a ocorrência de um evento de interesse, também conhecido como tempo de vida, tempo até a falha ou tempo de sobrevivência, é a variável de estudo em análise de sobrevivência (LAWLESS, 2003). Os modelos usuais de sobrevivência são amplamente conhecidos e discutidos na literatura, sendo baseados na suposição de que o evento de interesse irá ocorrer em todos os indivíduos do estudo, desde que acompanhados tempo suficiente (LAWLESS, 2003; COX; OAKES, 1984; COLLETT, 2015). No entanto, esses modelos usuais podem ser inadequados quando uma proporção da população não estiver mais sujeita ao evento de interesse, ou seja, parte da população estiver curada. Modelos que tratam desta abordagem são chamados de modelos de fração de cura. Os primeiros modelos para esse tipo de situação foram propostos por Boag (1949) e Berkson e Gage (1952) no contexto de tempo de sobrevivência de pacientes com câncer, considerando mistura de distribuições. Esses modelos ficaram conhecidos como modelos de mistura padrão, pois são baseados na mistura de duas distribuições, uma para a sobrevivência dos indivíduos não curados e a outra uma distribuição degenerada, a qual permite tempos infinitos para os curados. Para mais detalhes sobre modelos de mistura ver Maller e Zhou (1996). O modelo de mistura parece atraente e intuitivo. No entanto, apresenta alguns inconvenientes. Na presença de covariáveis ele não apresenta estrutura de riscos proporcionais, característica desejada quando utilizada inferência clássica (MATELUNA, 2014; YAKOVLEV; TSODIKOV, 1996). Outra abordagem na classe dos modelos de fração de cura com a estrutura de riscos proporcionais é o modelo de tempo de promoção. Este modelo foi apresentado por Yakovlev et al. (1993), estendido por Chen, Ibrahim e Sinha (1999) e incorporado como caso particular em uma forma unificada juntamente com o modelo de mistura padrão, por Rodrigues et al. (2009). Este modelo, 1

12 2 mais complexo que o modelo de mistura padrão, tem características adequadas para explicar o mecanismo biológico envolvido em estudo de portadores de câncer. Também se adequa a outras aplicações e atende à característica de riscos proporcionais. Diferentes abordagens têm sido apresentadas no contexto de estimação dos parâmetros nesses modelos, sob o ponto de vista clássico e bayesiano (MALLER; ZHOU, 1996; CHEN; IBRAHIM; SINHA, 1999; IBRAHIM; CHEN; SINHA, 2005; FONSECA; VALENÇA; BOLFARINE, 2013). A estimação dos parâmetros no presente trabalho é baseada nos estimadores de máxima verossimilhança (EMV). Sob condições de regularidade esses estimadores possuem propriedades de consistência e normalidade assintótica (SEVERINI, 2000). Após a estimação pontual, outro aspecto importante na modelagem são os testes de hipóteses sobre os parâmetros do modelo. Entre as estatísticas de teste conhecidas na literatura para realização de testes de hipóteses temos: (i) a estatística da razão de verossimilhanças (LR) (NEYMAN; PEARSON, 1928), (ii) estatística Wald (W) (WALD, 1943), (iii) estatística escore de Rao (S) (RAO, 1948) e (iv) a estatística gradiente (G) (TERRELL, 2002). Estes testes são baseados em estatísticas cuja distribuição assintótica sob a hipótese nula é a qui-quadrado e são denominados testes assintóticos de primeira ordem (CORDEIRO; CRIBARI-NETO, 2014). Desta forma, os valores críticos são provenientes de aproximações válidas em grandes amostras. Contudo, essas aproximações podem ser pobres em pequenas amostras, acarretando consideráveis distorções da probabilidade do erro tipo I (tamanho) dos testes (CRIBARI-NETO; CORDEIRO, 1996; CORDEIRO; CRIBARI-NETO, 2014). Nas estatísticas (i) e (iv), conforme Carneiro (2012), verifica-se consideráveis distorções da probabilidade do erro tipo I no modelo de tempo de promoção Weibull. Nesse sentido, torna-se evidente a necessidade de melhoramentos inferenciais em pequenas amostras, por meio de ajustes analíticos ou numérico computacionais. Uma das possibilidades numéricas de melhoramentos inferenciais em pequenas amostras é o método bootstrap (EFRON, 1979). O método bootstrap é um método computacionalmente intensivo baseado em reamostragens, o qual permite a obtenção de medidas de interesse sem necessidade de suposições teóricas restritivas ou cálculos analíticos custosos (CORDEIRO; CRIBARI-NETO, 2014). No melhoramento de testes de hipóteses, os valores críticos dos testes são obtidos a partir da distribuição empírica estimada da estatística de teste (CRIBARI-NETO; QUEIROZ, 2014). A utilização deste método possibilita obter uma menor distorção de tamanho do teste, sendo os resultados consideravelmente melhores que os testes assintóticos usuais em diversos modelos (CYSNEIROS; CORDEIRO, 2002; CYSNEIROS et al., 2010; BARRETO;

13 1.1 Objetivos 3 CYSNEIROS; CRIBARI-NETO, 2013; CRIBARI-NETO; QUEIROZ, 2014). Outra alternativa às correções bootstrap usuais é a correção de Bartlett bootstrap para a estatística da razão de verossimilhanças, introduzida por Rocke (1989), em que o fator de correção de Bartlett (LAWLEY, 1956) é determinado pelo método bootstrap. Essa correção se torna uma boa alternativa à determinação analítica do fator de correção de Bartlett, que em alguns modelos podem ser custosas ou impossíveis de serem obtidas (CORDEIRO; CRIBARI-NETO, 2014; LOOSE; BAYER; PEREIRA, 2015). 1.1 Objetivos Neste sentido, o objetivo geral do presente trabalho é avaliar e melhorar as inferências via testes de hipóteses em amostras de tamanho finito no modelo de tempo de promoção Weibull. Para alcançar este objetivo geral, pontuamos os seguintes objetivos específicos: revisar o estado da arte no que tange correções de testes de hipóteses via bootstrap e Bartlett bootstrap, em especial em modelos de sobrevivência; avaliar os testes de hipóteses da razão de verossimilhanças, escore, Wald e gradiente no modelo de tempo de promoção Weibull. Salienta-se que os desempenhos das estatísticas Wald e escore ainda não foram investigados no modelo de tempo de promoção Weibull; melhorar os testes de hipóteses por meio de correções bootstrap e Bartlett bootstrap; avaliar numericamente via simulações de Monte Carlo as correções propostas; aplicar a dados reais os melhoramentos inferenciais propostos. 1.2 Descrição dos capítulos O Capítulo 2 apresenta uma breve introdução à análise de sobrevivência, alguns conceitos básicos, o modelo com fração de cura e alguns detalhes inferenciais. No Capítulo 3, são introduzidas as estatísticas usuais para testes de hipóteses e as propostas de melhoramentos inferenciais via correções bootstrap e Bartlett bootstrap. No Capítulo 4, são apresentados os resultados do estudo de simulação bem como a discussão dos mesmos. No Capítulo 5, é realizada uma aplicação a dados reais considerando as correções propostas. Por fim, no Capítulo 6, estão as considerações finais.

14 Capítulo 2 Modelos de sobrevivência com fração de cura e modelo de tempo de promoção Weibull Neste capítulo é apresentada uma introdução aos conceitos básicos de análise de sobrevivência e do modelo de fração de cura, considerando a abordagem unificada proposta em Rodrigues et al. (2009). 2.1 Introdução à análise de sobrevivência A análise de sobrevivência é caracterizada por um conjunto de técnicas estatísticas que têm como principal objetivo o estudo do tempo de vida, ou tempo até a ocorrência de um evento de interesse. Por exemplo, tempo até a morte de um paciente, tempo até a falha de um componente eletrônico, tempo até a recidiva de uma doença, tempo até a falência de uma empresa, entre outras ocorrências, são objetivo de estudo em análise de sobrevivência. Sendo a variável resposta conhecida na literatura como tempo de vida ou tempo de falha (LAWLESS, 2003; COX; OAKES, 1984; COLLETT, 2015; COLOSIMO; GIOLO, 2006). Seja T a variável aleatória contínua não-negativa que corresponde ao tempo até a ocorrência de um evento de interesse, f(t) a função densidade e F (t) a função distribuição acumulada. Em análise de sobrevivência são frequentemente utilizadas duas outras funções: a função de sobrevivência e a função risco, apresentadas a seguir. 4

15 2.1 Introdução à análise de sobrevivência Função de sobrevivência e função risco A função de sobrevivência para a variável aleatória T é dada por (LAWLESS, 2003): S(t) = P (T > t) = t f(u)du = 1 F (t), para t > 0. (2.1) Esta função representa a probabilidade de um indivíduo sobreviver pelo menos até o tempo t. Note que S(t) é monótona decrescente com as seguintes propriedades: i) S(0) = 1 ii) lim t S(t) = 0. A função risco ou taxa de falha de T é dada por P (t < T t + t T > t) h(t) = lim. (2.2) t 0 + t Esta função especifica a taxa de falha instantânea no tempo t (LAWLESS, 2003). As funções de densidade, sobrevivência e taxa de falha estão relacionadas. Essa relação é dada por f(t) = ds(t), dt h(t) = f(t) S(t) d log S(t) =. dt Nota-se que conhecendo uma delas as demais podem ser obtidas diretamente. A primeira relação vem da definição (2.1), sendo fácil a verificação e a segunda vem de (2.2). A demonstração é dada a seguir: P (t < T t + t T t) h(t) = lim t 0 + t 1 P (t < T t + t) = lim t 0 + t P (T > t) 1 F (t + t) F (t) = lim t 0 + t S(t) = 1 F (t + t) F (t) lim S(t) t 0 + t = 1 S(t) F (t) = f(t) S(t).

16 2.1 Introdução à análise de sobrevivência Censura Em dados de sobrevivência a principal característica observada é a presença de censura, vista como uma ocorrência apenas parcial da resposta (COX; OAKES, 1984). A censura surge quando algum acontecimento impede que a ocorrência do evento de interesse seja observada para um indivíduo. Isso pode ocorrer pela morte do indivíduo, pela mudança de cidade ou, até mesmo, porque o estudo terminou antes que o evento de interesse tenha sido observado (LAWLESS, 2003; COX; OAKES, 1984). A censura nos dados é a principal razão para o desenvolvimento dos modelos de sobrevivência (LAWLESS, 2003). Nos casos em que não há censura, métodos usuais como modelos de regressão ou modelos lineares seriam aplicáveis. Há diferentes tipos de censura, sendo que o mais utilizado e também considerado nesse trabalho é a censura à direita. Caracteriza-se pela ocorrência da falha após o tempo registrado, ou seja, o tempo do início do estudo até a ocorrência do evento de interesse é maior que o tempo registrado (COLLETT, 2015; LAWLESS, 2003). Entre os mecanismos de censura à direita conhecidos na literatura o mais comum na prática é o de censura aleatória. Este caracteriza-se por interrupções aleatórias no acompanhamento dos indivíduos (LAWLESS, 2003). Neste mecanismo assume-se que os tempos de censura também são variáveis aleatórias. Quando a distribuição da censura não envolve parâmetros de interesse, diz-se que a censura é não informativa (COLLETT, 2015) Modelos paramétricos A seguir são apresentadas duas distribuições usadas frequentemente na análise de dados de sobrevivência, que serão consideradas neste trabalho. Distribuição Weibull A distribuição Weibull é uma generalização da distribuição exponencial. Dentre os modelos paramétricos, possivelmente é o mais utilizado na modelagem de dados de tempo de vida (LAWLESS, 2003). A função densidade de probabilidade de uma variável aleatória T com distribuição Weibull é dada por f(t) = a [ ( ) a ] t b a ta 1 exp, t 0, (2.3) b em que a > 0 e b > 0 são, respectivamente, parâmetros de forma e escala.

17 2.2 Modelos com fração de cura 7 A função de sobrevivência e função risco são dadas por Distribuição valor extremo [ ( ) a ] t S(t) = exp b e h(t) = a b a ta 1. Na análise de dados de sobrevivência muitas vezes é conveniente trabalhar com o logaritmo dos dados (COLOSIMO; GIOLO, 2006). A distribuição valor extremo está relacionada com a distribuição Weibull, de tal forma que se T tem distribuição Weibull(a,b), Y = log(t ) tem distribuição valor extremo com parâmetros µ = log(b) e σ = 1. A função densidade de probabilidade da variável aleatória Y é dada por a f(y) = 1 σ exp [ y µ σ ( y µ exp σ )], em que y e µ R e σ > 0, µ e σ são parâmetros de posição e escala, respectivamente. A função de sobrevivência é dada por [ S(y) = exp exp ( y µ 2.2 Modelos com fração de cura σ )]. Os modelos clássicos de análise de sobrevivência têm como característica função de sobrevivência própria, ou seja, lim t S(t) = 0, (ver Seção 2.1.1, propriedade ii). Funções de sobrevivência que não satisfazem essa propriedade são ditas impróprias, caracterizando os modelos com fração de cura, também chamados de modelos de longa duração (CHEN; IBRAHIM; SINHA, 1999; RODRIGUES et al., 2009). Na prática, a presença de imunes na população pode ser identificada através do gráfico de Kaplan-Meier (KAPLAN; MEIER, 1958), que estima de forma não paramétrica a função de sobrevivência teórica. Um indicativo da presença de imunes nos dados pode ser a ocorrência de um grande número de observações censuradas no fim do estudo, desde que o acompanhamento seja feito por um tempo suficientemente grande (MALLER; ZHOU, 1996). Desta forma, a curva de Kaplan-Meier vai se estabilizar em um valor maior que zero. Rodrigues et al. (2009) propõem uma abordagem unificada para os modelos de fração de cura, por meio de uma função geradora de sequências reais introduzida por Feller (1960). Nesta abordagem, são apresentados os modelos de mistura e tempo de

18 2.2 Modelos com fração de cura 8 promoção como casos particulares Formulação do modelo Seja M uma variável aleatória que denota o número de causas ou riscos competindo para a ocorrência de um particular evento de interesse, com distribuição de probabilidade p m = P θ (M = m), sendo θ o parâmetro da distribuição e m = 0, 1, 2,.... Sejam Z k, k = 1,..., m, variáveis aleatórias independentes com função de distribuição F (t) = 1 S(t), independente de M, representando o tempo até a ocorrência do evento devido à k-ésima causa. O número de causas competindo para a ocorrência do evento M e o tempo de ocorrência para cada causa (Z k ) são não observáveis. Apenas pode-se observar o menor tempo entre todas as causas, T = min{z 0, Z 1,..., Z M }, definido como o tempo até a ocorrência do evento. A variável Z 0 é tal que P (Z 0 = ) = 1, pois quando M = 0 não existem causas ou riscos para a ocorrência do evento. A função de sobrevivência da variável aleatória T, denotada por S p (t), é dada por S p (t) = P (T > t) = P (T > t,m = 0) + P (T > t,m 1) = P (T > t M = 0)P (M = 0) + P (T > t M 1)P (M 1) = p 0 + p m S(t) m, (2.4) m=1 em que P (T > t M = 0) = 1, P (M = 0) = p 0 e S(t) representa a função de sobrevivência dos indivíduos susceptíveis à ocorrência do evento, caracterizada por ser própria. Logo, é fácil ver que S p (t) é imprópria, ou seja, lim t S p (t) = p 0 > 0, sendo p 0 > 0 interpretado como a fração de curados (RODRIGUES et al., 2009). Seja {a m } uma sequência de números reais. Se A(s) = a 0 + a 1 s + a 2 s 2 + converge para s [0,1], então define-se A(s) como a função geradora de sequências {a m } (FELLER, 1960). Rodrigues et al. (2009) mostram que: S p (t) = A(S(t)) = p m {S(t)} m, m=0

19 2.2 Modelos com fração de cura 9 em que A( ) é a função geradora de sequências {p m }. Ainda, conforme Rodrigues et al. (2009) a equação (2.4) pode também ser escrita como S p (t) = p 0 + (1 p 0 )Sp(t), (2.5) em que S p(t) = m=1 p ms(t) m e p m = p m 1 p 0. As funções de subdensidade e de risco do modelo são dadas, respectivamente, por: f p (t) = S p(t) t = f(t) m=1 mp m [S(t)] m 1 e h p (t) = f p(t) S p (t). A seguir são apresentados dois casos particulares do modelo unificado que se diferenciam pela distribuição assumida para M. Modelo de mistura No modelo de mistura assume-se que M tem distribuição Bernoulli com parâmetro 1 θ, em que p 0 = θ, p 1 = 1 θ e p n = 0 para n 2 (RODRIGUES et al., 2009). Baseada na equação (2.4) ou em (2.5), a sobrevivência do modelo de mistura apresentado por Berkson e Gage (1952) é dada por S p (t) = θ + (1 θ)s(t), em que θ representa a proporção de curados. As funções de subdensidade e de risco são dadas por (1 θ) f p (t) = (1 θ)f(t) e h p (t) = f(t) θ + (1 θ)s(t). Modelo de tempo de promoção Neste modelo assume-se que M tem distribuição Poisson com parâmetro θ. Baseada na equação (2.4), a sobrevivência do modelo tempo de promoção apresentado em Yakovlev et al. (1993) e Chen, Ibrahim e Sinha (1999) é dada por S p (t) = exp{ θ[1 S(t)]}, (2.6)

20 2.2 Modelos com fração de cura 10 em que S(t) é a função de sobrevivência dos tempos Z k, k = 1,..., M, caracterizada por ser própria. Logo, é fácil ver que S p (t) é imprópria, com lim t S p (t) = exp( θ), sendo p 0 = exp( θ) a fração de curados. As funções de subdensidade e de risco são dadas, respectivamente, por f p (t) = θf(t) exp( θf (t)) e h p (t) = θf(t). (2.7) Verossimilhança para o modelo de tempo de promoção Para obtenção da função de verossimilhança, supomos uma amostra com n indivíduos e para cada indivíduo i, i = 1,..., n, e consideramos as seguintes variáveis associadas: M i : variável aleatória discreta não observável com função de probabilidade P θ (M i = m i ) = e θ θ m i, em que θ é um vetor de parâmetros desconhecidos; m i! Z ij, i = 1,..., n, j = 1 =,..., m i : são variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) que representam o tempo que a causa j, no i-ésimo indivíduo, leva para provocar o evento de interesse, com função de distribuição F (z λ) e sobrevivência S(z λ) = 1 F (z λ), sendo λ o vetor de parâmetros associados ao modelo. Y i = min{t i, C i }: tempo observado para o indivíduo i, sendo C i o tempo de censura, considerada aleatória, não informativa e independente de T i, e T i = min{z i0,z i1,..., Z imi }; δ i : indicador da censura, ou seja, se Y i = T i, δ i = 1, e se Y i = C i, δ i = 0; x i = (x i1, x i2,..., x ip ) : vetor de covariáveis associado ao i-ésimo indivíduo; X: a matriz n p que contém os vetores de covariáveis. O conjunto dos dados completos é denotado por D c = (n,y,δ, M, X), em que y = (y 1,..., y n ) são os tempos observados, δ = (δ 1,..., δ n ), M = (M 1,..., M n ), X = (x 1,..., x n ). O conjunto dos dados observáveis é denotado por D = (n,y,δ, X). As covariáveis podem ser incluídas através do parâmetro associado à fração de cura θ i = θ(x i β) sendo β = (β 1,..., β p ) o vetor de coeficientes de regressão. No modelo de tempo de promoção a relação entre as covariáveis e a fração de cura, em geral, é dada por θ i = exp(x i β). Assim a fração de cura é dada por p 0i = exp[ exp(x i β)].

21 2.3 Modelo de tempo de promoção Weibull 11 Seja φ = (β, λ ) o vetor de parâmetros desconhecidos. Pode-se mostrar (ver Carneiro (2012)), que a função de verossimilhança em relação aos dados completos é dada por L(φ; D c ) = n [m i f(y i λ)] δ i [S(y i λ)] m i δ i p θi (m i ). i=1 O logaritmo da função de verossimilhança é dado por l(φ; D c ) = n [δ i log(m i ) + δ i log(f(y i λ)) + (m i δ i ) log(s(y i λ)) + log(p θi (m i ))]. i=1 Como existem variáveis latentes, na prática utiliza-se uma verossimilhança marginal, obtida através do somatório nas variáveis M i. A função de verossimilhança marginal é dada por L(φ; D) = n [f p (y i λ,θ)] δ i [S p (y i λ, θ)] 1 δ i. i=1 O logaritmo da função de verossimilhança marginal é dado por l(φ; D) = n δ i log[f p (y i φ)] + (1 δ i ) log[s p (y i φ)]. (2.8) i=1 As demonstrações desses resultados podem ser verificadas, por exemplo, em Carneiro (2012). 2.3 Modelo de tempo de promoção Weibull Neste modelo assume-se que os tempos de falha dos indivíduos suscetíveis seguem uma distribuição Weibull(a, b), como apresentada em (2.3). Em análise de sobrevivência, por razões computacionais, é comum reparametrizar a distribuição Weibull. Um dos trabalhos que utiliza reparametrizações é Fonseca, Valença e Bolfarine (2013). Neste trabalho consideramos a reparametrização dada a seguir: ρ = log(a) e γ = a log(b), em que a > 0 e b > 0 são parâmetros de forma e escala respectivamente em (2.3). Dessa forma, temos ρ R e γ R.

22 2.3 Modelo de tempo de promoção Weibull 12 Considerando essa reparametrização, as funções de densidade de probabilidade e sobrevivência são dadas, respectivamente, por: f(t) = e ρ t eρ 1 exp(γ t eρ e γ ) e S(t) = exp( t eρ e γ ). por Como consequência, temos a função de sobrevivência de longa duração (2.6) dada S p (t) = exp{ θ[1 exp( t eρ e γ )]}. (2.9) De (2.7) temos a subdensidade dada por f p (t) = θe ρ t eρ 1 exp(γ t eρ e γ ) exp{ θ[1 exp( t eρ e γ )]} (2.10) e a função risco do modelo dada por h p (t) = θe ρ t eρ 1 exp(γ t eρ e γ ). Considerando uma amostra com n indivíduos, seja D = (n,y, δ, X) o conjunto dos dados observáveis e φ = (β, λ ) o vetor de parâmetros, em que λ = (ρ, γ). Substituindo (2.9) e (2.10) em (2.8) e incluindo covariáveis através da relação θ i = exp(x i β), o logaritmo da função de verossimilhança do modelo de tempo de promoção é dado abaixo (ver demonstração no Apêndice A): l(φ; D) = n i=1 δ i [x i β + γ + ρ + log(y eρ 1 i ) yi eρ e γ ] exp(x i β)[1 exp( yi eρ e γ )]. (2.11) O vetor escore é obtido derivando (2.11) em relação ao vetor de parâmetros φ, dado a seguir: U(φ) = l(φ; D) φ = l(φ; D) β l(φ; D) ρ l(φ; D) γ U β (φ) = U ρ (φ) U γ (φ) (p+2) 1 = n Xi s i (φ), i=1

23 2.3 Modelo de tempo de promoção Weibull 13 em que X i = x i (p+2) 3 dado por (s i1 (φ), s i2 (φ), s i3 (φ)), sendo s i1 (φ) = δ i θ i [1 exp( y eρ i e γ )], s i2 (φ) = δ i [1 + e ρ log(y i )(1 y eρ i s i3 (φ) = δ i (1 y eρ i e γ ) θ i exp(γ yi eρ e γ )yi eρ. é uma matriz e s i (φ) é o vetor de dimensão 3 1 e γ )] θ i exp(ρ + γ yi eρ e γ )yi eρ log(y i ) e A obtenção do vetor escore pode ser verificada no Apêndice A. As estimativas de máxima verossimilhança são obtidas a partir da solução do seguinte sistema: U β (φ) = 0, U ρ (φ) = 0, U γ (φ) = 0. A solução deste sistema não possui forma fechada, sendo necessário o uso de algoritmos de otimização não-linear para encontrar as estimativas de máxima verossimilhança. Neste trabalho utiliza-se o método quasi-newton BFGS (PRESS et al., 1992). A matriz de informação observada J(φ) é dada pelo negativo da segunda derivada da função de log-verossimilhança (2.11), dada a seguir: J(φ) = 2 l(φ; D) φ φ 2 l(φ; D) 2 l(φ; D) 2 l(φ; D) β β β ρ β γ = 2 l(φ; D) 2 l(φ; D) 2 l(φ; D) ρ β ρ 2 ρ γ 2 l(φ; D) 2 l(φ; D) 2 l(φ; D) γ β γ ρ γ 2 A informação de Fisher é dada por K(φ) = E[J(φ)]. Não é difícil ver que o valor esperado de J(φ) nesse modelo não pode ser obtido, em razão da segunda derivada de (2.11) envolver δ i, indicador da censura, a qual é aleatória e não informativa. Na prática, é comum o uso da matriz de informação observada como uma aproximação para a matriz informação de Fisher. Ainda, de acordo com Sen e Singer (1994) J( φ) é um estimador consistente para K(φ), de tal forma que as versões dos testes considerando a informação observada são assintoticamente equivalentes..

24 Capítulo 3 Testes de hipóteses e melhoramentos inferenciais em pequenas amostras Após a estimação dos parâmetros do modelo, em geral, realizam-se testes a fim de determinar se hipóteses feitas sobre esses parâmetros são suportadas por evidências obtidas a partir de dados amostrais. A seguir descrevemos os testes de hipóteses baseados nas estatísticas LR, W, S e G, uma breve revisão sobre melhoramentos inferenciais em testes de hipóteses, as propostas de correções consideradas nesse trabalho e algumas referências que discutem a validade dos testes em modelos de sobrevivência. 3.1 Estatísticas de teste Seja o vetor de parâmetros φ = (ν, τ ), em que ν = (ν 1,..., ν q ) representa o vetor de parâmetros de interesse e τ = (τ 1,..., τ s ) o vetor de parâmetros de perturbação. Suponha que o interesse esteja em testar H 0 : ν = ν 0 versus H 1 : ν ν 0, em que ν 0 é um vetor de constantes especificado de dimensão q. O estimador de máxima verossimilhança sob H 0 (restrito) é denotado por φ = (ν 0, τ ) e o estimador de máxima verossimilhança irrestrito φ = ( ν, τ ). Seja l(φ) = l(ν, τ ) o logaritmo da função de verossimilhança de ν e τ. Conforme Cordeiro (1992), podemos particionar o vetor escore U(φ), a matriz informação de Fisher K(φ) e sua inversa K(φ) 1 da mesma maneira que particionamos φ, sendo U(φ) = 14

25 3.1 Estatísticas de teste 15 (U ν (φ), U τ (φ) ), ( K(φ) = K νν (φ) K τ ν (φ) K ντ (φ) K τ τ (φ) ) e K(φ) 1 = ( K νν (φ) K τ ν (φ) K ντ (φ) K τ τ (φ) ). Considerando essas partições as estatísticas da razão de verossimilhanças, Wald, escore e gradiente são escritas conforme segue: LR = 2[l( ν, τ ) l(ν 0, τ )], W = ( ν ν 0 ) [K νν ( φ)] 1 ( ν ν 0 ), S = U ν ( φ) K νν ( φ)u ν ( φ), G = U ν ( φ) ( ν ν 0 ), sendo K νν = ( K νν K ντ K 1 τ τ K ντ ) 1. Note que quando ν e τ são ortogonais, K νν = K 1 νν. Sob condições de regularidade usuais e sob a hipótese nula, as quatro estatísticas apresentadas são assintoticamente equivalentes, possuindo aproximadamente distribuição χ 2 q em grandes amostras, em que q é o número de parâmetros testados na hipótese nula (SEVERINI, 2000; CASELLA; BERGER, 2002; VARGAS; FERRARI; LEMONTE, 2014). Um importante trabalho no contexto de testes de hipóteses é Buse (1982), o qual apresenta interpretações geométricas dos testes baseados nas estatísticas RV, W e S. No mesmo sentido, recentemente Montoril (2010) apresenta a interpretação geométrica também para o teste baseado na estatística G. A estatística gradiente é vista como uma derivação das estatísticas escore e Wald, no entanto, de natureza distinta. A estatística escore mede o comprimento do quadrado do vetor escore sob H 0 usando a inversa da matriz informação de Fisher. Enquanto que a estatística Wald se dá pelo quadrado da distância entre o estimador de máxima verossimilhança irrestrito e o restrito de φ, usando a matriz informação de Fisher (VAR- GAS; FERRARI; LEMONTE, 2013). Muitos trabalhos vem sendo desenvolvidos sobre a estatística gradiente (LEMONTE; FERRARI, 2012; LEMONTE, 2013; VARGAS; FERRARI; LEMONTE, 2013).

26 3.2 Melhoramentos inferenciais em testes de hipóteses 16 Os testes de hipóteses são realizados com base em valores críticos obtidos a partir de aproximações válidas em grandes amostras. Nesse sentido, o uso destes testes em pequenas amostras pode acarretar consideráveis distorções na probabilidade do erro tipo I. Essas distorções podem ser reduzidas através de melhoramentos inferenciais (CRIBARI-NETO; QUEIROZ, 2014; VARGAS; FERRARI; LEMONTE, 2014). A seguir são apresentados os procedimentos utilizados no presente trabalho baseados em métodos numérico computacionais para correções em testes de hipóteses. 3.2 Melhoramentos inferenciais em testes de hipóteses Melhoramentos inferenciais em testes de hipóteses têm recebido grande destaque na comunidade acadêmica nos últimos anos, sendo desenvolvidos em diferentes modelos, via ajustes analíticos ou numérico computacionais. Duas importantes referências sobre melhoramentos inferenciais em pequenas amostras são Cribari-Neto e Cordeiro (1996) e Cordeiro e Cribari-Neto (2014). Esses trabalhos abordadam correções como a de Bartlett, por exemplo, a qual foi proposta por Bartlett (1937) e posteriormente generalizada por Lawley (1956), obtida de forma analítica. A ideia dessa correção é considerar uma transformação na estatística de teste, baseada em um fator de correção, a qual leva a uma melhor aproximação da distribuição da estatística corrigida pela distribuição qui-quadrado. Também são abordadas outras correções como a tipo Bartlett, Bartlett bootstrap e bootstrap. Dentre os trabalhos desenvolvidos considerando correções em testes de hipóteses temos Cysneiros e Cordeiro (2002), no qual é obtida a correção tipo Bartlett para a estatística escore, em notação matricial, na classe dos modelos não-lineares da família locação e escala, além da aproximação bootstrap para a distribuição nula das estatísticas escore e razão de verossimilhanças. Em Cysneiros e Ferrari (2006) é obtida a correção de Bartlett para a estatística da razão de verossimilhanças modificada para testar dispersão variável no modelo não-linear da família exponencial. Cysneiros et al. (2010) propõem correções analíticas para a estatística escore, bem como a versão bootstrap no modelo de regressão simétrico não-linear. Bayer e Cribari-Neto (2013) derivam a correção de Bartlett para a estatística da razão de verossimilhanças e também a correção Bartlett bootstrap no modelo de regressão beta. Em Barreto, Cysneiros e Cribari-Neto (2013) no modelo Birnbaum-Saunders com censura do tipo II além da correção via bootstrap são apresentados melhoramentos inferencias analíticos para a estatística razão de verossimilhanças, sendo um dos poucos trabalhos que apresenta

27 3.2 Melhoramentos inferenciais em testes de hipóteses 17 melhoramentos inferenciais no contexto de dados com censura. Cribari-Neto e Queiroz (2014) consideram no modelo de regressão beta versões ajustadas da estatística razão de verossimilhanças já propostas na literatura por Ferrari e Pinheiro (2011), e correções via bootstrap para as estatísticas razão de verossimilhanças, escore e Wald. Vargas, Ferrari e Lemonte (2014) nos modelos lineares generalizados apresentam a correção de Bartlett para as estatísticas razão de verossimilhanças e escore, e derivam o fator de correção tipo Bartlett para a estatística gradiente, além de versões bootstrap para as quatro estatísticas já mencionadas no presente trabalho. Recentemente Loose, Bayer e Pereira (2015) propõem a correção Bartlett bootstrap no modelo de regressão beta inflacionado, comparando com a estatística usual e ajustes analíticos via Skovgaard (SKOVGAARD, 1996) já propostos na literatura para o modelo por Pereira e Cribari- Neto (2014). Cabe destacar que não há trabalhos que abordam correções em testes de hipóteses no modelo com fração de cura, em especial no modelo tempo de promoção Weibull. Todos os trabalhos mencionados avaliam o desempenho dos testes usuais e de suas versões corrigidas. Em todos os casos os testes corrigidos são menos distorcidos que os testes usuais. Cabe ainda destacar que os desempenhos das correções analíticas ou via métodos numérico computacionais são muito semelhantes. Em geral as correções numérico computacionais apresentam desempenhos iguais ou até superiores às correções analíticas. Nesse sentido, correções via métodos numérico computacionais são alternativas viáveis para melhoramentos inferenciais em pequenas amostras, quando há dificuldades analíticas impeditivas ou muito custosas, como no modelo aqui considerado. A seguir são apresentados os dois métodos de correção em testes de hipóteses considerados no presente trabalho Correção bootstrap usual Uma das opções de melhoramento inferencial em testes de hipóteses é a correção bootstrap. Existe uma vasta literatura acerca do método bootstrap. No entanto, há apenas uma pequena parcela dedicada ao estudo do uso do bootstrap em testes de hipóteses (QUEIROZ, 2011). A ideia da correção bootstrap é obter uma aproximação para a distribuição da estatística de teste de interesse sob H 0, através de reamostras bootstrap (CRIBARI-NETO; QUEIROZ, 2014). Beran (1988) mostrou que quando uma estatística de teste é assintoticamente pivotal a correção via bootstrap em geral produz uma menor distorção de tamanho comparativamente aos testes assintóticos. O objetivo do método bootstrap para testes de hipóteses é encontrar diretamente da amostra aleató-

28 3.2 Melhoramentos inferenciais em testes de hipóteses 18 ria observada a distribuição empírica da estatística de teste de interesse (CORDEIRO; CRIBARI-NETO, 2014; CRIBARI-NETO; QUEIROZ, 2014). Para maiores detalhes ver Davison e Hinkley (1997). Conforme Cribari-Neto e Queiroz (2014) o esquema bootstrap pode ser descrito baseado nos seguintes passos: 1. Seja y a amostra observada. Calcular a estatística de teste de interesse (dentre as apresentadas na Seção 3.1), denotada por ξ(y). 2. Gerar a amostra bootstrap y b do modelo, substituindo os parâmetros do modelo pelas estimativas sob H 0, obtidos com base na amostra original y. 3. Estimar o modelo usando y b e calcular a estatística ξ b = ξ(y b ). 4. Repetir os passos 2 e 3 um número B grande de vezes. 5. Calcular o quantil de interesse ξ 1 α, com base na distribuição empírica das B realizações da estatística ξb, obtidas usando os passos do item 2 até Realizar o teste utilizando a estatística ξ(y) calculada no item 1 junto com o valor crítico de bootstrap, ξ 1 α, obtido no item 5. A região de rejeição é definida com base no quantil ξ 1 α, sendo a hipótese nula, H 0, rejeitada quando a estatística é maior que o quantil estimado, ou seja, ξ(y) > ξ 1 α. Ou ainda, em termos de p-valor aproximado por bootstrap: p = B b=1 I {ξb >ξ(y)}, B em que I {ξ b >ξ(y)} = { 1, se ξ b > ξ(y), 0, c.c. H 0 é rejeitada se p é menor que um valor α selecionado Correção de Bartlett bootstrap para a estatística LR Outra possibilidade de melhoramento inferencial em testes de hipóteses é a correção de Bartlett bootstrap para a estatística da razão de verossimilhanças, LR. Rocke (1989) apresenta uma alternativa à determinação analítica da correção de Bartlett

29 3.2 Melhoramentos inferenciais em testes de hipóteses 19 (BARTLETT, 1937), onde o fator de correção é obtido via método bootstrap (EFRON, 1979). Rocke (1989) descreve a obtenção da correção de Bartlett bootstrap utilizando o valor esperado de LR estimado diretamente da amostra observada y = (y 1,..., y n ) utilizando reamostras bootstrap. Conforme Loose, Bayer e Pereira (2015) esse procedimento pode ser descrito pelos seguintes passos: 1. Gerar sob H 0 B reamostras bootstrap (y 1,..., y B ) do modelo, substituindo os parâmetros do modelo pelas estimativas sob H 0 usando a amostra original. 2. Obter a estatística LR bootstrap (LR b ) para cada pseudo amostra y b, com b = 1,..., B. Calculada da seguinte forma: LR b = 2{l( φ b ; y b) l( φ b ; y b)}, em que φ b é o EMV de φ irrestrito e φ b é o EMV sob H Calcular a estatística LR corrigida, dada por: em que LR = 1 B B LR b. b=1 LR B = LR q LR, Rocke (1989) afirma que a correção de Bartlett bootstrap tem vantagens computacionais comparadas ao esquema bootstrap usual, de tal forma que com B = 100 em geral tem-se resultados equivalentes ao método bootstrap usual com B = 700. Ainda, Bayer e Cribari-Neto (2013) afirmam que valores de B maiores que 200 conduzem a melhoramentos negligíveis para a correção de Bartlett bootstrap Bootstrap para dados com censura Quando os dados envolvem censura, a reamostragem bootstrap apresenta algumas particularidades. Conforme Heller e Venkatraman (1996) há duas possibilidades. Na primeira delas, apresentada em Reid (1981), denominada bootstrap condicional, as amostras bootstrap são geradas a partir do estimador de Kaplan-Meier (KAPLAN; MEIER, 1958) da função de sobrevivência, sob a hipótese nula. Na segunda abordagem, apresentada por Efron (1981), denominada bootstrap incondicional, as amostras

30 3.2 Melhoramentos inferenciais em testes de hipóteses 20 são obtidas do vetor (Y i, δ i ), i = 1,..., n, reamostrado com reposição. Akritas (1986) apresenta uma discussão das duas abordagens. Um dos poucos trabalhos que abordam reamostragem em dados com censura à direita com o objetivo de melhoramentos inferenciais em testes de hipóteses é Barreto, Cysneiros e Cribari-Neto (2013). Alternativamente, utilizam bootstrap paramétrico para a obtenção das reamostras. As amostras bootstrap são construídas baseada na distribuição associada à amostra original, utilizando os estimadores dos parâmetros dessa distribuição. Sendo que a quantidade de censura das amostras bootstrap é preservada, ou seja, as reamostras tem a mesma quantidade de censura da amostra original. O presente trabalho considera a mesma abordagem de Barreto, Cysneiros e Cribari- Neto (2013). As reamostras são geradas pelo método bootstrap paramétrico, buscando preservar a quantidade de censura da amostra original nas amostras bootstrap. A seguir é descrito o procedimento de reamostragem proposto, para o modelo considerado neste estudo, baseado no método bootstrap paramétrico. Reamostragem bootstrap no modelo tempo de promoção Weibull Seja φ = ( β, λ ) o EMV de φ sob H 0 e λ = (ρ, γ). A matriz das variáveis regressoras permanece constante, sendo a mesma da amostra original. As amostras bootstrap são geradas considerando o algoritmo dado a seguir: 1. Gerar ocorrências de m i da distribuição Poisson com média θ i = exp(x i β). 2. Dado m i > 0, gerar zi1,..., zim i b = exp( γ/e ρ ). iid da distribuição Weibull(ã, b), sendo a = e ρ e 3. Obter os tempos de falha por t i = min{zi1,..., zim }. i 4. Gerar c i aleatoriamente de uma distribuição uniforme, U(0,u), sendo u tal que a proporção de censura da amostra original é conservada. 5. Obter os tempos observados por: { yi max{c = 1,..., c n}, se m i = 0, min{t i, c i }, se m i > Associar a cada tempo observado o indicador de falha δi, dado por: { δi 1, se yi = t i, = 0, se yi = c i.

31 3.3 Testes de hipóteses em modelos de sobrevivência 21 Considerando os passos 1 a 6, obtém-se o conjunto dos dados da b-ésima amostra bootstrap, denotado por Db = (n, y b, δ b, X), em que y b = (y 1,..., yn). Cabe destacar, que a proposta para geração das amostras bootstrap aqui apresentada para o modelo em estudo é pioneira em modelos de fração de cura, podendo ser generalizada para outros modelos dessa classe. As correções bootstrap e Bartlett bootstrap são realizadas conforme os passos dos algoritmos apresentados nas Sub-seções e A amostra bootstrap gerada, Db, é aplicada nos passos correspondentes nos algoritmos, sendo o modelo dado em (2.11). 3.3 Testes de hipóteses em modelos de sobrevivência As inferências baseadas nas estatísticas de teste apresentadas na Seção 3.1 dependem de resultados assintóticos, os quais estão relacionados à teoria assintótica dos estimadores de máxima verossimilhança. A seguir são apresentadas algumas referências que evidenciam a validade dos resultados para os modelos de sobrevivência. Um dos primeiros trabalhos a analisar com detalhes as propriedades assintóticas do estimador de máxima verossimilhança do modelo com fração de cura, com distribuição exponencial associada aos tempos de falha, foi Ghitany e Maller (1992). Posteriormente, Maller e Zhou (1996) apresentam demonstrações da normalidade assintótica do estimador de máxima verossimilhança e resultados para testes em grandes amostras, considerando o modelo paramétrico exponencial com covariáveis, censura (não informativa) e fração de cura. Conforme Maller e Zhou (1996), o desenvolvimento teórico para outras distribuições se dá de forma análoga ao modelo exponencial. No contexto dos modelos Weibull com fração de cura, segundo Paes (2007) as propriedades do estimador de máxima verossimilhança podem ser vistas como uma extensão da teoria desenvolvida para modelos lineares generalizados (MCCULLAGH; NELDER, 1989). Ainda Paes (2007) descreve com detalhes os resultados assintóticos para modelos Weibull com fração de cura apresentados por Ghitany, Maller e Zhou (1994). De acordo com Lawless (2003) os resultados assintóticos para os testes de hipóteses se aplicam a casos gerais, como de amostras censuradas e com covariáveis associadas. Conforme Maller e Zhou (1996), além das condições de regularidade usuais, ver Severini (2000), Casella e Berger (2002), uma condição adicional é que o percentual de censura da amostra não seja tão alto, para assim garantir a validade dos resultados assintóticos.

32 Capítulo 4 Resultados numéricos Para avaliar os desempenhos em pequenas amostras dos testes razão de verossimilhanças (LR), gradiente (G), escore (S) e Wald (W ), as versões corrigidas por bootstrap, respectivamente, LR b, G b, S b e W b e do teste baseado na razão de verossimilhanças corrigida via Bartlett bootstrap (LR B ), foi realizado um estudo de simulação. O número de réplicas de Monte Carlo foi 5000 e para as correções bootstrap foram consideradas B = 1000 reamostras bootstrap. Os tamanhos amostrais utilizados foram iguais a n = 30, 50, 100. Toda a implementação computacional foi desenvolvida na linguagem R (R Development Core Team, 2014), sendo que para a estimação dos parâmetros do modelo foi utilizada a função optim, considerando o método BFGS com primeiras derivadas analíticas. Para os testes Wald e escore foi considerada a informação observada, já que a informação de Fisher nesse modelo é impossível de ser obtida, conforme já descrito no Capítulo 2. A matriz de informação observada foi obtida através da aproximações numéricas no R, fornecida pelo optim. Ainda, a parametrização utilizada no R se dá em termos do logarítmo de T, dessa forma utiliza-se a distribuição valor extremo apresentada em (CARVALHO et al., 2011). Da mesma forma que em Carneiro (2012), a matriz das variáveis regressoras é gerada a partir de distribuições de Bernoulli(p b ), com p b em torno de 0,5, e considerada constante durante todas as réplicas de Monte Carlo. Nas simulações, a fim de avaliar o impacto do aumento do número de parâmetros de perturbação, foram consideradas quatro (p = 4) e seis (p = 6) covariáveis. Para p = 4, foram geradas para cada i = 1, 2,..., n, x i1, x i2, x i3 e x i4 de forma independente, de distribuições de Bernoulli, com probabilidades de sucesso (p b ) 0,49, 0,5, 0,51 e 0,52, respectivamente. Analogamente, para p = 6, foram geradas x i1, x i2, x i3, x i4, x i5 e x i6 de distribuições de Bernoulli, com probabilidades de sucesso (p b ) 0,48, 0,49, 0,5, 0,51, 0,52 e 0,53, respectivamente. Os valores de M i são gerados da distribuição Poisson com média θ i = exp(x i β). 22

33 23 Os valores de β são fixados de tal forma que, combinados com a matriz das variáveis regressoras, a média da fração de cura seja em torno de 10% e 30%. Para os indivíduos não imunes (M i > 0) foi gerada uma amostra de tamanho m i (z ik ; k = 1,... m i ) da distribuição Weibull(a,b), em que a = 2 e b = 4. Os tempos de falha são obtidos por t i = min{z ik ; k = 1,... m i }. As censuras são geradas aleatoriamente de uma distribuição uniforme, U(0,u), sendo que o valor de u afeta inversamente a proporção de censuras da amostra. Após gerada a censura c i, os tempos observados são dados por y i = min{t i, c i }. A cada tempo observado é associado o indicador de falha, δ i = 1 se t i c i e δ i = 0 se t i > c i. Quando M i = 0, o tempo observado recebe max{c i,..., c n }, (valor suficientemente grande), e o indicador de falhas recebe zero. Os valores fixados nas simulações para β e u são descritos no Apêndice B. Assim como Fonseca, Valença e Bolfarine (2013) e Carneiro (2012), para definir o percentual de censuras entre os curados e a proporção de censuras com relação ao total de indivíduos suscetíveis ao evento, consideramos os seguintes eventos: A = curados, A c = não curados, C = censurados ou imunes. A partir desses eventos definimos a proporção de censuras dentre os não curados, denotada por pc 1, dada a seguir: pc 1 = (C Ac ) #A c, em que # denota a quantidade de indivíduos no conjunto. A proporção de censurados ou imunes é dada por pc 2 = #C #(A A c ). Em aplicações a dados reais a quantidade pc 2 é vista como o percentual de censuras da população. Ainda em Fonseca, Valença e Bolfarine (2013) é apresentada uma relação entre pc 1 e pc 2, que é dada por pc 2 = pc 1 (1 p 0 ) + p 0, em que p 0 representa a proporção de imunes. Os resultados para a avaliação da taxa de rejeição nula dos testes estão apresentados nas Tabelas 4.1 a 4.6. Foi considerado o modelo de tempo de promoção Weibull, níveis nominais iguais a 1%, 5% e 10%. As três combinações de p 0 e pc 1 usadas para as simulações implicam proporções de censuras na população (pc 2 ) iguais a 19%, 37%, 51%. Para as Tabelas 4.1 e 4.4, a proporção de imunes ou fração de curados fixada foi de p 0 = 10% e o percentual de censura dentre os não curados pc 1 = 10%, o que implica

Testes de Hipóteses em Modelos de Sobrevivência

Testes de Hipóteses em Modelos de Sobrevivência Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Programa de Pós-Graduação em Matemática Aplicada e Estatística Hérica Priscila de Araújo Carneiro Testes de Hipóteses em

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

Ajuste e comparação de modelos para dados grupados e censurados

Ajuste e comparação de modelos para dados grupados e censurados Ajuste e comparação de modelos para dados grupados e censurados 1 Introdução José Nilton da Cruz 1 Liciana Vaz de Arruda Silveira 2 José Raimundo de Souza Passos 2 A análise de sobrevivência é um conjunto

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

UNIVERSIDADE DE BRASÍLIA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA PROGRAMA DE MESTRADO EM ESTATÍSTICA

UNIVERSIDADE DE BRASÍLIA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA PROGRAMA DE MESTRADO EM ESTATÍSTICA UNIVERSIDADE DE BRASÍLIA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA PROGRAMA DE MESTRADO EM ESTATÍSTICA Modelo Weibull discreto com fração de cura e excessos de zeros: uma aplicação sobre

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário (bootstrap) Este método foi proposto por Efron

Leia mais

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos Comparação entre intervalos de confiança calculados com métodos strap e intervalos assintóticos Selene Loibel Depto. de Estatística, Matemática Aplicada e Computação, IGCE, UNESP, Rio Claro, SP E-mail:sloibel@rc.unesp.br,

Leia mais

Modelo de Mistura Padrão de Longa Duração com Censura Uniforme-Exponencial. Josenildo de Souza Chaves

Modelo de Mistura Padrão de Longa Duração com Censura Uniforme-Exponencial. Josenildo de Souza Chaves Modelo de Mistura Padrão de Longa Duração com Censura Uniforme-Exponencial Josenildo de Souza Chaves Livros Grátis http://www.livrosgratis.com.br Milhares de livros grátis para download. Modelo de Mistura

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review

Leia mais

Medida de Risco via Teoria de Valores Extremos. Análise de Risco (8) R.Vicente

Medida de Risco via Teoria de Valores Extremos. Análise de Risco (8) R.Vicente Medida de Risco via Teoria de Valores Extremos Análise de Risco (8) R.Vicente 1 Resumo EVT: Idéia geral Medidas de risco Teoria de Valores Extremos (EVT) Distribuição de Máximos Distribuição de Exceedances

Leia mais

Modelos log-simétricos com fração de cura

Modelos log-simétricos com fração de cura Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra Programa de Pós-Graduação em Matemática Aplicada e Estatística Mestrado em Matemática Aplicada e Estatística Modelos log-simétricos

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07 -027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA

Leia mais

CE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística

CE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística CE085 - Estatística Inferencial Função de Verossimilhança e suas derivadas Prof. Wagner Hugo Bonat Laboratório de Estatística e Geoinformação - LEG Curso de Bacharelado em Estatatística Universidade Federal

Leia mais

Estimadores, pontual e intervalar, para dados com censuras intervalar

Estimadores, pontual e intervalar, para dados com censuras intervalar Estimadores, pontual e intervalar, para dados com censuras intervalar Débora Ohara, Estela Maris Pereira Bereta, Teresa Cristina Martins Dias Resumo Dados com censura intervalar ocorrem com frequência

Leia mais

Análise de Sobrevivência. Exercícios - Capítulo 1

Análise de Sobrevivência. Exercícios - Capítulo 1 Análise de Sobrevivência Profa. Suely Ruiz Giolo Departamento de Estatística - UFPR Exercícios - Capítulo 1 1. Suponha que seis ratos foram expostos a um material cancerígeno. Os tempos até o desenvolvimento

Leia mais

Disciplina de Modelos Lineares Professora Ariane Ferreira

Disciplina de Modelos Lineares Professora Ariane Ferreira Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável

Leia mais

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população

Leia mais

MODELANDO DADOS DE SOBREVIVÊNCIA E CONFIABILIDADE COM FUNÇÕES DE RISCOS EM FORMA DE U VIA MODELO WEIBULL DUPLO

MODELANDO DADOS DE SOBREVIVÊNCIA E CONFIABILIDADE COM FUNÇÕES DE RISCOS EM FORMA DE U VIA MODELO WEIBULL DUPLO MODELANDO DADOS DE SOBREVIVÊNCIA E CONFIABILIDADE COM FUNÇÕES DE RISCOS EM FORMA DE U VIA MODELO WEIBULL DUPLO Fernanda Regiane Zanforlin de ALMEIDA 1 Francisco LOUZADA-NETO 1 Christiano Santos ANDRADE

Leia mais

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25 3. Estimação pontual USP-ICMC-SME 2013 USP-ICMC-SME () 3. Estimação pontual 2013 1 / 25 Roteiro Formulação do problema. O problema envolve um fenômeno aleatório. Interesse em alguma característica da população.

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Modelos Lineares Generalizados

Modelos Lineares Generalizados Modelos Lineares Generalizados Emilly Malveira de Lima Análise de Dados Categóricos Universidade Federal de Minas Gerais - UFMG 10 de Maio de 2018 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 1 / 20

Leia mais

GILSON BARBOSA DOURADO

GILSON BARBOSA DOURADO CORREÇÃO DE VIÉS DO ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA PARA A FAMÍLIA EXPONENCIAL BIPARAMÉTRICA GILSON BARBOSA DOURADO Orientador: Klaus Leite Pinto Vasconcellos Área de concentração: Estatística Matemática

Leia mais

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS Thalita do Bem Mattos Clécio da

Leia mais

A distribuição Weibull Exponencial de Zografos

A distribuição Weibull Exponencial de Zografos Trabalho apresentado no XXXV CNMAC, Natal-RN, 2014. A distribuição Weibull Eponencial de Zografos Patrícia Silva N. Barros, PPGBEA - UFRPE / DCE - UFPB E-mail: patriciajp1408@hotmail.com Kleber Napoleão

Leia mais

PROCEDIMENTO PARA A ESCOLHA DE UMA DISTRIBUIÇÃO

PROCEDIMENTO PARA A ESCOLHA DE UMA DISTRIBUIÇÃO PROCEDIMENTO PARA A ESCOLHA DE UMA DISTRIBUIÇÃO O método de máxima verossimilhança somente deve ser aplicado após ter sido definido um modelo probabilístico adequado para os dados. Se um modelo for usado

Leia mais

O EFEITO DA PRESENÇA DE CENSURAS ALEATÓRIAS NOS INTERVALOS DE CONFIANÇA PARA OS PARÂMETROS DO MODELO LOG-LOGÍSTICO DUPLO

O EFEITO DA PRESENÇA DE CENSURAS ALEATÓRIAS NOS INTERVALOS DE CONFIANÇA PARA OS PARÂMETROS DO MODELO LOG-LOGÍSTICO DUPLO O EFEITO DA PRESENÇA DE CENSURAS ALEATÓRIAS NOS INTERVALOS DE CONFIANÇA PARA OS PARÂMETROS DO MODELO LOG-LOGÍSTICO DUPLO Cleber Giugioli CARRASCO Francisco LOUZADA-NETO RESUMO: O modelo log-logístico duplo

Leia mais

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Quantis residuais Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Orientador: Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Resumo Uma etapa importante

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Geração de Números Aleatórios Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 61 Simulando de Distribuições Discretas Assume-se que um

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS 1 Diversas distribuições podem ser consideradas para a modelagem de dados positivos com distribuição contínua e assimétrica, como, por exemplo, as

Leia mais

Teste de % de defeituosos para 1 amostra

Teste de % de defeituosos para 1 amostra DOCUMENTO OFICIAL DO ASSISTENTE DO MINITAB Este documento é de uma série de papéis que explicam a pesquisa conduzida por estatísticos da Minitab para desenvolver os métodos e as verificações de dados usadas

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

CORREÇÃO TIPO-BARTLETT À ESTATÍSTICA

CORREÇÃO TIPO-BARTLETT À ESTATÍSTICA UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE CIÊNCIAS EXATAS E DA NATUREZA DEPARTAMENTO DE ESTATÍSTICA PROGRAMA DE PÓS-GRADUAÇÃO EM ESTATÍSTICA CORREÇÃO TIPO-BARTLETT À ESTATÍSTICA GRADIENTE NOS MODELOS

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Se a integração analítica não é possível ou

Leia mais

Especialização em Engenharia de Processos e de Sistemas de Produção

Especialização em Engenharia de Processos e de Sistemas de Produção Especialização em Engenharia de Processos e de Sistemas de Produção Projetos de Experimento e Confiabilidade de Sistemas da Produção Prof. Claudio Luis C. Frankenberg 3ª parte Conforme foi apresentado

Leia mais

Modelagem de Partição Bayesiana para Dados de Sobrevivência de Longa Duração. Jhon Franky Bernedo Gonzales

Modelagem de Partição Bayesiana para Dados de Sobrevivência de Longa Duração. Jhon Franky Bernedo Gonzales Modelagem de Partição Bayesiana para Dados de Sobrevivência de Longa Duração Jhon Franky Bernedo Gonzales UFSCar - São Carlos/SP Dezembro/2009 Livros Grátis http://www.livrosgratis.com.br Milhares de livros

Leia mais

Análise de Sobrevivência

Análise de Sobrevivência Análise de Sobrevivência Modelagem paramétrica Valeska Andreozzi 1 valeska.andreozzi@fc.ul.pt & Marilia Sá Carvalho 2 cavalho@fiocruz.br 1 Centro de Estatística e Aplicações da Universidade de Lisboa,

Leia mais

Modelos Lineares Generalizados - Métodos de Estimação

Modelos Lineares Generalizados - Métodos de Estimação Modelos Lineares Generalizados - Métodos de Estimação Erica Castilho Rodrigues 07 de Abril de 2014 3 Componentes dos MLG s Os MLG s são compostos por duas partes: componente sistemático e componente aleatório.

Leia mais

Análise de Dados Categóricos

Análise de Dados Categóricos 1/43 Análise de Dados Categóricos Modelo de Regressão de Poisson Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Departamento de Estatística Universidade Federal de Minas Gerais 2/43 Revisão:

Leia mais

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes Este documento é de uma série de papéis que explicam a pesquisa conduzida por estatísticos da Minitab para desenvolver os métodos e as verificações de dados usadas no assistente no software estatístico

Leia mais

Figura 3.1 Esquema do Processo Bootstrap Fonte: Adaptado de SOUZA (1997)

Figura 3.1 Esquema do Processo Bootstrap Fonte: Adaptado de SOUZA (1997) O é uma técnica estatística não paramétrica computacionalmente intensiva de reamostragem, introduzida por EFRON (1979), e tem como finalidade obter informações de características da distribuição de alguma

Leia mais

Modelagem e Análise de Sistemas de Computação Aula 19

Modelagem e Análise de Sistemas de Computação Aula 19 Modelagem e Análise de Sistemas de Computação Aula 19 Aula passada Intro a simulação Gerando números pseudo-aleatórios Aula de hoje Lei dos grandes números Calculando integrais Gerando outras distribuições

Leia mais

UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA. Eduardo Yoshio Nakano 1

UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA. Eduardo Yoshio Nakano 1 1 UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA Eduardo Yoshio Nakano 1 1 Professor do Departamento de Estatística da Universidade de Brasília, UnB. RESUMO. Em estudos médicos, o comportamento

Leia mais

TESTES DE HIPÓTESES Notas de aula. Prof.: Idemauro Antonio Rodrigues de Lara

TESTES DE HIPÓTESES Notas de aula. Prof.: Idemauro Antonio Rodrigues de Lara 1 TESTES DE HIPÓTESES Notas de aula Prof.: Idemauro Antonio Rodrigues de Lara 2 Conteúdo 1. Fundamentos e conceitos básicos; 2. Função poder; 3. Testes mais poderosos e Lema de Neyman-Pearson; 4. Teste

Leia mais

Estimação e Testes de Hipóteses

Estimação e Testes de Hipóteses Estimação e Testes de Hipóteses 1 Estatísticas sticas e parâmetros Valores calculados por expressões matemáticas que resumem dados relativos a uma característica mensurável: Parâmetros: medidas numéricas

Leia mais

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de Setembro a 01 de Outubro

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de Setembro a 01 de Outubro COMPARAÇÃO DOS MÉTODOS DE VERIFICAÇÃO DO AJUSTE DA DISTRIBUIÇÃO GUMBEL A DADOS EXTREMOS CARLOS JOSÉ DOS REIS 1, LUIZ ALBERTO BEIJO 2,GILBERTO RODRIGUES LISKA 3 RESUMO A distribuição Gumbel é muito aplicada

Leia mais

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Cap. 8 - Intervalos Estatísticos para uma Única Amostra Intervalos Estatísticos para ESQUEMA DO CAPÍTULO 8.1 INTRODUÇÃO 8.2 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 8.3 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO

Leia mais

ANÁLISE DE SOBREVIVÊNCIA 2ª LISTA DE EXERCÍCIOS

ANÁLISE DE SOBREVIVÊNCIA 2ª LISTA DE EXERCÍCIOS ANÁLISE DE SOBREVIVÊNCIA 2ª LISTA DE EXERCÍCIOS 1. A tabela a seguir apresenta o tempo, em dias, até a ocorrência dos primeiros sinais de alterações indesejadas no estado geral de saúde de 45 pacientes

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE Funções Geradoras de Variáveis Aleatórias 1 Funções Geradoras de Variáveis Aleatórias Nos programas de simulação existe um GNA e inúmeras outras funções matemáticas descritas como Funções Geradoras de

Leia mais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ 3 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 2 3 4 5 6 7 8 9 0 2 3 4 5 e 6 Introdução à probabilidade (eventos, espaço

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

MODELAGEM E ESCOLHA ENTRE EMBALAGENS USANDO TÉCNICAS DE CONFIABILIDADE E ANÁLISE DE

MODELAGEM E ESCOLHA ENTRE EMBALAGENS USANDO TÉCNICAS DE CONFIABILIDADE E ANÁLISE DE Revista da Estatística da UFOP, Vol I, 2011 - XI Semana da Matemática e III Semana da Estatística, 2011 ISSN 2237-8111 MODELAGEM E ESCOLHA ENTRE EMBALAGENS USANDO TÉCNICAS DE CONFIABILIDADE E ANÁLISE DE

Leia mais

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA UFPE - Universidade Federal de Pernambuco Departamento de Estatística Disciplina: ET-406 Estatística Econômica Professor: Waldemar A. de Santa Cruz Oliveira Júnior INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Podemos

Leia mais

Métodos Estatísticos Avançados em Epidemiologia

Métodos Estatísticos Avançados em Epidemiologia 1/43 Métodos Estatísticos Avançados em Epidemiologia Análise de Sobrevivência - Modelo de Cox Enrico A. Colosimo Departamento de Estatística Universidade Federal de Minas Gerais http://www.est.ufmg.br/

Leia mais

5 Avaliação dos estimadores propostos

5 Avaliação dos estimadores propostos 5 valiação dos estimadores propostos Este capítulo apresenta as medidas estatísticas usuais para avaliar a qualidade de estimadores e as expressões utilizadas para a estimação destas medidas, a partir

Leia mais

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Dissertação de Mestrado

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Dissertação de Mestrado Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística Dissertação de Mestrado Modelo de Regressão Log-Beta Burr III para dados Grupados por Vanessa Silva Resende Orientador:

Leia mais

7 Conclusões e desenvolvimentos futuros

7 Conclusões e desenvolvimentos futuros 7 Conclusões e desenvolvimentos futuros 7.1 Conclusões Este trabalho apresentou novas soluções para a determinação da posição de terminais de comunicações móveis com base em medidas de ToA. Nos métodos

Leia mais

ALGUNS MODELOS DE VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS. Prof.: Idemauro Antonio Rodrigues de Lara

ALGUNS MODELOS DE VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS. Prof.: Idemauro Antonio Rodrigues de Lara 1 ALGUNS MODELOS DE VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS Prof.: Idemauro Antonio Rodrigues de Lara 2 Modelos de variáveis aleatórias discretas 1. Distribuição Uniforme Discreta 2. Distribuição Binomial

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

TÉCNICAS DE AMOSTRAGEM

TÉCNICAS DE AMOSTRAGEM TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Definições e Notação Estimação Amostra Aleatória

Leia mais

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE A análise de deviance é uma generalização, para modelos lineares generalizados, da análise de variância. No caso de modelos lineares, utiliza-se

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Escolha de modelos Até aqui assumimos que z

Leia mais

Modelos de fração de cura com fatores latentes competitivos e fragilidade. Renato de Azevedo Silva

Modelos de fração de cura com fatores latentes competitivos e fragilidade. Renato de Azevedo Silva Modelos de fração de cura com fatores latentes competitivos e fragilidade Renato de Azevedo Silva Dissertação apresentada ao Instituto de Matemática e Estatística da Universidade de São Paulo para obtenção

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves Capítulo 9 - Regressão Linear Simples RLS: Notas breves Regressão Linear Simples Estrutura formal do modelo de Regressão Linear Simples RLS: Y i = β 0 + β 1 x i + ε i, 1 onde Y i : variável resposta ou

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

Dimensionamento de ensaios de não inferioridade para o caso de grupos paralelos e resposta binária: algumas comparações

Dimensionamento de ensaios de não inferioridade para o caso de grupos paralelos e resposta binária: algumas comparações Dimensionamento de ensaios de não inferioridade para o caso de grupos paralelos e resposta binária: algumas comparações Introdução Arminda Lucia Siqueira Dimensionamento de amostras, importante elemento

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

O Processo de Weibull Poisson para Modelagem da Confiabilidade em Sistemas Reparáveis

O Processo de Weibull Poisson para Modelagem da Confiabilidade em Sistemas Reparáveis O Processo de Weibull Poisson para Modelagem da Confiabilidade em Sistemas Reparáveis Luiz Gustavo Fraga 1 Edmilson Rodrigues Pinto 2 Resumo: Sistemas reparáveis são aqueles sistemas que, após a ocorrência

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS

UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS ISSN 0104-0499 UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS RISCOS COMPETITIVOS: UMA AVALIAÇÃO DE MÉTODOS DE ESTIMAÇÃO Agatha Sacramento Rodrigues Adriano Polpo de Campos

Leia mais

Distribuição Amostral e Estimação Pontual de Parâmetros

Distribuição Amostral e Estimação Pontual de Parâmetros Roteiro Distribuição Amostral e Estimação Pontual de Parâmetros 1. Introdução 2. Teorema Central do Limite 3. Conceitos de Estimação Pontual 4. Métodos de Estimação Pontual 5. Referências População e Amostra

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

28 de dezembro de 2007

28 de dezembro de 2007 Curso de UFRPE e UFPE 28 de dezembro de 2007 1 2 3 4 5 6 Seja f (y) uma função densidade conhecida, cujos cumulantes são dados por κ 1, κ 2,.... O interesse reside em usar f (y) para aproximar uma função

Leia mais

Probabilidades e Estatística MEEC, LEIC-A, LEGM

Probabilidades e Estatística MEEC, LEIC-A, LEGM Departamento de Matemática Probabilidades e Estatística MEEC, LEIC-A, LEGM Exame a Época / o Teste (Grupos III e IV) o semestre 009/00 Duração: 80 / 90 minutos /06/00 9:00 horas Grupo I Exercício 5 valores

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ SETOR CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA ANÁLISE DE SOBREVIDA EM 90 HOMENS COM CÂNCER DE LARINGE

UNIVERSIDADE FEDERAL DO PARANÁ SETOR CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA ANÁLISE DE SOBREVIDA EM 90 HOMENS COM CÂNCER DE LARINGE UNIVERSIDADE FEDERAL DO PARANÁ SETOR CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA ANÁLISE DE SOBREVIDA EM 90 HOMENS COM CÂNCER DE LARINGE Aluna: Scheylla Calazans Orientadora: Profa. Dra. Nívea S. Matuda

Leia mais

Inferência via abordagens computacionalmente intensivas. Walmes Zeviani

Inferência via abordagens computacionalmente intensivas. Walmes Zeviani Inferência via abordagens computacionalmente intensivas Walmes Zeviani Introdução A lógica dos testes de hipótese frequentistas: 1. Definir a hipótese nula e hipótese alternativa. 2. Determinar uma estatística

Leia mais

Determinação do tamanho amostral: uma abordagem genuinamente Bayesiana

Determinação do tamanho amostral: uma abordagem genuinamente Bayesiana Determinação do tamanho amostral: uma abordagem genuinamente Bayesiana Edney Luís Oliveira Fernandes, Maria Regina Madruga Tavares, Programa de Pós-Graduação em Matemática e Estatística, ICEN, UFPA, 66610-190,

Leia mais

Estatísticas Inferenciais Distribuições Amostrais. Estatística

Estatísticas Inferenciais Distribuições Amostrais. Estatística Estatística Na descrição dos conjuntos de dados x 1,..., x n, não foi feita menção ao conceito de população. Estatísticas inferenciais: preocupadas com a fonte dos dados e em tentar fazer generalizações

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Julgue os itens que se seguem, acerca da estatística descritiva. 51 Na distribuição da quantidade de horas trabalhadas por empregados de certa empresa, é sempre possível determinar

Leia mais

AULA 02 Distribuição de Probabilidade Normal

AULA 02 Distribuição de Probabilidade Normal 1 AULA 02 Distribuição de Probabilidade Normal Ernesto F. L. Amaral 20 de agosto de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario

Leia mais

Análise de Dados e Simulação

Análise de Dados e Simulação Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Análise Estatística. Análise Estatística Motivação: Fila de 1 servidor. Clientes chegam em um banco (sistema)

Leia mais

BOOTSTRAP. - APLICAÇÃO DO MB: podem ser aplicados quando existe, ou não, um modelo probabilístico bem definido para os dados.

BOOTSTRAP. - APLICAÇÃO DO MB: podem ser aplicados quando existe, ou não, um modelo probabilístico bem definido para os dados. OOTSTRAP INTRODUÇÃO - IDEIA ÁSICA: reamostrar de um conjunto de dados, diretamente ou via um modelo ajustado, a fim de criar replicas dos dados, a partir das quais podemos avaliar a variabilidade de quantidades

Leia mais

Modelo de regressão log-weibull-exponenciada para dados com censura intervalar

Modelo de regressão log-weibull-exponenciada para dados com censura intervalar XIII SEMANA da ESTATÍSTICA Universidade Estadual de Maringá Modelo de regressão log-weibull-exponenciada para dados com censura intervalar Elizabeth Mie Hashimoto Departamento Acadêmico de Matemática -

Leia mais

TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS

TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS Antes de apresentar alguns dos testes de hipóteses e intervalos de confiança mais usuais em MLG, segue a definição de modelos

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 12 Regressão com Variáveis Não-Estacionárias Considere três processos estocásticos definidos pelas seguintes

Leia mais

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística

Leia mais