UNIVERSIDADE FEDERAL DE MINAS GERAIS JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA

Documentos relacionados
MODELOS DE REGRESSÃO PARAMÉTRICOS

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

ANDRÉ OLIVEIRA SOUZA TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB A CONDIÇÃO DE SEPARABILIDADE

3 A técnica de computação intensiva Bootstrap

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

4 Critérios para Avaliação dos Cenários

2 Incerteza de medição

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

AULA EXTRA Análise de Regressão Logística

Testes não-paramétricos

Estatística II Antonio Roque Aula 18. Regressão Linear

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

7 - Distribuição de Freqüências

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

Estatística Espacial: Dados de Área

Associação entre duas variáveis quantitativas

Análise de Variância. Comparação de duas ou mais médias

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

REGRESSÃO NÃO LINEAR 27/06/2017

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Prof. Lorí Viali, Dr.

Métodos Avançados em Epidemiologia

Reconhecimento Estatístico de Padrões

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

3. Estatística descritiva bidimensional

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Variável discreta: X = número de divórcios por indivíduo

1. CORRELAÇÃO E REGRESSÃO LINEAR

Algarismos Significativos Propagação de Erros ou Desvios

ALGORITMOS PARA DADOS AUMENTADOS

Prof. Lorí Viali, Dr.

Análise de influência

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

2 Metodologia de Medição de Riscos para Projetos

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um).

Análise de Regressão Linear Múltipla IV

Cap. 5 Classificação Temática

3 Algoritmos propostos

Teoria Elementar da Probabilidade

Análise de Regressão

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

ANÁLISE DAS TENSÕES TÉRMICAS EM MATERIAIS CERÂMICOS. Palavras-chave: Tensões térmicas, Propriedades variáveis, Condução de calor, GITT

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Gráficos de Controle para Processos Autocorrelacionados

(1) A uma parede totalmente catalítica quanto para uma parede com equilíbrio catalítico. No caso de uma parede com equilíbrio catalítico, tem-se:

Classificação de Padrões

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Inferência Estatística e Aplicações II. Edson Zangiacomi Martinez Departamento de Medicina Social FMRP/USP

CURSO de ESTATÍSTICA Gabarito

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira

CORRELAÇÃO E REGRESSÃO

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

Análise de Regressão Linear Múltipla VII

Implementação Bayesiana

4.1 Modelagem dos Resultados Considerando Sazonalização

Jogos. Jogos. Jogo. Jogo. Óptimo alvo investigação

Universidade Federal de São Carlos Centro de Ciências Exatas e de Tecnologia Departamento de Estatística UMA FAMÍLIA DE MODELOS DE REGRESSÃO

U N I V E R S I D A D E D O S A Ç O R E S D E P A R T A M E N T O D E M A T E M Á T I C A ARMANDO B MENDES ÁUREA SOUSA HELENA MELO SOUSA

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO

Análise Descritiva com Dados Agrupados

Análise Exploratória de Dados

6 Modelo Proposto Introdução

AULA Espaços Vectoriais Estruturas Algébricas.

PRESSUPOSTOS DO MODELO DE REGRESSÃO

EXERCÍCIO: VIA EXPRESSA CONTROLADA

Q 1-1,5(Q3-Q1) < X i < Q 3 + 1,5(Q 3 -Q 1 ) Q 3 +1,5(Q 3 -Q 1 ) < X i < Q 3 +3(Q 3 -Q 1 ) Q 1 3(Q 3 -Q 1 ) < X i < Q 1 1,5(Q 3 -Q 1 )

DELINEAMENTOS EXPERIMENTAIS

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

Contabilometria. Aula 8 Regressão Linear Simples

Regressão Logística Aplicada aos Casos de Sífilis Congênita no Estado do Pará

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Covariância na Propagação de Erros

Prof. Lorí Viali, Dr.

Aplicações de Estimadores Bayesianos Empíricos para Análise Espacial de Taxas de Mortalidade

Cap. IV Análise estatística de incertezas aleatórias

3 Método Numérico. 3.1 Discretização da Equação Diferencial

UMA REPARAMETRIZAÇÃO PARA A FUNÇÃO DE CONFIABILIDADE CONSIDERANDO O MODELO DE REGRESSÃO VALOR EXTREMO COM DADOS DE TEMPO DE VIDA ACELERADO

EFEITOS DE DISPERSÃO EM PROJETOS FATORIAIS: UMA SIMULAÇÃO CONFIRMATÓRIA

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Economia Industrial. Prof. Marcelo Matos. Aula 7

D- MÉTODO DAS APROXIMAÇÕES SUCESSIVAS

Transcrição:

UNIVERSIDADE FEDERAL DE MINAS GERAIS JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA BELO HORIZONTE 28

JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA Dssertação apresentada ao Programa de Pósgraduação em Estatístca da Unversdade Federal de Mnas Geras para obtenção do título de Mestre em Estatístca. Orentador: Prof. PhD. Enrco Antôno Colosmo Co-orentadora: Profª. Drª. Rosângela Helena Losch BELO HORIZONTE 28 2

Aos meus querdos pas, Lourdnha e José Gonçalves 3

Agradecmentos Agradeço a Deus, pela luz. Aos meus pas, pelo apoo e pela dedcação, sem os quas esta conqusta não sera possível. A Rede Sarah e sua equpe, que me deram a oportundade e o apoo para que eu me dedcasse ao mestrado. Ao Mauríco, que esteve comgo durante os momentos mas dfíces, me apoando e me confortando. Aos amgos, rmãos, cunhadas, sobrnhos e demas parentes, colegas do mestrado e do trabalho que me ajudaram e torceram tanto pela mnha vtóra. Em especal, ao colega Elas Krasnk, pelas contrbuções em estatístca e recursos computaconas. Ao Enrco, pelo carnho e pela dsponbldade para me orentar e apoar na realzação deste sonho. À Rosângela, pela grande ajuda e pela chance de conhecer mas um pouco de estatístca bayesana. Ao Sebastão Martns Flho, pela mportante contrbução em análse de Bayesempírca. 4

"We shall not cease from exploraton, And the end of all our explorng Wll be to arrve where we started, And know the place for the frst tme.' "Não cessaremos com a exploração, E o fm de todo nosso explorar Será chegar ao ponto onde começamos, E conhecer o lugar pela prmera vez." T.S. Elot 5

Resumo A regressão logístca é o método estatístco, frequentemente, utlzado quando o objetvo do estudo é verfcar a relação entre uma varável resposta dcotômca e covaráves relaconadas a ela. Os parâmetros do modelo, usualmente, são estmados através do método de máxma verossmlhança e testes sobre estes parâmetros são construídos consderando as dstrbuções aproxmadas dos estmadores. Isto sgnfca que amostras grandes tornam-se necessáras para termos resultados mas confáves. Em estudos envolvendo dados bnáros, é frequente a presença de uma varável resposta cujo sucesso é pouco provável, ou seja, temos um evento raro, o que pode gerar uma amostra com dados esparsos. Nestes casos, podemos ter dados que se encaxam na classfcação de separação quase-completa e esta stuação está, frequentemente, assocada à presença de uma covarável categórca. Neste caso, os estmadores de máxma verossmlhança não exstem. A nclusão de nformações a pror sobre os parâmetros no problema pode trazer um ganho para a análse dos dados. O objetvo deste trabalho fo abordar o modelo de regressão logístca bnára para os casos de separação quase-completa va métodos bayesanos e bayesanos empírcos. Realzamos um estudo da especfcação da dstrbução a pror utlzando dados gerados com separação quase-completa e superposção. Para avalar o efeto de dstrbuções a pror nas dstrbuções a posteror dos parâmetros do modelo, utlzamos, como exemplo, os dados de um estudo apresentado em Colosmo, Franco e Couto (995). Além dsto, construímos uma dstrbução a pror empírca para o modelo logístco usando os dados do exemplo e avalamos se este tpo de especfcação a pror traz algum ganho para a análse de dados com separação quase-completa. Os resultados foram comparados com a proposta de estmação por máxma verossmlhança penalzada. Verfcamos que a especfcação da dstrbução a pror é a chave para a aproprada utlzação da estatístca bayesana. Com uma adequada defnção da dstrbução a pror podemos chegar a melhores resultados que com a estmação por máxma verossmlhança penalzada, no caso de separação quase-completa. Palavras-chave: Regressão Logístca; Separação quase-completa; Eventos Raros; Estatístca bayesana; Bayes empírco. 6

Abstract Logstc regresson s a statstc method, often used when the study s objectve s to verfy the relatonshp between a dchotomous outcome varable and a set of covarates related to t. The model parameters are usually estmated through the maxmum lkelhood method, and tests for such parameters are constructed takng nto account the estmators approxmate dstrbutons. Ths means that large samples are requred for more relable results. In studes nvolvng bnary data, the presence of an outcome varable whose success s very unlkely s frequent, that s, t s a rare event, whch may produce a sample wth sparse data. In such cases we may have data whch ft n the classfcaton of quascomplete separaton, and that stuaton s often assocated to the presence of a categorcal covarate. In that case maxmum lkelhood estmators do not exst. Includng a pror nformaton on the problem parameters may yeld a gan for data analyss. The goal of the present study s to approach the bnary logstc regresson model for cases of quas-complete separaton by Bayesan and emprcal Bayes methods. We carred out a study on the specfcaton of a pror dstrbuton employng data produced wth quas-complete separaton and overlap. To assess the effect of a pror dstrbutons on a posteror dstrbutons of the model parameters, we used, as an example, the data from a study presented n Colosmo, Franco and Couto (995). In addton, we constructed an emprcal a pror dstrbuton for the logstc model usng data from the example and verfed whether that type of a pror specfcaton produces any gan to the data analyss wth quas-complete separaton. Results were compared wth the estmaton proposal by penalzed maxmum lkelhood. We observed that specfcaton for a pror dstrbuton s the key to a proper use of Bayesan statstcs. Wth an adequate defnton of a pror dstrbuton we may proceed to better results than wth penalzed maxmum lkelhood estmaton, n cases of quas-complete separaton. Key-words: Logstc Regresson; Quase-complete separaton; Rare Events; Bayesan statstcs; Emprcal Bayes. 7

Lsta de Fguras Fgura 3. - Exemplo de conjunto de dados com separação completa (a), separação quase-completa (b) e superposção (c)... Fgura 3.2 - Função de verossmlhança dos dados de cranotoma...3 Fgura 5. - Gráfcos das estmatvas de, e DIC para modelos com dstrbuções a pror normas com méda zero e város valores para varânca...26 Fgura 5.2 - Hstogramas das dstrbuções a pror para, e 2 no caso...29 Fgura 5.3 - Hstogramas das dstrbuções a pror para, e 2 no caso 2...29 Fgura 5.4 - Hstogramas das dstrbuções a pror para, e 2 no caso 6...3 Fgura 5.5 Intervalos de credbldade percentílcos para as 9 dstrbuções a posteror para, e 2...33 Fgura 5.6 Intervalos HPD para as 9 dstrbuções a posteror para, e 2...34 8

Lsta de Tabelas Tabela 2. - Conjunto de dados de pacentes submetdos a cranotoma...4 Tabela 2.2 - Dstrbução dos pacentes segundo a gravdade do caso e a presença de menngte...5 Tabela 3. - Estmadores de máxma verossmlhança para os coefcentes do modelo de regressão para os dados de cranotoma...2 Tabela 5. - Resultados da estmação por máxma verossmlhança penalzada para cada programa...9 Tabela 5.2 - Tabela de contngênca de Y versus X gerados na stuação superposção.. 2 Tabela 5.3 - Estmatvas de parâmetros dos coefcentes da regressão logístca para dados smulados na stuação superposção...22 Tabela 5.4 - Tabela de contngênca de Y versus X gerados com separação quasecompleta...23 Tabela 5.5 - Estmatvas de parâmetros dos coefcentes da regressão logístca para dados smulados com separação quase-completa...24 Tabela 5.6 - Estmatvas de parâmetros dos coefcentes da regressão logístca para dados de cranotoma...25 Tabela 5.7 - Dstrbuções a pror para cada θ...28 Tabela 5.8 - Resultados das dstrbuções a pror para, e 2 nos casos, 2 e 6... 3 Tabela 5.9 Resumos a posteror de para os 9 casos e para cada conjunto de pontos seleconados...3 9

Sumáro Capítulo - Introdução... Capítulo 2 - Motvação...4 Capítulo 3 - Modelo de Regressão Logístca...6 3. - Interpretação dos parâmetros...7 3.2 - Estmadores de Máxma Verossmlhança...7 3.3 - Exstênca de estmadores de máxma verossmlhança em modelos de regressão logístca...8 3.3. - Classfcação de dados logístcos...8 3.3.. - Separação Completa...9 3.3..2 - Separação Quase-Completa...9 3.3..3 - Superposção... 3.3.2 - Identfcação de separação e sua mportânca... 3.3.3 - Estmadores de máxma verossmlhança para o exemplo de cranotoma...2 3.4 - Máxma verossmlhança penalzada...3 Capítulo 4 - Estatístca bayesana no modelo de regressão logístca...5 4. - O método bayesano...5 4.2 - Defnção da dstrbução a pror...6 4.2. - Análse de Bayes-empírca...7 Capítulo 5 Resultados...9 5. - Estmação por máxma verossmlhança penalzada...9 5.2 - Análse bayesana com dstrbução a pror normal...2 5.2. - Análse dos dados gerados...2 5.2.. - Stuação de superposção...2 5.2..2 - Stuação de separação quase-completa...22 5.2.2 - Pacentes submetdos à cranotoma...24 5.3 - Análse usando dstrbuções a pror Bayes-empírca...26 Capítulo 6 - Conclusões...35 Referêncas...37 Apêndce: Programas utlzados...39

Capítulo Introdução Em mutos estudos na área de saúde, a varável de nteresse, também conhecda como varável resposta, apresenta apenas duas categoras. Como por exemplo, podemos ctar a remssão de uma doença (sm ou não), o resultado de um tratamento (bom ou rum), entre outras. Varáves deste tpo são classfcadas como bnáras ou dcotômcas. Quando o objetvo do estudo é verfcar a relação entre uma varável resposta dcotômca e varáves explcatvas ou covaráves relaconadas a ela, a regressão logístca é o método estatístco, frequentemente, utlzado. Os parâmetros do modelo, usualmente, são estmados através do método de máxma verossmlhança e testes sobre estes parâmetros são construídos consderando as dstrbuções assntótcas dos estmadores. Isto sgnfca que amostras grandes tornam-se necessáras para termos resultados mas confáves. Em estudos envolvendo dados bnáros é frequente a presença de uma varável resposta cujo sucesso é pouco provável de ocorrer, ou seja, temos um evento raro o que pode gerar uma amostra com dados esparsos. Neste caso, os estmadores de máxma verossmlhança podem não fornecer resultados satsfatóros para a estmação dos parâmetros ou podem não exstr. Albert e Anderson (984) dentfcaram as condções para exstênca dos estmadores de máxma verossmlhança em modelos cujo comportamento pode ser descrto va modelo logístco. Conjuntos de dados logístcos podem ser classfcados em três categoras mutuamente exclusvas e exaustvas: dados com separação completa, separação quase-completa e superposção. Estmadores de máxma verossmlhança não exstem para as duas prmeras categoras. Não são raros os problemas reas que se encaxam na classfcação de separação quase-completa. Segundo Nacle (24), esta stuação está, frequentemente, assocada à exstênca de uma varável explcatva categórca. Se, numa tabela de contngênca relaconando as varáves explcatva e resposta, observarmos frequênca nula em uma das caselas da tabela, dz-se que o conjunto de dados está na categora de separação quase-completa. Um evento raro pode ocasonar a separação quase-completa no conjunto de dados.

Quando uma tabela, cruzando a varável resposta com uma covarável categórca, apresenta dos zeros em caselas dscordantes dz-se que o conjunto de dados está na categora de separação completa. Segundo Henze e Schemper (22) as seguntes soluções são possíves para tratarmos uma stuação em que se observa separação completa ou separação quasecompleta: omssão da covarável no modelo, utlzação de uma função de lgação dferente da logt para o modelo de regressão logístca, manpulação de dados, regressão logístca exata e a modfcação da função escore, sendo esta últma recomendada por eles. Uma vez que, em dados que apresentam separabldade quase-completa, o estmador de máxma verossmlhança não exste, a nclusão de nformações a pror sobre os parâmetros no problema pode trazer um ganho na análse dos dados. O objetvo deste trabalho é, então, abordar o modelo de regressão logístca bnára para os casos de separação quase-completa va métodos bayesanos e bayesanos empírcos. Incalmente, a meta é avalar o efeto nas estmatvas a posteror de dstrbuções a pror vagas e nformatvas para os parâmetros do modelo. Segundo Agrest (26), a sensbldade dos resultados a mudanças na especfcação da dstrbução a pror quando a nformação é vaga é um problema para aqueles que preferem uma abordagem objetva da análse de dados, mas é atratva em relação a outros aspectos da abordagem bayesana. Também construremos uma dstrbução a pror empírca para o modelo logístco e avalaremos se este tpo de especfcação a pror traz algum ganho na análse de dados com separabldade quase-completa. Além dsto, queremos comparar estes resultados com a proposta de estmação por verossmlhança penalzada recomendada por Henze e Schemper (22). Segundo Zorn (25), o método de verossmlhança penalzada proposto por Frth (993) fornece uma solução smples, válda e fácl de mplementar em problemas de separabldade. Ele não envolve manpulação arbtrára de dados nem modfcações complcadas de modelos padrão. Ele, também, não altera a nterpretação dos modelos e é dsponível em pacotes estatístcos exstentes. Anda segundo Zorn (22), talvez a melhor vantagem é que este procedmento é, assntotcamente, equvalente ao método de máxma verossmlhança no caso de amostras grandes e superor a ele no caso de amostras pequenas, onde a separabldade é mas provável de ocorrer. 2

Este trabalho está organzado da segunte forma: no Capítulo 2 é apresentado o exemplo que motvou este estudo. No Capítulo 3 são apresentados o modelo de regressão logístca e a nterpretação dos seus parâmetros, os estmadores de máxma verossmlhança e os crtéros para classfcar os dados logístcos, além dos estmadores de máxma verossmlhança penalzada. O Capítulo 4 ntroduz a análse bayesana no modelo de regressão logístca, a especfcação da dstrbução a pror e a análse de Bayes-empírca. No Capítulo 5 encontram-se a análse dos resultados para o banco de dados apresentado em Colosmo, Franco e Couto (995), além de um estudo da especfcação da dstrbução a pror utlzando dados gerados com separação quasecompleta e superposção. Fnalmente, no Capítulo 6, encontram-se as conclusões desta dssertação. 3

Capítulo 2 Motvação Colosmo, Franco e Couto (995) analsaram um conjunto de dados formado por 2 pacentes submetdos à crurga de cranotoma no Hosptal São Francsco em Belo Horzonte, MG, entre julho de 99 e junho de 992. A varável resposta N consderada no estudo é a ocorrênca () ou não () de menngte durante os 3 das subseqüentes à realzação da crurga. Duas covaráves foram estudados para verfcar se poderam ser consderadas como fatores de rsco para a ocorrênca de menngte, a saber, a gravdade do caso, X, que fo categorzada em alta () e baxa () e o tempo (em horas) da crurga, denotada aqu por X 2. Os dados foram coletados pela equpe do controle de nfecção e são apresentados na Tabela 2., onde N denota o número de observações em cada categora. Tabela 2. - Conjunto de dados de pacentes submetdos à cranotoma. X X 2 N N X X 2 N N 2,5 2,7,33 6,5 6, 2, 3 4,5 4, 4,5 3 3, 8,33 4 4, 8 5, 3 4,75,75 3, 3 2, 8 8, 3,5 3 5,5 3,25 2,67,83 4 2,25 7, 7, 2,67 3,67 8, 2,33 3,5 6,5 3,7, 3 5,5 6, 3 2, 6,5 2,25, A Tabela 2.2 mostra a dstrbução conjunta dos pacentes submetdos à cranotoma segundo a gravdade do caso e a ocorrênca de menngte. 4

Tabela 2.2 - Dstrbução dos pacentes segundo a gravdade do caso e a presença de menngte Ocorrênca de menngte Gravdade Sm Não Total Baxa 68 68 Alta 2 32 34 Total 2 2 A ocorrênca de menngte parece ser um evento raro, uma vez que, somente,96% dos pacentes a apresentaram. Além dsto, todos os pacentes com menngte eram consderados pacentes de alta gravdade. Este fato sugere a exstênca de uma chance maor de pacentes graves contraírem menngte após a crurga. Este tpo de comportamento sugere a exstênca de separabldade quase-completa dos dados. No que segue, serão mostradas algumas estratégas sugerdas para tratar este tpo de problema e sugerremos algumas outras (ver Capítulo 5). 5

Capítulo 3 Modelo de Regressão Logístca O modelo de regressão logístca é utlzado para determnar os fatores que estão assocados com a ocorrênca de um evento de nteresse quando a varável resposta é bnára. Segundo Hosmer e Lemeshow (2), entre outras cosas, a partr do modelo de regressão logístca é possível estmar a probabldade da ocorrênca deste evento para um ndvíduo. Segundo Breman et al.(984), a técnca de Árvore de Classfcação e Regressão (CART) é outra opção para analsarmos este tpo de dados, mas não trataremos desta técnca neste trabalho. Assuma que Y é uma matrz de n varáves ndependentes com Y Bernoull( θ ) onde Y = representa a ocorrênca do evento de nteresse com =,..., n. Neste caso, E( Y ) = θ = P( Y = ), onde θ é a probabldade de ocorrênca do evento de nteresse para o -ésmo ndvíduo. Denote por X a -ésma lnha da matrz de p varáves explcatvas e por o vetor de ordem ( p +) referente aos parâmetros a serem estmados: Y Y Y2 =,... Y n X =... X X... X 2 n............ X p X 2 p... X np e =... p probabldade: Dados os valores das covaráves X, o nteresse está em determnar-se a ' X e θ = P( Y = ) = '. () X + e A função logt é dada por: θ ' logt( θ ) = log = X, θ =,..., n. (2) 6

Esta função não é a únca função de lgação que pode ser utlzada na regressão logístca, mas sua prncpal vantagem é a facldade de nterpretação, uma vez que ela é o logartmo da chance de ocorrênca de um determnado evento. Outras funções de lgação utlzadas na regressão bnára são a probt e a log-log (Hosmer e Lemeshow, 2). 3. Interpretação dos parâmetros Apesar de estarmos nteressados nas estmatvas dos coefcentes, a nterpretação dos seus valores não é tão smples pos depende dos valores das varáves explcatvas. Ao nvés de nterpretarmos estes coefcentes dretamente, podemos fazer a nterpretação através da razão das chances (odds rato), que é dada por: ψ e j j = =, j,..., p. Esta razão mede o quanto é mas provável a ocorrênca do evento de nteresse para um nível da covarável categórca j em relação a outro nível da mesma covarável, mantendo fxos os valores das outras covaráves. Uma razão das chances ψ = sgnfca que o evento de nteresse é tão provável para um nível da covarável, quanto para outro. No nosso problema, por exemplo, ao utlzarmos a razão das chances para nterpretarmos o coefcente da covarável gravdade, ψ = sgnfca que a probabldade de um pacente desenvolver menngte é a mesma tanto para pacentes com gravdade alta, quanto para pacentes com gravdade baxa. 3.2 Estmadores de Máxma Verossmlhança A estmação dos parâmetros do modelo de regressão logístca é, geralmente, feta usando o método de máxma verossmlhança. Os estmadores de máxma verossmlhança são os que maxmzam a função de verossmlhança. Sob a suposção de ndependênca dos valores de Y, =,..., n, a função de verossmlhança é dada por: n y y L( ) = θ ( θ ). (3) = Maxmzar a função de verossmlhança é equvalente a maxmzar o logartmo neperano da mesma função, que pode ser escrto como : 7

n l( ) = ln L( ) = ( y lnθ + ( y )ln( θ)). = (4) Sob condções de regulardade, segundo Casella e Berger (22), o máxmo global da função l() é encontrado, uncamente, pelas soluções da segunte expressão: l( ) =. (5) Os valores de são obtdos pela solução do sstema de ( p +) equações que fazem o vetor escore gual a zero, ou seja: U j n l( ) ( ) = = xj ( y θ j ) =, j =,..., p +. (6) j = Não exstem soluções exatas para a expressão em (6). Então, em geral, são utlzados métodos numércos teratvos método de Newton-Raphson, por exemplo - para soluconar este sstema de equações (Casella e Berger, 22) e, assm, encontrar os estmadores de máxma verossmlhança quando estes exstrem. 3.3 Exstênca de estmadores de máxma verossmlhança em modelos de regressão logístca Neste capítulo, apresentaremos formalmente os concetos de separação completa, separação quase-completa e superposção utlzados para classfcar dados logístcos. Também apresentaremos resumdamente o modelo logístco e os estmadores de máxma verossmlhança para os parâmetros do modelo e dscutremos condções para a sua exstênca. Também dscuremos o método de estmação baseado na verossmlhança penalzada proposto por Henze e Schemper (22). 3.3. Classfcação de dados logístcos Como ctado anterormente, Albert e Anderson (984) mostraram que os dados logístcos podem ser classfcados em três categoras mutuamente exclusvas e exaustvas: separação completa, separação quase-completa e superposção. 8

A segur apresentaremos formalmente esta classfcação. Para sto, consderemos as confgurações possíves dos n valores amostras no espaço de observação partr destes valores defnremos cada uma das categoras ctadas. p R e a 3.3.. Separação Completa Ocorre separação completa quando, baseado na nformação de uma covarável ou combnação de covaráves, pode-se predzer corretamente o valor de uma varável de nteresse. Isto mplca na exstênca de um vetor R p + pelo qual todos os n valores amostras podem ser corretamente classfcados entre Y = ou Y =, tal que para todo, j =,, tem-se E j X X ' >, E, ' <, E, onde E j é o conjunto de lnhas dentfcadas da matrz X com valor de Y = j. A Fgura 3.(a) lustra esta categora de separação para 2 R. 3.3..2 Separação Quase-Completa Ocorre separação quase-completa quando, baseado na nformação de uma covarável ou combnação de covaráves, pode-se predzer perfetamente os valores de pelo menos um grupo da varável de nteresse, ou seja, Y = ou Y =. A separação quase-completa mplca na exstênca de um vetor R p + tal que, para todo E j, com j =, X X ', E, ', E, com gualdade para, pelo menos, um valor de. A Fgura 3.(b) lustra esta categora de separação para 2 R. 9

3.3..3 Superposção Se os dados não estão nas duas categoras anterores, necessaramente, eles estão na categora de superposção. A Fgura 3.(c) lustra esta categora de separação para 2 R. Fgura 3. - Exemplo de conjunto de dados com separação completa (a), separação quase-completa (b) e superposção (c).

Esta categora mplca na exstênca de um vetor R p + tal que, para todo, com j =, E j X X ' <, E, ' >, E, onde E, é o conjunto de lnhas dentfcadas da matrz X com valor de Y = j. 3.3.2 Identfcação de separação e sua mportânca Classfcar os dados logístcos em uma das três categoras, pela defnção, requer muto esforço. Santner e Duffy (986) e Clarkson e Jenrck (99) apresentaram procedmentos computaconas sofstcados para detectar se há separação nos dados. Na prátca, duas alternatvas smples para dentfcar a separação são: Montorar a varânca estmada dos coefcentes da regressão (Henze e Schemper, 22). Se observarmos varânca grande para algum parâmetro estmado, há um ndcatvo de separação; Fazer uma tabela de contngênca, cruzando a varável resposta com as covaráves e verfcar se exstem caselas com valores observados guas a zero (Nacle, 24). O valor zero em uma casela ndca separação quasecompleta, dos zeros em caselas dscordantes ndcam separação completa. Albert e Anderson (984) provaram que quando temos um conjunto de dados nas categoras de separação completa ou quase-completa, a função de verossmlhança do modelo logístco é monótona e, portanto, estmadores de máxma verossmlhança não exstem. Sendo assm, torna-se mportante encontrar um procedmento efcente para a estmação destes parâmetros na presença de separabldade completa ou quase completa.

3.3.3 Estmadores de máxma verossmlhança para o exemplo de cranotoma Levando-se em conta os dados de pacentes submetdos à cranotoma (veja em Colosmo, Franco e Couto (995)), verfca-se, através da Tabela 2.2, que ocorre a separação quase-completa nos dados, pos uma das caselas tem valor nulo. Fazendo a análse tradconal, tentamos estmar os coefcentes do modelo de regressão logístca através do método de máxma verossmlhança. Utlzamos, para sto, o pacote lvre R Project for Statstcal Computng (R) desenvolvdo por R Development Core Team (26). Verfcamos que há estmatva para todos os coefcentes do modelo. Mas nota-se pela Tabela 3. que apesar destes coefcentes terem sdo estmados, o erro padrão da estmatva do coefcente é muto grande. Isto mostra que não exste máxmo da função de verossmlhança para o coefcente. Tabela 3. Estmadores de máxma verossmlhança para os coefcentes do modelo de regressão para os dados de cranotoma Programa Coefcente Estmatva -,8546,4599 -,858,632 Erro padrão Estatístca de teste p R - glm 6,24.26,46,6,9874 2,34,26,249,834 Isto ocorre por causa da separação quase-completa que nvablza qualquer tentatva de estmação do coefcente através do método de máxma verossmlhança usual. Como se observa na Fgura 3.2, não há um ponto únco de máxmo para a função de verossmlhança com relação ao coefcente. 2

Fgura 3.2 Função de verossmlhança dos dados de cranotoma 3.4 Máxma verossmlhança penalzada Vsando resolver o problema de exstênca dos estmadores de máxma verossmlhança na presença de separação, Henze e Schemper (22) sugerem a modfcação da função escore para a estmação dos coefcentes do modelo de regressão logístca. Orgnalmente, essa proposta fo desenvolvda por Frth (993) buscando reduzr o víco das estmatvas de máxma verossmlhança em modelos lneares generalzados. Ela produz estmatvas fntas para os parâmetros do modelo através da estmação por máxma verossmlhança penalzada. As estmatvas de máxma verossmlhança dos parâmetros da regressão são encontradas soluconando o sstema de equações do vetor escore, como vsto em (3). No entanto, Frth (993) sugere a estmação baseada nas equações escore modfcadas dadas por: * ( ) I U j ( ) U j ( ) + traço I( ) =, j =,..., p +., 2 j 3

onde ( ) I é a nversa da matrz de nformação de Fsher avalada em. A função * escore modfcada U j ( ) é relaconada à função de log-verossmlhança penalzada: * l ( ) = l( ) + ln I( ), 2 e à função de verossmlhança penalzada: * L ( ) = L( ) I( ) 2. A função de penalzação I ( ) 2 tem nfluênca, assntotcamente, desprezível. Utlzando esta modfcação, Frth (993) mostrou que o víco das estmatvas de máxma verossmlhança é removdo. Aplcando a déa geral de Frth para o modelo logístco em (), a equação escore em (6) é substtuída pela equação escore modfcada que é dada por: n * U j ( ) = xj y θ j + h θ j =, j =,..., p +, = 2 onde h é o -ésmo elemento da dagonal prncpal de matrz H : H { } 2 T T 2 = W X ( X WX ) X W e W dag θj ( θj ) =. As estmatvas podem ser obtdas teratvamente pelo método usual até a convergênca ser obtda: onde () s se refere à s -ésma teração. ( ) ( ) ( ) * ( s+ ) ( s) ( s) s = + I U, Três pacotes do R mplementam a estmatva de máxma verossmlhança penalzada: o logstf, o brlr e o brglm. Todos eles corrgem o víco de estmação dos coefcentes do modelo de regressão logístca, porém há algumas dferenças báscas. O brglm pode ser utlzado em modelos com outras funções de lgação, além do logt, e anda é mas efcente computaconalmente. O pacote estatístco Statstcal Analyss System (SAS) desenvolvdo pelo SAS Insttut Inc. (Cary, 985) também mplementa a estmatva de máxma verossmlhança penalzada. 4

Capítulo 4 Estatístca bayesana para o modelo de regressão logístca Neste capítulo, faremos uma breve descrção de alguns métodos bayesanos de nferênca e construremos uma dstrbução a pror, va análse Bayes-empírca, para os parâmetros do modelo logístco. 4. O método bayesano Usando a abordagem bayesana, ncalmente devemos elcar a dstrbução a pror para o vetor de coefcentes, a qual será denotada por π ( ). As dstrbuções a pror obtdas a partr de π ( ) devem refletr o conhecmento prévo do pesqusador sobre estes coefcentes. A função de verossmlhança do modelo em (), que resume a nformação amostral sobre, atualza tal dstrbução a pror, gerando-se assm uma dstrbução atualzada para. Esta dstrbução é chamada de dstrbução a posteror e é obtda va teorema de Bayes como segue: y π ( x) π ( ) L( ) π ( ) θ ~ n y ( ) θ = A dstrbução a posteror reflete toda ncerteza sobre após a observação dos dados. Resumos desta dstrbução tas como méda, moda, medana e varânca, podem ser obtdos de forma habtual. Com podemos, também, realzar testes de hpóteses e ntervalos de credbldade. Neste caso, não temos uma dstrbução a posteror com forma fechada. Desta forma, faz-se necessáro utlzarmos métodos numércos ou métodos MCMC (Markov Chan Monte Carlo) para obtermos uma estmatva da dstrbução a posteror e/ou de seus resumos. Neste trabalho, utlzamos o pacote estatístco WnBUGS (Lunn et al., 2) para obtermos amostras das dstrbuções a posteror de nteresse. O WnBUGS utlza métodos MCMC para a geração da amostra da dstrbução a posteror. Um número grande de amostras é gerado a partr de dstrbuções condconas e, após a. 5

convergênca ter sdo atngda, temos uma amostra da dstrbução a posteror. A partr desta amostra obtemos os resumos a posteror desejados, tas como, méda, medana, desvo-padrão, ntervalos de credbldade. O WnBUGS também fornece uma estatístca para a comparação de modelos o Crtéro de Informação da função Devance (DIC). Segundo Spegelhalter et al. (22), o DIC é uma generalzação do Crtéro de Informação de Akake (AIC). Assm como o observado para o AIC, um valor pequeno para o DIC ndca boa adequabldade do modelo, ou seja, ndca que ele fornece boas estmatvas para os coefcentes. Os DIC s referentes a dferentes modelos são comparáves somente quando os mesmos dados observados são consderados na análse. Uma vantagem de utlzarmos métodos bayesanos na análse do modelo com separação quase-completa é a possbldade de exstênca de estmadores pontuas para. Mesmo quando a dstrbução a pror é a unforme podemos utlzar a méda ou a medana a posteror como estmadores pontuas, uma vez que, neste caso, a moda a posteror é exatamente o estmador de máxma verossmlhança e, portanto, também não exstrá em stuações de separação. 4.2 Defnção da dstrbução a pror A dstrbução a pror deve refletr o grau de conhecmento ncal do pesqusador sobre os parâmetros do modelo. Quando o pesqusador tem nformação sobre os coefcentes não trazda pelos dados, esta deve ser trazda para a análse através da dstrbução a pror vsando melhorar as estmatvas. Quando não se tem tal nformação, ou se tem e não se deseja utlzar-se dela, uma dstrbução a pror não nformatva deve ser utlzada e, neste caso dexa-se que a função de verossmlhança seja a prncpal responsável por trazer a nformação sobre os coefcentes. Dante do exposto na seção anteror, percebe-se que a especfcação da dstrbução a pror tem um papel fundamental no estudo do Modelo de Regressão Logístca com separação. Galndo-Garre, Vermunt, e Bergsma (24) afrmaram que, assumndo que não há nformação préva sobre a dependênca entre os parâmetros do modelo, é convenente assumr ndependênca entre os coefcentes e adotar dstrbuções a pror normas unvaradas para cada um deles. Eles utlzaram estatístca bayesana para suavzar as estmatvas dos parâmetros da regressão logístca, assumndo váras 6

dstrbuções a pror para estes parâmetros. As dstrbuções utlzadas foram: normas unvaradas, Drchlet, Jeffreys e Clogg-Elasson. Congdon (2) sugere o uso de dstrbuções normas com méda zero e varânca grande. Greenland (2) afrma que dstrbução a pror e verossmlhança podem ser aproxmadas por normas multvaradas em casos de grandes amostras mas afrma que, no caso de dados esparsos, tas aproxmações podem ser nadequadas. Neste caso, ele recomenda análse conjugada exata. Neste trabalho, utlzaremos a abordagem de Galndo-Garre, Vermunt, e Bergsma (24), ou seja, assumremos ndependênca entre os coefcentes e adotaremos dstrbuções a pror normas unvaradas para cada um deles. Também utlzaremos a dstrbução a pror empírca que ntroduzremos na próxma seção. 4.2. Análse de Bayes-empírca Segundo Paulno, Turkman e Murtera (23), a análse de Bayes-empírca utlza os dados para especfcar a dstrbução a pror e, posterormente, utlza a análse bayesana. Isso a torna uma tercera va entre os paradgmas bayesano e frequentsta, e, como tal, tem sdo rejetada ou, pelo menos, secundarzada pela grande maora dos adeptos da Escola Bayesana. Entretanto, a análse Bayes-empírca tem permtdo ultrapassar as dfculdades de análses ntegralmente bayesanas de problemas complexos e produzdo estmadores com boas propredades frequentstas. Voltando ao nosso problema, segundo Tsutakawa e Ln (986), é mas fácl obtermos nformações a pror sobre a probabldade de sucesso E( Y x ) = θ e, consequentemente, sera mas fácl elcarmos a dstrbução a pror sobre tal probabldade, do que obtermos algum conhecmento a pror sobre que é um objeto que, em geral, não tem sgnfcado prátco. O método sugerdo por Bedrck, Chrstensen e Johnson (996) envolve elcar a dstrbução a pror para respostas médas correspondentes aos valores observados das covaráves e, a partr desta dstrbução ncal, nduzr a uma dstrbução a pror para os coefcentes da regressão. 7

Como θ é uma probabldade, portanto θ, podemos assumr que, ndependentemente, cada θ Beta a, a ), sto é, ( 2 π ( θ ) p = θ a a2 ( θ ) Estas ndependentes dstrbuções a pror médas condconas nduzem às seguntes dstrbuções a pror para os coefcentes : π p ' a ' a ' F( ~ x F( ~ x f ( ~ 2 ( ) ) [ )] x ) = onde F (.) é a função de dstrbução de probabldade com função de densdade de probabldade f (.). Para o modelo logístco, f (.) = F(.)( F(.)). A déa do Bayes-empírco é escolher alguns pontos, ou seja, confgurações de valores das varáves do problema, e atrbur uma probabldade de ocorrênca a cada confguração seleconada. O número de pontos escolhdos deve ser gual ao número de coefcentes do modelo e sua escolha deve ser feta com base nos valores que ocorrem com maor freqüênca. A probabldade de ocorrênca de cada conjunto de pontos deve ser defnda de forma a refletr o conhecmento a pror que o pesqusador tem sobre o assunto e deve ser dferente o sufcente para garantr a ndependênca das probabldades de cada ponto seleconado. E( ) = A méda da probabldade de ocorrênca de cada conjunto de pontos é a θ e, através do seu valor, defndo pelo pesqusador, encontra-se a a + a2. relação entre a e a 2. Defndos os valores de a e a 2, obtém-se as dstrbuções a pror beta para os θ e, a partr destas, encontram-se dstrbuções a pror beta para os coefcentes do modelo,. Neste trabalho, aproxmações das dstrbuções a posteror de utlzando-se o WnBUGS. são obtdas 8

Capítulo 5 Resultados Neste capítulo, analsaremos o banco de dados de pacentes submetdos à cranotoma, descrto no Capítulo 2, utlzando os estmadores de máxma verossmlhança penalzada. Utlzaremos o método bayesano com dstrbuções a pror normas para três conjuntos de dados, um deles gerado com superposção, outro com separação quasecompleta e outro de pacentes submetdos à cranotoma. Posterormente, utlzaremos a análse Bayes-empírca para os dados de cranotoma. Para a análse dos dados, consderamos os pacotes estatístcos R e SAS e, para a análse va métodos bayesanos, utlzamos o WnBugs. 5. Estmação por máxma verossmlhança penalzada Utlzando os dados do exemplo de cranotoma, foram estmados os coefcentes do modelo de regressão logístca utlzando máxma verossmlhança penalzada. Os resultados são mostrados na Tabela 5.. Tabela 5. Resultados da estmação por máxma verossmlhança penalzada para cada programa I.C. de 95% Programa Coefcente Estmatva Erro padrão Lmte nferor Lmte superor Estatístca de teste p -6,428,766-9,4878-2,7978 - <, SAS 2,689,5294 -,4739 7,2 -,4 2,35655,2377 -,2885,88558 -,373-6,428,766 - - -3,599,39 R - brglm 2,689,5294 - -,48,5664 2,3565,2377 - -,5,3362-6,428,766 -,2652-3,4235 25,837 <, R - logstf 2,689,5294 -,4739 7,2 2,5337,44 2,3565,2377 -,289,8856 2,277,37326 9

Através dos coefcentes estmados pelos modelos no SAS, no brglm e no logstf, verfcamos que as covaráves não são sgnfcatvas para o modelo. Isto é, a gravdade do caso do pacente que realzou cranotoma e o tempo de duração da sua crurga (em horas) não nfluencam na ocorrênca de menngte. 5.2 Análse bayesana com dstrbução a pror normal Nesta seção, utlzaremos dos bancos de dados gerados a partr do modelo de regressão logístca. Um deles na stuação de superposção e outro na stuação de separação quase-completa. Vamos estudar a especfcação da dstrbução a pror normal na estmação dos coefcentes, através da dstrbução a posteror, comparando com os verdaderos valores dos parâmetros. Além dsto, estudaremos a especfcação da dstrbução a pror normal na estmação dos coefcentes da regressão usando o banco de dados de pacentes submetdos à cranotoma. Comparamos também os resultados com as estmatvas de máxma verossmlhança penalzada. 5.2. Análse dos dados gerados Incalmente, geramos dos bancos de dados, de tamanho, a partr do modelo em (), assumndo que Y e X são varáves dcotômcas. Para este fm, assummos = 3 e = 5. No prmero deles, assummos superposção e no outro consderamos uma stuação com separação quase-completa. Note que os valores assumdos para os parâmetros, levam à zero a probabldade condconal de que Y =, dado x =, sto é, P Y = x. tem-se que [ = ] Para a análse bayesana, consderamos dferentes dstrbuções a pror normas unvaradas para e ambas centradas em zero e no verdadero valor do parâmetro e com as varâncas varando entre e.. Isto é, defnmos dstrbuções a pror mas e menos nformatvas e temos como objetvo avalar a nfluênca destas especfcações nas estmatvas a posteror. 2

5.2.. Stuação de superposção Os dados gerados na stuação de superposção são mostrados na Tabela 5.2. Tabela 5.2 - Tabela de contngênca de Y versus X gerados na stuação de superposção Y X Total 49 5 4 46 5 Total 53 47 Para este caso, as estmatvas de máxma verossmlhança são ˆ = 3, 892 e ˆ = 6,334 com erros padrão das estmatvas de, e,37, respectvamente. As estmatvas de máxma verossmlhança penalzada são ˆ = 3, 497 e ˆ = 5, 832 com erros padrão das estmatvas de,837 e,974, respectvamente. As estmatvas de máxma verossmlhança penalzada são mas próxmas dos valores reas ( = 3 e = 5 ) e tem erros-padrão menores que as estmatvas de máxma verossmlhança. A Tabela 5.3 mostra a méda e a medana e também o desvo padrão a posteror para e para váras especfcações de dstrbuções a pror. Notamos que, entre os modelos com dstrbuções a pror centradas em zero, ou seja, em que, a pror, não se está estmando bem os parâmetros (já que = 3 e 5 ), as melhores estmatvas = (méda e medana) são obtdas quando assummos uma dstrbução a pror com varânca. Este modelo é o que tem as estmatvas mas próxmas das estmatvas de máxma verossmlhança penalzada ( ˆ = 3, 497 e ˆ = 5, 832 ). Apesar dsto, o DIC aponta como o melhor modelo aquele em que a dstrbução a pror tem varânca 25. Nota-se anda que o modelo ndcado pelo DIC fo o que forneceu estmatvas dos coefcentes mas próxmas das estmatvas de máxma verossmlhança ( ˆ = 3, 892 e ˆ = 6, 334 ). É perceptível também que, exceto nos casos em que a dstrbução a pror é muto 2

concentrada em torno de zero, as estmatvas a posteror tendem a subestmar e superestmar. Nos casos onde as dstrbuções a pror revelam grande ncerteza ncal sobre os parâmetros, a subestmação e a superestmação são anda maores. Acontece a mesma cosa com os desvos padrão das estmatvas. Quanto maor a ncerteza da dstrbução a pror maor fca a ncerteza a posteror. Como esperado, quando comparamos os modelos com dstrbuções a pror centradas nos verdaderos valores dos parâmetros, as estmatvas a posteror são melhores quando a certeza a pror é grande. Isto também fo o ndcado pelo DIC, que fo menor para modelo com a varânca. Este também é o melhor modelo ajustado e fo o que produzu as melhores estmatvas para os parâmetros. Note que, neste caso, é subestmado e é superestmado. Tabela 5.3 - Estmatvas de parâmetros dos coefcentes da regressão logístca para dados smulados na stuação superposção. Resultados a posteror para Resultados a posteror para Dstrbução a pror Méda (desvo padrão) Medana Méda (desvo padrão) Medana DIC N(;) -,93 (,3669) -,94 3,688 (,493) 3,684 5,67 N(;) -3,474 (,7892) -3,386 5,862 (,92) 5,78 4,54 N(;25) -3,894 (,9683) -3,787 6,372 (,99) 6,263 4,423 N(;) -4,424 (,268) -4,2 6,955 (,365) 6,84 4,783 N(parâmetro;) -3,33 (,5337) -3,28 5,655 (,666) 5,654 4,753 N(parâmetro;25) -4,237 (,74) -4,6 6,776 (,97) 6,673 4,476 5.2..2 Stuação de separação quase-completa Os dados gerados na stuação de separação quase-completa são mostrados na Tabela 5.4. 22

Tabela 5.4 - Tabela de contngênca de Y versus X gerados na stuação de separação quase-completa Y X Total 5 5 3 47 5 Total 53 47 Neste caso, não exstem as estmatvas de máxma verossmlhança. As estmatvas de máxma verossmlhança penalzada são ˆ = 4, 65 e ˆ = 7, 223 com erros padrão das estmatvas de,435 e,54, respectvamente. Perceba que há uma subestmação de e superestmação de. Na análse bayesana (Tabela 5.5), percebemos que, salvo para o caso em que a dstrbução a pror para ambos os parâmetros é uma normal padrão, a qual fornece as melhores estmatvas, em todos os outros casos há uma subestmação de e superestmação de. Da mesma forma que observamos no caso com superposção, quanto maor a varânca a pror menor a estmatva de e maor a estmatva de. No entanto, como mostrado na Tabela 5.5, quando aumentamos a varânca a pror o DIC dmnu levando-nos a avalações contradtóras. Pelo DIC, concluímos que quanto menos nformatvas são as dstrbuções a pror, melhor o ajuste do modelo. Mas observem que as estmatvas e seus desvos padrão aumentam muto conforme defnmos dstrbuções a pror menos nformatvas. Perceba que, quando a varânca a pror tende para nfnto os estmadores bayesanos também crescem muto. Ou seja, quando escolhemos uma dstrbução a pror não nformatva, esta é domnada pelos dados, os quas dão a maor contrbução no cálculo da dstrbução a posteror. Comparando os resultados bayesanos com as estmatvas de máxma verossmlhança penalzada, verfcamos que a análse bayesana forneceu melhores resultados, exceto com o modelo centrado no valor do parâmetro e com varânca maor. 23

Tabela 5.5 - Estmatvas de parâmetros dos coefcentes da regressão logístca para dados smulados com separação quase-completa. Resultados a posteror para Resultados a posteror para Dstrbução a pror Méda (desvo padrão) Medana Méda (desvo padrão) Medana DIC N(;) -2,53 (,3852) -2,29 3,98 (,569) 3,99 4,8 N(;) -4,23 (,63) -4,28 6,97 (,56) 6,89 27,65 N(;25) -5,47 (,63) -5,9 8,82 (,733) 7,957 26,348 N(;) -8,68 (,26) -7,28 2,59 (,3) 2,4 24,96 N(parâmetro;) -3,539 (,5756) -3,56 6,7 (,6589) 6,75 28,22 N(parâmetro;25) -6,458 (2,69) -6,5 9,25 (2,64) 8,872 25,694 5.2.2 Pacentes submetdos à cranotoma Os dados do exemplo publcado em Colosmo, Franco e Couto (995) foram apresentados na Tabela 2.2. Cruzando a resposta presença de menngte com a covarável gravdade do pacente percebeu-se que há separação quase-completa neste bando de dados. Também aqu foram realzadas análses bayesanas utlzando dstrbuções a pror normas com méda zero e varâncas dferentes para os coefcentes do modelo, como mostrado na Tabela 5.6. Como esperado, verfcamos que quando utlzamos dstrbuções a pror menos nformatvas, as estmatvas e seus desvos padrão tendem para nfnto. Além dsto, os valores dos DIC s dmnuem cada vez mas. As dstrbuções a posteror que fcaram com as médas mas próxmas das estmatvas por máxma verossmlhança penalzada são as que tveram as dstrbuções a pror com varânca 25 para com varânca para. 24

Tabela 5.6 - Estmatvas de parâmetros dos coefcentes da regressão logístca para dados de cranotoma. Resultados a posteror para Resultados a posteror para Dstrbução a pror Méda (desvo padrão) Medana Méda (desvo padrão) Medana DIC N(;,) -,489 (,26) -,486 -,2364 (,274) -,229 5,89 N(;,5) -2,542 (,3582) -2,526,572 (,59),6874 32,998 N(;) -3,9 (,4559) -2,984,3755 (,657),396 29,65 N(;4) -4,4 (,766) -4,22,485 (,9787),462 25,858 N(;) -5,29 (,59) -4,93 2,425 (,294) 2,363 24,56 N(;25) -6,75 (,73) -5,925 3,596 (,833) 3,4 23,663 N(;5) -7,352 (2,43) -7,8 4,76 (2,476) 4,48 23,275 N(;) -9,236 (3,727) -8,538 6,735 (3,76) 6,77 22,927 N(;4) -5,64 (8,24) -3,99 3, (8,227),7 22,57 N(;7) -9,99 (,34) -7,74 7,47 (,35) 5,3 22,54 N(;) -2,84 (3,7) -9,3 9,34 (3,9) 6,59 22,48 Os gráfcos da Fgura 5. mostram os valores das estmatvas de, e também os valores dos DIC s para cada dstrbução a pror varando os valores da varânca a pror. 25

Fgura 5. - Gráfcos das estmatvas de, e DIC para modelos com dstrbuções a pror normas com méda zero e város valores para a varânca. 5.3 Análse usando dstrbuções a pror Bayes-empírca Como vsto na seção anteror, o problema para estmar os coefcentes da regressão na presença de separação pode ser sanado se exstr uma quantdade razoável de nformação ncal que gere alguma dstrbução a pror bastante nformatva. Caso esta nformação seja escassa, o que nos levara a elcar uma dstrbução a pror não nformatva, o problema de estmação dos parâmetros do modelo logístco permanecera. 26

Ou seja, o enfoque bayesano para este tpo de problema poderá levar a uma solução adequada apenas em stuações muto partculares em que a nformação a pror exsta e seja forte o bastante para não ser tão nfluencada pela nformação trazda pelos dados, o que não acontece em mutos casos. Dante deste problema uma alternatva que pode ser atratva é o uso de métodos bayesanos empírcos para a construção da dstrbução a pror para os parâmetros do modelo logístco. No que segue, fo utlzada a análse de Bayes-empírca para os dados do exemplo de cranotoma. Para construr a dstrbução a pror para os parâmetros do modelo logístco, dgo, foram especfcadas, subjetvamente, as dstrbuções a pror beta para os θ, ou seja, assumu-se que θ Beta ( a, a2), e foram seleconados três pontos dstntos x, ) do conjunto de dados, a saber, ( x =, x = 2 2 ), x =, x 3) e ( x 2 ( 2 = ( x =, x2 = ). Estes pontos foram seleconados por serem representatvos em relação ao conjunto de dados. Aqu, também, tem-se como objetvo avalar a nfluênca das especfcações a pror nas nferêncas a posteror. A Tabela 5.7 mostra as 9 especfcações a pror para θ que serão consderadas neste estudo. Note que alguns destes casos pressupõem a exstênca de muta nformação a pror gerando dstrbuções a pror muto nformatvas para cada θ Caso, por exemplo e outros a quase nexstênca de uma nformação a pror Caso 6, por exemplo o que nos leva a construr dstrbuções pouco nformatvas para cada θ. Das dstrbuções a pror beta para os θ, foram encontradas as dstrbuções a pror para os coefcentes. O mesmo procedmento fo realzado com outros três pontos seleconados para o mesmo conjunto de dados. São eles: ( x =, x = 2 8), ( 2 = x =, x 3) e x =, x ). Nestes casos, foram consderadas as mesmas ( 2 = dstrbuções a pror para cada θ mostradas na Tabela 5.7. 27

Tabela 5.7 Dstrbuções a pror para cada θ. Caso θ a a 2 Caso θ a a 2 Caso θ a a 2 θ 2 98 θ 2 98 θ 2 98 θ 2 5 45 4 θ 2,,9 7 θ 2 5 45 θ 3 5 5 θ 3 5 5 θ 3,, θ, 9,9 θ, 9,9 θ 2 θ 2,,9 5 θ 2 5 45 8 θ 2,,9 θ 3 θ 3 5 5 θ 3 θ 2 98 θ θ, 9,9 3 θ 2 5 45 6 θ 2 9 θ 2 θ 3 θ 3 θ 3 Para se ter uma déa do efeto destas escolhas a pror para os θ e dos pontos seleconados da amostra nas dstrbuções a pror de, hstogramas foram construídos para as dstrbuções a pror de cada, assm como foram avaladas suas médas e varâncas de acordo com as escolhas dos valores de a e a 2. As Fguras 5.2 a 5.4 mostram exemplos dos casos, 2 e 6 para a prmera escolha de pontos ( x =, x2 = 2), ( 2 = x =, x 3) e x =, x ). O caso é um caso onde as dstrbuções a pror são ( 2 = mas nformatvas para todos os. No caso 2, já exste bastante nformação a pror para e também para, mas menos nformação a pror sobre os 2, usando, neste caso, a dstrbução unforme. No caso 6, utlzamos a dstrbução a pror unforme para todos os. Verfcamos que o coefcente 2 sempre tem a dstrbução mas concentrada. As dstrbuções a pror para e, no caso 2, fcaram com uma grande varabldade. 28

Fgura 5.2 Hstogramas das dstrbuções a pror para, e 2 no caso Fgura 5.3 Hstogramas das dstrbuções a pror para, e 2 no caso 2 29

Fgura 5.4 Hstogramas das dstrbuções a pror para, e 2 no caso 6 A Tabela 5.8 mostra as médas e varâncas para as dstrbuções a pror para nos casos, 2 e 6. Veja que a dstrbução a pror do caso tem os resultados mas próxmos das estmatvas de máxma verossmlhança penalzada ( =-6,4, =2,7 e 2 =,36). Tabela 5.8 Resultados das dstrbuções a pror para, e 2 nos casos,2 e 6 2 Caso Resultados Caso Méda -5,5277 2,2562,326 Varânca,768,9844,39 Caso 2 Méda -5,364,637,373 Varânca 8,5 235,64 2,63 Caso 6 Méda,24 -,58 -,7 Varânca 3,759 7,5926,324 Consderando as dstrbuções a pror para os, utlzamos o WnBUGS para obter as dstrbuções a posteror para estes coefcentes. Um total de. terações para cada caso fo consderado e, após a convergênca ter sdo atngda, as. prmeras nterações foram descartadas como período de burn-n de.. Algumas 3

meddas das dstrbuções a pror para médas, os desvos padrão, as medanas e os DIC s. são mostradas na Tabela 5.9. São elas as Tabela 5.9 Resumos a posteror de para os 9 casos e para cada conjunto de pontos seleconados. (X =, X 2=2), (X =, X 2=3) e (X =, X 2=) (X =, X 2=8), (X =, X 2=3) e (X =, X 2=) desvo desvo Caso méda padrão medana DIC méda padrão medana DIC -4,887,826-4,849-6,4,86-5,98 2,288,596 2,285 2,464,98 2,396 2,332,4,33 5,7,52,9,49 8,2-2,36 5,35 -,3-6,68,2-3,75 6,979 5,42 5,65,49,9 8,538 2 2,485,244,47 5,3,59,25,492 5,23-3,79,882-3,67-5,832,98-5,755,235,82,26 2,493,92 2,429 3 2,264,62,269 6,6 -,32,32 -,33 2,37-9,54,73-9,6-6,36,955-6,269 3,695,946 3,642,695,84,69 4 2,445,54,436 6,5,538,96,59 4,44-4,532,725-4,49-6,,4-3,4,93,723,96 2,37,4 9,397 5 2,35,8,349 4,4,36,6,34 9,7-6,33,393-5,999-5,87,498-5,699,649,66,644 2,255,442 2, 6 2,285,88,284 7,93,53,2,59 8,96-3,65,852-3,4-5,625,986-5,559,588,955,64 2,527,932 2,459 7 2,8,22,94 6,85 -,32,4 -,32 22,42-7,7,944-7,489-6,29,582-6,4,375,5,288,788,57,666 8 2,367,29,362 7,5,65,255,63 7,76-6,63,7-6,452-6,,7-3,5 2,66,44 2,4 2,8,6 9, 9 2,359,24,354 5,25,369,24,362 6,45 3

As médas das dstrbuções a posteror em alguns casos são bem dferentes que em outros e em alguns casos o desvo padrão fo muto grande. O menor DIC para a prmera escolha de pontos fo o do caso 5, o qual teve desvos padrão elevados para e, assm como os valores das médas e medanas. Para a segunda escolha de pontos, o menor DIC fo o do caso 4. Intervalos de credbldade percentílcos para os coefcentes foram construídos e são mostrados na Fgura 5.5. Veja que nos casos 2, 5 e 9 do prmero conjunto de pontos os ntervalos para fcaram muto grandes. Já no segundo conjunto de pontos, o ntervalo para do caso 2 é que fcou muto grande, embora não tanto quanto os ntervalos do prmero conjunto de pontos. Quando observamos a prmera escolha de pontos, verfcamos novamente os mesmos casos 2, 5 e 9 nos quas os ntervalos para também fcaram muto grandes. E, verfcamos novamente que, no caso 2, o ntervalo para fcou grande para a segunda escolha de pontos. Verfcamos anda que os ntervalos de credbldade para 2 se comportam bem para todos os casos. Ou seja, parece que ele não é sensível à especfcação das dstrbuções a pror. O coefcente 2 é o coefcente da varável X 2, tempo de crurga, que não está assocado à covarável que gera a separação. No prmero conjunto de pontos, as pores stuações, sto é, os ntervalos muto grandes, estão assocadas à falta de nformação para θ, com uma dstrbução a pror beta (,; 9,9). No segundo conjunto de pontos, o ntervalo grande também está no caso 2 que tem a mesma dstrbução para θ. Parece então que o problema é a defnção da beta (,; 9,9) como dstrbução a pror para θ. Até quando utlzamos a dstrbução unforme, beta (; ), para θ não ocorreu este problema. 32