ANDRÉ OLIVEIRA SOUZA TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB A CONDIÇÃO DE SEPARABILIDADE

Documentos relacionados
MODELOS DE REGRESSÃO PARAMÉTRICOS

4 Critérios para Avaliação dos Cenários

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

REGRESSÃO NÃO LINEAR 27/06/2017

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Regressão Múltipla. Parte I: Modelo Geral e Estimação

1. CORRELAÇÃO E REGRESSÃO LINEAR

UNIVERSIDADE FEDERAL DE MINAS GERAIS JORIA MARTINHO GONÇALVES SOLUÇÕES PARA O PROBLEMA DE SEPARAÇÃO QUASE-COMPLETA EM REGRESSÃO LOGÍSTICA

3 A técnica de computação intensiva Bootstrap

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr.

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Testes não-paramétricos

AULA EXTRA Análise de Regressão Logística

Análise de Regressão

Associação entre duas variáveis quantitativas

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Capítulo 1. Exercício 5. Capítulo 2 Exercício

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Métodos Avançados em Epidemiologia

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Prof. Lorí Viali, Dr.

2 Incerteza de medição

Estatística II Antonio Roque Aula 18. Regressão Linear

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Análise de influência

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

PRESSUPOSTOS DO MODELO DE REGRESSÃO

Análise de Variância. Comparação de duas ou mais médias

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Regressão Linear Simples by Estevam Martins

Teoria Elementar da Probabilidade

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

CORRELAÇÃO E REGRESSÃO

3 Método Numérico. 3.1 Discretização da Equação Diferencial

Identidade dos parâmetros de modelos segmentados

DELINEAMENTOS EXPERIMENTAIS

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS

7 - Distribuição de Freqüências

CURSO A DISTÂNCIA DE GEOESTATÍSTICA

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Análise de Regressão Linear Múltipla IV

Regressão Logística Aplicada aos Casos de Sífilis Congênita no Estado do Pará

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Psicologia Conexionista Antonio Roque Aula 8 Modelos Conexionistas com tempo contínuo

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Programa de Certificação de Medidas de um laboratório

ESTUDO DE MODELOS PARA AJUSTE E PREVISÃO DE UMA SÉRIE TEMPORAL

Análise de Regressão Linear Múltipla VII

Universidade Federal de São Carlos Centro de Ciências Exatas e de Tecnologia Departamento de Estatística UMA FAMÍLIA DE MODELOS DE REGRESSÃO

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

Contabilometria. Aula 8 Regressão Linear Simples

Análise Exploratória de Dados

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

5 Implementação Procedimento de segmentação

2 Metodologia de Medição de Riscos para Projetos

(1) A uma parede totalmente catalítica quanto para uma parede com equilíbrio catalítico. No caso de uma parede com equilíbrio catalítico, tem-se:

Classificação de Padrões

Capítulo 2. Modelos de Regressão

Reconhecimento Estatístico de Padrões

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

3. Estatística descritiva bidimensional

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva

Covariância na Propagação de Erros

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM

Estatística I Licenciatura MAEG 2006/07

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES

Elementos de Estatística e Probabilidades II

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um).

Estatística Espacial: Dados de Área

Algarismos Significativos Propagação de Erros ou Desvios

4 Discretização e Linearização

5 Formulação para Problemas de Potencial

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

AEP FISCAL ESTATÍSTICA

Introdução. Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. Resultados possíveis

Probabilidade de Óbito por Leptospirose Humana em Belém - PA

3 Elementos de modelagem para o problema de controle de potência

ALGORITMOS PARA DADOS AUMENTADOS

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional. ou experimental.

Transcrição:

ANDRÉ OLIVEIRA SOUZA TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB A CONDIÇÃO DE SEPARABILIDADE Dssertação apresentada à Unversdade Federal de Vçosa, como parte das exgêncas do Programa de Pós-Graduação em Estatístca Aplcada e Bometra, para obtenção do título de Magster Scentae. VIÇOSA MINAS GERAIS BRASIL 2010

Aos meus pas Expedto Campos de Souza e Ana Balbna de Olvera Souza, pelos esforços jamas negados, pelos exemplos sempre oferecdos e sem os quas esta conqusta não sera possível. À mnha esposa Andrea Fernandes Texera pela compreensão de ausênca como pa e mardo. A mnha flha Ana Beatrz Texera Souza, por dexar tudo com mas sentdo em mnha vda. Aos rmãos Adelson e Andréa. Dedco

MENSAGEM Só exste uma cosa melhor do que fazer novos amgos, conservar os velhos Elmer G. Letterman

AGRADECIMENTOS Deus, por ter dado saúde, dsposção e sempre ter me lumnado dando forças para vencer e chegar até este momento. À Unversdade Federal de Vçosa, por ntermédo do Programa de Pós Graduação de Estatístca Aplcada e Bometra, pela oportundade. À Fundação de Amparo a Pesqusa do Estado de Mnas Geras FAPEMIG pelo apoo ao desenvolvmento do projeto de pesqusa CAG - PPM-00255-08. A todos os professores do Departamento de Estatístca da Unversdade Federal de Vçosa que contrbuíram para que eu me tornasse uma pessoa melhor em mnha profssão. Ao secretáro Altno pela efcênca sempre demonstrada e, sobretudo, pelo bom humor nesgotável em todos os momentos. A secretára do DET-UFV Anta, pela presteza e smpata. Aos professores Enrco Antono Colosmo e Sebastão Martns Flho pelo apoo durante o desenvolvmento deste trabalho, e pelos bons ensnamentos durante este tempo que trabalhamos juntos. Aos colegas do mestrado UFV, em especal a todos do semestre 2008/01. Ao professor Fabyano, pelo apoo, sabedora enquanto professor e generosdade como ser humano. A todos que de alguma forma contrbuíram para a realzação deste trabalho. v

BIOGRAFIA ANDRÉ OLIVEIRA SOUZA, flho de Ana Balbna Olvera Souza e Expedto Campos de Souza, nasceu em 30 de setembro de 1978, em Senador Frmno MG. Em janero de 2000 graduou-se em lcencatura plena em Matemátca pela Unversdade Presdente Antono Carlos (UNIPAC). Em 2002 concluu o curso de especalzação em Matemátca, pela Unversdade Presdente Antono Carlos (UNIPAC) com a monografa nttulada: Dfculdades no ensno-aprendzagem da matemátca e propostas de solução. Em março de 2008, ncou o curso de Mestrado em Estatístca Aplcada e Bometra, na Unversdade Federal de Vçosa (UFV) tendo defenddo a dssertação em 25 de feverero de 2010. v

ÍNDICE LISTA DE FIGURAS... v LISTA DE TABELAS... x RESUMO... x ABSTRACT... x INTRODUÇÃO...1 CAPÍTULO 1 REGRESSÃO LOGÍSTICA...3 1.1 - Motvação...3 1.2 - Modelo de regressão logístca... 3 1.2.1 - Regressão logístca smples... 4 1.2.1.1 - Transformação logt... 5 1.2.1.2 - Estmação dos parâmetros... 6 1.2.2 - Regressão logístca múltpla... 8 1.2.2.1 - Estmação dos parâmetros... 9 1.3 - Estatístca devance...10 1.4 - Testes Estatístcos... 11 CAPÍTULO 2 EXISTÊNCIA DE ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA EM MODELOS DE REGRESSÃO LOGÍSTICA...13 2.1 Classfcações de um conjunto de dados logístcos...13 2.1.1 Separação completa...13 2.1.2 Separação quase completa...14 2.1.3 - Superposção (overlap)... 14 v

2.2 Estmadores de máxma verossmlhança...15 2.2.1 O método de máxma verossmlhança penalzada... 16 2.2.2 Testes Estatístcos sob separabldade...17 CAPÍTULO 3 PROPOSTA DE AVALIAÇÃO DOS TESTES ESTATÍSTICOS EM REGRESSÃO LOGÍSTICA SOB CONDIÇÃO DE SEPARABILIDADE... 19 3.1 Modelo utlzado na smulação dos dados bnáros...19 3.2 Análses dos dados smulados e crtéros de comparação... 22 3.3 Resultados e dscussão... 24 CAPÍTULO 4 APLICAÇÃO... 29 4.1 Pacentes submetdos a cranotoma...29 4.2 Germnação de sementes de Adenanthera pavonna L.... 32 CONCLUSÕES...36 REFERÊNCIAS BIBLIOGRÁFICAS...37 APÊNDICE A... 39 APÊNDICE B...48 v

LISTA DE FIGURAS Fgura 2.1 Confgurações de dados logístcos segundo Albert e Anderson (1984), separação completa (a), quase-completa (b) e overlap (c)....14 Fgura 2.2 Ilustração de uma função de verossmlhança, com estmatvas fntas (a) e nfntas (b)....15 Fgura 3.1 Probabldade de sucesso obtdas ao se varar β 1 e fxar β 0 = 3....21 Fgura 3.2 Curvas da probabldade de sucesso obtdas ao se varar β 0 e β 1....21 Fgura 3.3 Ilustração das curvas de poder para os testes A e B....23 Fgura 3.4 Comportamento assntótco dos testes C e D.... 24 Fgura 3.5 Função poder empírca dos testes da razão de verossmlhanças(trv) (a) e de Wald (b) para amostras de tamanho η=10.... 25 Fgura 3.6 Função poder empírca dos testes da razão de verossmlhanças(trv) (a) e de Wald (b) para amostras de tamanho η=400.... 26 Fgura 3.7 Poder do TRV e Wald para amostras de tamanho η = 10 e β 0 = 5.... 27 Fgura 3.8 Poder do TRV e Wald para amostras de tamanho η = 400 e β 0 = 5.... 27 Fgura 3.9 Probabldade do erro tpo I com varações de 0 β e tamanhos de amostras, para as estatístcas TRV (a) e de Wald (b).... 28 v

LISTA DE TABELAS Tabela 3.1 Testes estatístcos sob separabldade... 19 Tabela 3.2 Valores de β 0, β 1 e η utlzados na smulação... 20 Tabela 4.1 Conjunto de dados dos pacentes submetdos à cranotoma... 29 Tabela 4.2 Dstrbução dos pacentes segundo a gravdade do caso e a presença de menngte...30 Tabela 4.3 Estmatvas de máxma verossmlhança genuína para os coefcente do modelo de regressão logístca para os dados de cranotoma...30 Tabela 4.4 Teste da razão de verossmlhanças (TRV) para as estmatvas de máxma verossmlhança genuína...30 Tabela 4.5 - Estmatvas de máxma verossmlhança penalzada para os coefcentes do modelo de regressão logístca para os dados de cranotoma...31 Tabela 4.6 Testes ndvduas de Wald para as estmatvas de máxma verossmlhança penalzada...31 Tabela 4.7 Conjunto de dados Adenanthera pavonna L....32 Tabela 4.8 Número de sementes germnadas de Adenanthera pavonna L por tratamento...33 Tabela 4.9 Estmatvas de máxma verossmlhança genuína para os coefcentes do modelo de regressão logístca para os dados de germnação de Adenanthera pavonna L... 33 Tabela 4.10 Teste da razão de verossmlhanças (TRV) para verfcar o efeto da nteração entre X1 e X2... 34 Tabela 4.11 - Teste da razão de verossmlhanças (TRV) para verfcar o efeto de X1, X2 e X1+X2...34 Tabela 4.12 Estmatvas de máxma verossmlhança penalzada para os coefcentes do modelo de regressão logístca para os dados de germnação de Adenanthera pavonna L.... 35 Tabela 4.13 Teste de Wald para verfcar o efeto da nteração entre X1 e X2... 35 Tabela 4.14 Teste de Wald para as estmatvas de máxma verossmlhança penalzada35 x

RESUMO SOUZA, André Olvera, M.Sc., Unversdade Federal de Vçosa, feverero de 2010. Testes estatístcos em regressão logístca sob a condção de separabldade. Orentador: Sebastão Martns Flho. Co-Orentadores: Enrco Antono Colosmo e Fabyano Fonseca e Slva. A regressão logístca é o método estatístco usual de análse utlzado quando o objetvo é verfcar a relação entre uma varável resposta dcotômca e varáves explcatvas de nteresse. Usualmente, os parâmetros deste modelo são estmados pelo método de máxma verossmlhança genuína, e testes sobre estes parâmetros são construídos consderando as dstrbuções aproxmadas dos estmadores. Isto sgnfca que amostras grandes tornam-se necessáras para obter resultados mas confáves. Em estudos envolvendo dados bnáros, é frequente a presença de uma varável resposta cujo sucesso é pouco provável, ou seja, tem-se um evento raro, o que pode gerar uma amostra de dados esparsos. Nestes casos, dz-se que os dados podem estar sob a condção de separabldade, e esta stuação está frequentemente assocada à presença de uma covarável categórca, podendo os estmadores de máxma verossmlhança, para pelo menos um parâmetro, não exstr. Na stuação de separabldade recomenda-se utlzar o método de máxma verossmlhança penalzada proposto por Frth (1993). O objetvo prncpal deste trabalho fo verfcar por meo de smulação Monte Carlo os poderes dos testes da razão de verossmlhanças (TRV) e de Wald obtdo va máxma verossmlhança penalzada na condção de separabldade. A metodologa apresentada neste trabalho fo aplcada a dos conjuntos de dados reas. A smulação Monte Carlo com uma varável explcatva no modelo possbltou obter ndcatvos que o TRV tem maor poder que o teste de Wald. x

ABSTRACT SOUZA, André Olvera, M.Sc., Unversdade Federal de Vçosa, February, 2010. Statstcal Tests n logstc regresson under separablty condton. Advser: Sebastão Martns Flho. Co-Advsers: Enrco Antono Colosmo and Fabyano Fonseca e Slva. Logstc regresson s the statstcal method of analyss used when the objectve s to verfy the relatonshp between one dchotomc response varable and explcatve varables of nterest. Usually, the model parameters are estmated through the genune maxmum lkelhood method, and tests about these parameters are bult assumng approxmated dstrbutons for the estmators. Ths means that large samples become necessary to obtan trustable results. In studes nvolvng bnary data s common the occurrence of one response varable whose success has low probablty, n other words, a rare event that can generate a sparse data sample. In such cases, the data are under separablty condton, and ths stuaton s frequently assocated to the presence of one categorcal co-varable, what means that the maxmum lkelhood estmators do not exst to one parameter at least. In the separablty condton t s recommended to use the Penalzed Maxmum Lkelhood method, proposed by Frth (1993). The man objectve of ths study was to verfy the powers of the Lkelhood Rato Test (LRT) and Wald Test obtaned through PML under separablty condton by Monte Carlo smulaton. The presented methodology has been appled to two real data sets. Monte Carlo smulaton wth one explcatve varable n the model made possble to obtan ndcatves that the LRT s most powerful than the Wald test. x

INTRODUÇÃO Em mutos estudos nas dversas áreas da cênca, a varável dependente ou varável resposta, apresenta apenas duas categoras, como exemplo o resultado de expermentos com germnação de sementes, nos quas tem-se como resposta o sm, se germnou, ou não, caso contráro. Tas respostas dcotômcas podem ser codfcadas numercamente como 1 e 0, respectvamente correspondendo assm a um conjunto de dados bnáros. Quando se tem o nteresse na avalação da nfluênca de fatores sobre uma resposta dcotômca, a regressão logístca é o método usualmente utlzado (Hosmer e Lemeshow, 1989). Geralmente os testes de hpóteses para os parâmetros do modelo logístco são fundamentados nas estatístcas de Wald e da razão de verossmlhanças, cujos poderes podem dferr em stuações envolvendo dferentes confgurações de dados amostras. Uma stuação na qual uma comparação se faz necessára, devdo a escassez de trabalhos na lteratura especalzada, é a da separabldade esta ocorre quando, as respostas sm e não podem ser perfetamente separadas por um fator ou por combnações lneares não-trvas de város fatores. A probabldade de ocorrênca destas stuações depende do tamanho da amostra e do número de fatores dcotômcos de nteresse (Henze e Schemper, 2002). Inferêncas para os coefcentes do modelo logístco não podem ser fundamentadas na estatístca de Wald, quando o método de estmação é o de máxma verossmlhança genuína, pos neste caso, tanto os estmadores quanto o erro padrão de pelo menos um dos coefcentes poderá r para o nfnto. Este fato mplca em ntervalo de confança (IC) com ampltude nfnta (Henze e Schemper, 2002), tornando o teste de Wald não conclusvo. Portando, nesta stuação apenas o teste da razão de verossmlhanças poderá ser utlzado. Por outro lado, sob a confguração de separabldade quando o método de estmação utlzado for o de máxma verossmlhança penalzada (Frth, 1993), nferêncas para os coefcentes do modelo podem ser fundamentadas na estatístca de Wald. Dante do assunto exposto o objetvo deste trabalho é nvestgar o poder do TRV, sob separabldade, quando se utlza o método de estmação de máxma verossmlhança genuína, e também, o poder do teste de Wald quando se trabalha com o método de máxma verossmlhança penalzada proposta por Frth (1993). Os resultados desta nvestgação serão utlzados em dos conjuntos de dados reas sob confguração de separabldade. Em um a resposta de nteresse fo a ocorrênca de 1

menngte durante os prmeros 30 das após o pacente ser submetdo a cranotoma (Colosmo et al., 1995), no outro fo avalada a germnação de sementes de Adenanthera pavonna L. Este trabalho está organzado da segunte forma: No Capítulo 1 estão apresentados a motvação deste estudo, o modelo de regressão logístca e nferênca do modelo. No Capítulo 2 esta dscutda a exstênca dos estmadores de máxma verossmlhança, a classfcação dos dados logístcos, a estmação e a nferênca obtda pelos métodos de máxma verossmlhança genuína e também o método de máxma verossmlhança penalzada. No Capítulo 3 encontra-se descrto todo o processo e estrutura da smulação de dados. No Capítulo 4 encontram-se aplcações dos testes fundamentados em resultados obtdos pela nvestgação realzada neste trabalho. E ao fnal são apresentadas as conclusões desta dssertação. 2

Capítulo 1 Regressão logístca Neste capítulo é apresentada uma motvação do trabalho e uma breve revsão do modelo de regressão logístca e nferêncas para a mesma. 1.1 Motvação Ao propor o modelo logístco para modelar dados provenentes de expermentos com gemnação de sementes, no qual alguns efetos dos fatores ou efetos de combnações de fatores a gemnação é nula, estmatvas obtdas por máxma verossmlhança genuína para estmar o efeto de tas tratamentos são mprecsas e dvergem para ±. Para este caso uma alternatva, proposta por Frth (1995), é a modfcação do método de estmação no qual garante estmatvas fntas e precsas para os coefcentes do modelo. A condção de separabldade fo apresentada por Albert e Anderson (1984) em que os mesmos estabeleceram a fundamentação teórca para a análse deste fenômeno e, também Henze e Schemper (2002) sugerram algumas abordagens, para a classfcação de dados logístco já dscutdas por Albert e Anderson (1984). Neste trabalho serão modelados dos conjuntos de dados reas. O prmero é conhecdo da lteratura, em que pacentes foram submetdos a cranotoma (Colosmo et al., 1995). O segundo conjunto de dados é orundo de um expermento com germnação de sementes de Adenanthera pavonna L realzado no laboratóro de sementes florestas da Unversdade Federal de Vçosa em 2009. 1.2 Modelo de Regressão Logístca Um dos casos partculares dos modelos lneares generalzados (Dobson, 1990; Paula, 2004) são os modelos para varáves que apresentam apenas duas categoras ou que de alguma forma foram dcotomzadas assumndo os valores 0 ou 1. São as chamadas varáves dummy (ou ndcadoras). Um dos mas mportantes modelos é o de regressão logístca, baseado na transformação logt para proporção. Varáves com duas categoras que podem ser classfcadas em sucesso ou fracasso representando as possbldades de respostas como, por exemplo, (1; 0), são caracterzadas pela dstrbução de Bernoull. Comumente é chamado de sucesso o resultado mas mportante da resposta ou aquele que se pretende relaconar com outras varáves de 3

nteresse. A dstrbução de Bernoull para a varável aleatóra bnára Y com parâmetro π especfca as probabldades como: Por defnção, PY ( = 1) = π e PY ( = 0) = 1 π EY ( ) = 1π + 0(1 π) = π que é a proporção de respostas em que Y = 1 e sendo, [ ] 2 VarY ( ) EY ( ) EY ( ) 1 π 0 (1 π) π 2 2 2 2 = = +. = π (1 π ) A função de probabldade de uma varável aleatóra Bernoull é, y f( Y, π ) = π (1 π) A regressão logístca é conhecda desde os anos 50, entretanto, tornou se mas usual através de Cox (1970) e de Hosmer e Lemeshow (1989). Aspectos teórcos do modelo de regressão logístca são amplamente dscutdos na lteratura, destacando-se Cox e Snell (1989), Hosmer e Lemeshow (1989), Agrest (1990), Klenbaum (1994) entre outros. y 1.2.1 Regressão logístca smples Os métodos de regressão têm como objetvo descrever as relações entre a varável resposta (Y) e a varável explcatva (X). Na regressão logístca, a varável resposta (Y) é dcotômca, sto é, atrbu-se o valor 1 (um) para o evento de nteresse sucesso e o valor (0) zero para o acontecmento complementar fracasso. Com probabldade de sucesso π ( x ) = PY [ = 1 X ] em que X é a varável explcatva assocada a -ésma resposta Y. Consdera-se uma amostra de respostas bnáras, em que ( Y 1, Y 2, Y 3,..., Y n ) são varáves aleatóras ndependentes com dstrbução Bernoull, com probabldade de T sucesso π, sto é, Y Benoull( π ) e denota-se por x = (1, x ) a -ésma lnha da matrz X em que =1,2,3,...n. A probabldade de sucesso do modelo logístco smples é defnda como: exp( β0 + β1x ) π = π( x) = P( Y = 1 X = x) =, (1.1) 1 + exp( β + β x ) e a probabldade de fracasso, 0 1 4

1 1- π = PY ( = 0 X = x) = 1 + exp( β + β x ), (1.2) 0 1 em que β 0 e β 1 são os parâmetros desconhecdos. Em problemas de regressão o que se modela é o valor médo da varável resposta dado os valores das varáves ndependentes. Esta quantdade é chamada de méda condconal, denotada por EY ( X= x), em que Y é a varável resposta e x, os valores das varáves ndependentes. Devdo a natureza da varável resposta, a ampltude da méda condconal vara no ntervalo [0,1], ou seja, 0 EY ( X= x) 1 e usando a defnção de varáves aleatóras dscreta, tem-se: E( Y X = x ) = 1 P( Y = 1 X = x ) + 0 P( Y = 0 X = x ) = P[ Y = 1 X = x ]. A varável resposta Y dado x é modelada por Y = π + ε. Como a quantdade ε pode assumr somente um de dos valores possíves, sto é, ε = 1 π para Y = 1 ou ε = π para Y = 0, segue que ε tem dstrbução com méda zero e varânca dada por π (1 π ) (Hosmer e Lemeshow, 1989), sto é, a dstrbução condconal da varável resposta segue uma dstrbução bnomal com probabldade dada pela méda condconal π. 1.2.1.1 Transformação logt Para evtar o problema restrtvo de que os valores de probabldade sejam números no ntervalo [0,1], a função logístca pode ser lnearzada pela transformação chamada logt. A transformação logt que é central para estudo de regressão logístca é defnda π como gx ( ) = ln, logo de (1.1) e (1.2) tem-se, 1 π gx ( ) = ln exp( β0 + β1x ) 1+ exp( β + β x ) 0 1 exp( β0 + β1x ) 1 1 + exp( β0 + β1x ) exp( β0 + β1x ) 1+ exp( β0 + β1x ) = l n, 1 1+ exp( β0 + β1x ) gx ( ) = ln(exp( β0 + β1x )) = β0 + β1x. (1.3) 5

A função gx ( ) apresenta as seguntes propredades: é lnear em seus parâmetros, contínua, vara no ntervalo (, + ) com correspondentes no ntervalo [0,1] para π. No contexto de modelos lneares generalzados, uma função monótona e dervável que relacona a méda ao predtor lnear é denomnada de função de lgação, assm π gx ( ) = ln 1 π é a função de lgação canônca para o modelo bnomal. 1.2.1.2 Estmação dos parâmetros Supondo que ( x, y ) seja uma amostra ndependente com n pares de observações, y representa o valor da varável dcotômca e x o valor da varável ndependente da - ésma observação em que =1, 2,3,...,n. Para o ajuste do modelo de regressão logístca smples, segundo a equação (1.1), é necessáro estmar os parâmetros desconhecdos; β 0 e β 1. O método mas usado para estmar esses parâmetros consderando uma regressão lnear clássca é o de mínmos quadrados. Neste método, a escolha de β 0 e β 1 é dada pelos valores que mnmzam a soma de quadrados dos desvos para os valores observados ( y ) em relação ao valor predto ( y ˆ ) baseado no modelo, neste caso, a matrz de projeção H da solução de mínmos quadrados é: T 1 H = X( X X) X, em que X a matrz de dados, no entanto, no modelo de regressão logístca, a varânca Var( ε ) = π (1 π ) não é constante, sendo utlzada a defnção de mínmos quadrados ponderados, defnndo a matrz de projeção para o modelo logístco como: em que, Q dag[ π (1 π )] =, =1,...,n. 1 1 2 T 1 T 2 H = Q X( X QX) X Q, Usualmente o método de máxma verossmlhança é utlzado para estmar os parâmetros no caso de modelo de regressão logístca. Como as observações são ndependentes, a função de dstrbução de probabldade conjunta de y1, y2,..., yn será: n n y 1 y f( y, π) = π (1 π) = 1 = 1, [0,1] T y. (1.4) 6

Então a função de verossmlhança é dada por: β) n y 1 y π (1 π), β 2. (1.5) = 1 L( = O método de máxma verossmlhança consste em estmar β consderando o valor deste parâmetro que maxmza L( β ). Aplcando o logartmo em L( β ), a expressão é defnda como: l( ) ln ( ) ln (1 ) β = [ L β ] = n y π π 1 y = 1 = = n = 1 n [y ln( π ) +(1-y )ln(1- π )] [y ln( π ) +ln(1- π )-y ln(1- π )] = 1 n π [yln +ln(1- π )]. (1.6) = 1 1-π = Substtundo em (1.6) as equações (1.2) e (1.3), tem-se: n 1 l( β) = y ( β0 + β1x )+ln = 1 1+exp( β0 + β1x ) n [ y ( β0 β1x )+ln(1)-ln(1+exp( β0 β1x )] = + + = 1 n [ y ( β0 β1x )+ln(1)-ln(1+exp( β0 β1x )] = + + = 1 n [ β0 β1 β0 β1x ] = y ( + x )-ln(1+exp( + ). (1.7) = 1 Para encontrar o valor de β que maxmza l( β ), derva se l( β ) em relação a cada parâmetro ( β0, β 1), obtendo-se duas equações. 7

n l( β ) 1 = y exp( β0 + β1x ) β0 = 1 1+exp( β0 + β1x ) n l( β ) 1 = yx exp( β0 + β1x) x, β1 = 1 1+exp( β0 + β1x ) que, gualando a zero geram o sstema de equações: n = 1 n = 1 ( y π ) = 0 (1.8) ( y π ) x = 0 (1.9) exp( β0 + β1x ) em que =1,2,3,...,n e π =. 1 + exp( β + β x ) 0 1 Como as equações (1.8) e (1.9) são não lneares em β 0 e β 1, são necessáros métodos teratvos para resolução, e estes estão mplementados em város softwares estatístcos. 1.2.2 Regressão Logístca múltpla Hosmer e Lemeshow (1989) generalzaram o modelo de regressão para o caso de uma ou mas varáves ndependentes. Seja um conjunto de p varáves ndependentes, denotado por x = ( x, x, x,..., x ), o vetor da -ésma lnha da matrz (X) das varáves explcatvas, T 0 2 3 p em que cada elemento da matrz corresponde ao j-ésmo componente ( x j ), em que =1, 2, 3,..., n e j =1, 2, 3,..., p, com x 0 = 1. Denota-se por β = ( β0, β1, β2, β3,..., β ) T p, o vetor de parâmetros desconhecdos e β j é o j-ésmo parâmetro assocado à varável explcatva x j. No modelo de regressão logístca múltpla a probabldade de sucesso é dada por: exp( β0 + β1x 1+ β2 +... + βpxp) π = π( x) = P( Y = 1 X = x) =, (1.10) 1 + exp( β + β x + β +... + β x ) T exp( x β ) π ( x) = P( Y = 1 X = x) = T 1 + exp( x β ) E a probabldade de fracasso é dada por, 0 1 1 2 p p 8

1 1 π = 1 π( x) = P( Y = 0 X = x) =, (1.11) 1 + exp( β + β x + β +... + β x ) 1 1 π ( x) = P( Y = 0 X = x) = T 1 + exp( x β ) 0 1 1 2 p p O logt para o modelo de regressão lnear múltpla é dado pela equação: p π T gx ( ) = ln = x β = β0 + β jxj 1 (1.12) π j= 1 Assm o logartmo da função verossmlhança pode ser escrto: n T T l( β ) = yx β ln(1 + exp( x β). (1.13) = 1 1.2.2.1 Estmação dos parâmetros Para estmar os parâmetros da regressão logístca múltpla por máxma verossmlhança encontra-se o valor de β que maxmza l ( β ), o que exge um processo teratvo e que faz necessáro dervar l ( β ) em relação a cada parâmetro; dessa forma, o vetor score; n T l( β ) exp( x β ) = yx j x T j β j 1+ exp( x β) = 1 n [ y π ] = = 1 x j, (1.14) ( β) = T T π T = T ( π T ), (1.15) U X y X X y T em que π = ( π1,..., π n ). A matrz de nformação de Fscher é dada por: ( β ) 2 l T I( β ) = E = X QX T β β (1.16) em que, Q= dag[ π (1 π )], =1,...,n e X a matrz de dados, e sua nversa I ( β ) 1, é a matrz de varânca e covarânca das estmatvas de máxma verossmlhança dos parâmetros. 9

A solução para as equações (1.14) é obtda por método teratvo de Newton Raphson. O conjunto de equações teratvas é dado por: 1 ( ) ( ) 1 ( π ) ( t+ 1) ( t) ( t) ( t) β = β + I β U β ; t = 1,2,3... (1.17) = β + X Q X X y () t T () t T () t em que β t e t 1 β + são vetores de parâmetros estmados nos passos t e t + 1, respectvamente. Para o valor ncal, é usualmente tomado, os coefcentes guas a zero. Estes valores ncas são dstrbuídos no prmero membro da equação (1.17), que dará o (1) resultado para a prmera teração, β. Os valores então são novamente dstrbuídos no prmero membro da equação (1.17), U ( β ) e I ( β ) são recalculados, encontrando (2) β. Esse processo é repetdo, até que a máxma mudança em cada parâmetro estmado do próxmo passo seja menor que um crtéro. Se o valor absoluto do corrente parâmetro estmado β ( t+ 1) () t β é menor ou gual a 0,01, o crtéro mas usual para convergênca é t β < 0, 0001. Se o parâmetro estmado for maor que 0,01, assume se o segunte crtéro β ( t+ 1) t β t β < 0,001, conforme (Allson 1999). 1.3 Estatístca devance O processo de ajuste de um modelo consste em propor ao mesmo um pequeno número de parâmetros, de tal forma que resuma toda nformação da amostra. Dado um conjunto de n observações, um modelo de até n parâmetros pode ser ajustado, sendo denomnado modelo saturado, sendo que este ndca toda varação ao componente sstemátco e reproduz exatamente os dados. Por outro lado, o modelo mas smples tem somente um parâmetro, β 0, sendo denomnado modelo nulo, e ndcando toda varação ao componente aleatóro. Na prátca, o modelo nulo é em geral muto smples e o modelo saturado não é nformatvo, uma vez que não resume os dados, somente os reproduz. Entretanto, o modelo saturado serve como base para medr a dscrepânca de um modelo ntermedáro com p parâmetros em que p< n. Exstem mutas estatístcas para medr esta dscrepânca, das quas a mas utlzada está baseada na função de verossmlhança, proposta por Nelder e Wedderburn (1972), 10

com o nome devance. Os autores comparam o valor da função de verossmlhança, para o modelo proposto com p + 1 parâmetros L ( β, β,... β ) ao seu valor no modelo saturado (( ( 1, 2,... n) )) ( 0 1 p ) Ly y y. Para esta comparação é convenente utlzar menos duas vezes o logartmo do quocente destes máxmos. Assm, a devance é defnda como: L( β 0, β1,... β ) p G = 2ln, (1.18) Ly ( 1, y2,... yn) equação na qual verfca-se a utlzação de um teste da razão de verossmlhanças generalzado. No modelo de regressão logístca, consderando o modelo com as proporções estmadas ˆ π, temos que a devance pode ser escrta como: n [ ˆ ˆ π π ] G = 2 y ln( ) + (1 y )ln(1 ) y ln( y ) + (1 y )ln(1 y ) = 1 n ˆ π 1 ˆ π = 2 yln + (1 y)ln = 1 y 1 y n y 1 y = 2 yln + (1 y)ln (1.19) = 1 ˆ π 1 ˆ π A devance é sempre postva e quanto menor seu valor, melhor é o ajuste do modelo. 1.4 Testes Estatístcos Geralmente não é possível encontrar dstrbuções exatas para os estmadores, assm sendo trabalha-se com resultados assntótcos consderando-se que o modelo escolhdo rá satsfazer as condções de regulardades. Cox e Hnkley (1986) demonstram que, em problemas regulares, a função escore U ( β ) l( β ) = tem valor esperado gual a zero e a estrutura de covarânca é gual à matrz β de nformação de Fscher dada por: ( β ) 2 l I( β ) = E T β β. Assm a dstrbução assntótca dos ˆβ é 11

1 β N (, ( ) ) p β I β (1.20) Os métodos de nferênca são baseados na teora de máxma verossmlhança. Conforme esta teora exstem três estatístcas para testar hpóteses relaconadas aos parâmetros (Razão de verossmlhança, de Wald e Escore), que são deduzdas de dstrbuções assntótcas de funções adequadas dos parâmetros (Demétros, 2002). As duas prmeras estatístcas estão defndas abaxo: 1. Estatístca da razão de verossmlhanças: O teste da razão de verossmlhanças é obtdo por meo da comparação entre o modelo sob, Ho: β = β0, e o rrestrto. A estatístca deste teste, sob Ho, tem aproxmadamente uma dstrbução de qu-quadrado com número de graus de lberdade gual à dferença do número de parâmetros dos modelos que estão sendo comparados. G L( ˆ β ) 2ln, (1.21) L( ˆ β ) 0 = 2. A estatístca de Wald: O teste de Wald é baseado na dstrbução assntótca de ˆβ e é uma generalzação do teste t de Student (Wald, 1943). Sob a hpótese Ho: β = β0 a estatístca do teste é em que dada por: T W = ( β β ) ( 0 I( β) β β0) (1.22) I( β ) é a matrz de nformação de Fscher avalada em β, em que sob Ho, W tem aproxmadamente uma dstrbução de qu-quadrado com graus de lberdade gual ao número parâmetros testados. 12

Capítulo 2 Exstênca de estmadores de máxma verossmlhança modelos de regressão logístca Neste capítulo é apresentado os concetos algébrcos e empírcos de separação completa, separação quase-completa e superposção (overlap) utlzada para classfcar dados logístcos. O método de estmação de máxma verossmlhança penalzada, proposto por Frth (1993), é apresentado para os parâmetros do modelo logístcos. Também são dscutdos os testes de Wald e o da razão de verossmlhanças para nferênca dos parâmetros em cada um dos métodos de estmação. 2.1 Classfcações de um conjunto de dados logístcos Segundo Albert e Anderson (1984) as confgurações dos dados logístcos podem ser classfcadas em três categoras mutuamente exclusvas e exaustvas: separação completa; separação quase completa e superposção (casos comuns, overlap). A separabldade ocorre quando as respostas sm e não podem ser perfetamente separadas por uma covarável de nteresse ou por combnações lneares não-trvas de covaráves. A segur apresenta-se formalmente esta classfcação. Para sto, serão consderados as confgurações possíves dos n valores amostras no espaço de observação destes valores defn-se cada uma das categoras ctadas. p e a partr 2.1.1 Separação Completa Ocorre separação completa quando, baseada na nformação de uma covarável ou combnação de covaráves, pode-se predzer corretamente o valor de uma varável de nteresse. Isto mplca na exstênca de um vetor p+ 1 β pelo qual todos os valores amostras podem ser perfetamente classfcados entre Y=1 ou Y=0, tal que todo j=0,1, tem-se em que X β > 0, E, 0 X β < 0, E, 1 E j, E j é o conjunto de lnhas dentfcadas da matrz X com valores de Y= j. A Fgura 2.1 (a) lustra esta categora de separação para 2. 13

2.1.2 Separação Quase Completa p+ 1 Ocorre separação quase-completa quando, baseado na nformação de uma covarável ou combnação de covaráves, pode-se predzer perfetamente os valores de pelo menos um grupo da varável de nteresse, ou seja, Y=0 ou Y=1. A separação quasecompleta mplca na exstênca de vetor β tal que, para todo E j, j=0,1 X β 0, E, 0 X β 0, E, com gualdade para, pelo menos, um, valor de. A Fgura 2.1 (b) lustra esta categora de separação para 2. 1 2.1.3 Superposção (overlap) Se os dados não estão nas duas categoras anterores, necessaramente, eles estão na categora de superposção. A Fgura 2.1(c) lustra esta categora para 2. ( ) ( ) ( ) Fgura 2.1 Confgurações de dados logístcos segundo Albert e Anderson (1984), separação completa (a), quase-completa (b) e overlap (c). Segundo Albert e Anderson (1984) a detecção da separação entre grupos pode ser abordada de duas maneras dstntas, algébrca ou empírca. Em expansão do trabalho de Albert e Anderson (1984), Santner e Duffy (1986) apresentaram um modelo de Programação Lnear que classfca os dados como () completamente separados, () quase separados () sobrepostos. Clarkson e Jenrck (1991) também apresentaram procedmentos computaconas sofstcados para detectar a separação dos dados, no entanto, na prátca há duas alternatvas smples para dentfcar a separação: Caso a covarável seja contnua, montorar a varânca dos coefcentes estmados da regressão 14

(Henze e Schemper, 2002), se observar varâncas grandes para algum parâmetro estmado, há um ndcatvo de separabldade. Outra alternatva, caso a covarável seja categórca, é fazer uma tabela de contngênca, cruzando a varável resposta com cada uma das covaráves categórcas e verfcar se exstem caselas com valores observados guas a zero (Nacle, 2004). O valor zero em apenas uma, e somente uma, casela ndca separação quase-completa, dos zeros em caselas dscordantes ndcam separação completa. 2.2 Estmadores de máxma verossmlhança A estmação dos parâmetros no caso do modelo de regressão logístca, geralmente é realzada utlzando o método de máxma verossmlhança. No entanto, Albert e Anderson (1984) provaram que quando um conjunto de dados está nas categoras de separação completa ou quase-completa, a função de verossmlhança genuína (Fgura 2.2 b) do modelo logístco é monótona e, portanto, por este método obtêm-se estmatvas nfntas. Desta forma, torna-se mportante encontrar um procedmento efcente para a estmação destes parâmetros. (a) (b) Fgura 2.2 Ilustração de uma função de verossmlhança, com estmatvas fntas (a) e nfntas (b). Henze e Schemper (2002) propuseram as seguntes soluções para tratar uma stuação em que se observa separação completa ou quase-completa: Omssão da covarável do modelo, utlzação de uma função de lgação dferente da logt para o modelo de regressão logístca, manpulação de dados, regressão logístca exata, modfcação da função escore proposta por Frth (1993), sendo a últma recomendada por estes autores. 15

O método de máxma verossmlhança penalzada proposto por Frth (1993) fornece uma solução smples, válda e fácl de ser mplementada em problemas de separabldade (Zorn, 2005). Este método não envolve manpulação arbtrára de dados nem modfcações complcadas de modelos padrão. Ele também não altera a nterpretação dos modelos e esta dsponível em pacotes estatístcos. Anda, segundo Zorn (2005), talvez a melhor vantagem seja que este procedmento é, assntotcamente equvalente ao método de máxma verossmlhança genuína no caso de amostras grandes e, superor no caso de pequenas ou médas amostras, onde a separabldade é mas provável de ocorrer. 2.2.1 O método de máxma verossmlhança penalzada O método de máxma verossmlhança penalzada fo orgnalmente desenvolvdo por Frth (1993). A fnaldade deste método é reduzr o vés de prmera ordem das estmatvas de máxma verossmlhança genuína, produzndo estmatvas fntas para os parâmetros do modelo. A modfcação proposta por Frth (1993) fo ntroduzr um pequeno vés na função escore. Segundo este autor, se o parâmetro alvo é o parâmetro canônco de uma famíla exponencal, o método smplesmente penalza a verossmlhança pela dstrbução a pror nvarante de Jeffreys (Jeffreys, 1946), que corresponde a nformação de Fscher. Para outras parametrzações do modelo da famíla exponencal ou não exponencal uma escolha para correção do vés está dsponível usando nformações observadas e esperadas, mas este método resulta numa perda de efcênca de segunda ordem (Frth, 1993). Especfcamente em modelos de regressão logístca é desejável a penalzação para produzr estmatvas fntas para os parâmetros da regressão logístca na presença de separabldade. Quando as estmatvas são obtdas por máxma verossmlhança genuína, as soluções são encontradas usando a função escore, l( β ) U j ( β ) =, j= 1, 2,..., p+ 1, β j tal que U j ( β ) = 0, (1.23) no entanto na presença de separabldade, Frth (1993) sugere a estmação baseada na função escore modfcada, dada por: 1 I( β ) U = U + traço I j= p+ * 1 j( β) j( β) ( β), 1,2,..., 1. 2 β j 16

A função escore modfcada * U j ( β ) esta relaconada com a função logarítmca da verossmlhança penalzada l( β ) = l( β) + ln I( β) e com a função de verossmlhança 2 * 1 penalzada 1 2 * L( β ) = L( β) I( β), onde a penalzação 1 2 I( β ) tem efeto assntotcamente desprezível (Zorn, 2005). Aplcando o método geral de Frth (1993) para o modelo de regressão logístca a função escore (1.14) é substtuída pela função escore modfcada * 1 ( β) = n U j y π + h π xj, j = 1,2,..., p + 1 onde os hs são os elementos da = 1 2 dagonal da matrz 1 1 2 T 1 T 2 Hˆ = W X( X WX) X W e W = dag{ π (1 π )}, =1,...,n. As estmatvas podem ser obtdas teratvamente pelo método usual de convergênca (Collett, 1994) em U β = e, * j ( ) 0 ( s + 1) s 1 ( ) ( ) * β = β + I ( β s ) U( β s ) onde, o sobrescrto se refere à s- ésma teração. O método de penalzação proposto por Frth (1993), encontra-se mplementado em alguns programas computaconas. Como exemplos podem ser ctadas as bblotecas logstf e brglm (Kosmds e Frth, 2008), todas estas mplementações estão no software R (R Development Core Team, 2009). Outra alternatva é a macro (fl) do software SAS, que atualmente fo mplementada no procedmento PROC LOGISTIC com a opção FIRTH do software SAS 9.2 (SAS, 2009). 2.2.2 Testes estatístcos sob separabldade O teste de Wald é um dos mas utlzados para fazer nferêncas sobre os parâmetros do modelo logístco. Entretanto, Hauck e Donner (1977) nvestgando o problema de utlzar o teste de Wald, consderando o modelo logístco bnomal com um únco parâmetro, tendo em vsta resultados de smulações sob Ho, observaram que o mesmo, para determnados tamanhos de amostras, apresenta um comportamento atípco. Estes resultados dzem respeto as grandes dferenças entre os valores estmados e o valor paramétrco, neste caso zero, e também a tendênca da estatístca do teste em assumr zero, mplcando em baxo poder do teste. Anda em relação a este baxo poder do teste de Wald, 17

Agrest (2002) relata que o teste da razão de verossmlhanças (TRV) é mas confável e também mas realsta para pequenas amostras. Quando os dados estverem na confguração de separabldade, segundo Henze e Schemper (2002), o teste de Wald resultará em ntervalos de confança com ampltude nfnta, que é consequênca da obtenção de estmatvas mprecsas para os parâmetros sujetos a esta condção. Portanto, sob a confguração de separabldade e quando o método de estmação é o de máxma verossmlhança genuína não se recomenda a utlzação da estatístca de Wald para fazer nferêncas. O teste da razão de verossmlhanças mesmo sendo preferível por város autores tas como Hauck e Donner (1977) e Agrest (2002), quando a confguração de dados está sob separabldade e o método de estmação é o de máxma verossmlhança genuína o comportamento do poder desta estatístca teste não fo avalado na lteratura e será nvestgado neste trabalho. Por outro lado nferêncas quando o método de estmação é o de máxma verossmlhança penalzada podem ser fetas pelo teste de Wald, pos, tal método de estmação produz estmatvas fntas e mas precsas Frth (1993). No entanto, desconhecese o comportamento do poder desta estatístca teste. No Capítulo 3 será avalado, por meo de smulação Monte Carlo, o poder deste teste, assm como compará-lo com o da estatístca TRV. 18

Capítulo 3 Avalação de testes estatístcos em regressão logístca sob a condção de separabldade Neste capítulo é apresentado os cenáros para a smulação de dados utlzados para a comparação dos testes de hpóteses de nteresse, o modelo proposto para análse dos dados smulados e resultados comparatvo do poder dos testes em questão. Tendo em vsta a revsão descrta no Capítulo 2 sobre os testes e suas possíves aplcações às stuações envolvendo separabldade, confecconou-se a Tabela 3.1 com o ntuto de resumr os testes possíves de serem comparados na smulação. Tabela 3.1 Testes estatístcos sob separabldade Testes Método de estmação MV penalzada MV genuína TRV Possível Wald Possível Não aplcável Dante das duas alternatvas possíves apresentadas na Tabela 3.1, torna-se nteressante sob o ponto de vsta estatístco comparar o comportamento do teste de Wald consderando o método MV penalzada com a do TRV consderando o método da MV genuína. Para tanto, fo proposta uma smulação Monte Carlo com o objetvo de avalar o poder destes testes. 3.1 Modelo utlzado na smulação dos dados bnáros Consderou-se o segunte modelo no processo de smulação que teve como objetvo avalar o poder do teste de Wald e o teste da razão de verossmlhanças (TRV). π exp( β + β x ) 0 1 = PY ( = 1 X = x) =, = 1, 2,..., η, em que: (3.1) 1 + exp( β0 + β1x ) Y é a varável bnára (Y =0 ou Y =1); β e β são os parâmetros do modelo logístco em questão; 0 1 x é a varável explcatva bnára (x =-1 ou x =1). 19

Os dferentes cenáros assumdos no estudo de smulação foram defndos pelas combnações mostradas na Tabela 3.2. Tabela 3.2 Valores de β 0, β 1 e η utlzados na smulação β 0 β 1 η 2-5 [-5,5], com varação 0,1 5, 15, 25, 50, 100, 200-4 [-5,5], com varação 0,1 5, 15, 25, 50, 100, 200-3 [-5,5], com varação 0,1 5, 15, 25, 50, 100, 200-2 [-5,5], com varação 0,1 5, 15, 25, 50, 100, 200-1 [-5,5], com varação 0,1 5, 15, 25, 50, 100, 200 0 [-5,5], com varação 0,1 5, 15, 25, 50, 100, 200 1 [-5,5], com varação 0,1 5, 15, 25, 50, 100, 200 2 [-5,5], com varação 0,1 5, 15, 25, 50, 100, 200 η/2 = número de observações geradas para cada grupo da varável x, ou seja, -1 e 1, sendo η o tamanho amostral para cada smulação. A codfcação adotada para x (1 e -1) teve como objetvo fazer com que os valores de π fossem determnados pelos valores dos dos parâmetros ( β 0 e β 1) smultaneamente, de forma que a condção de separabldade fosse determnada pela combnação de valores assumdos por estes dos parâmetros. Com a codfcação utlzada, observa-se as probabldades β0+ β1( 1) β0 β = 1 1 ( = 1 = 1) = e = e π PY x, (3.2) β0+ β1( 1) 0 1 e 1 + β β e β0+ β1(1) β0+ β = 1 2 ( = 1 = 1) = e = e π PY x. (3.3) β0+ β1(1) 0+ 1 e 1 + β β e Para lustrar a relevânca da codfcação usada (x = -1 ou x = 1), ao fxar β 0 = 3 e varar β 1, tem se as curvas de probabldade apresentadas na Fgura 3.1. 0 3 De acordo com a Fgura 3.1, ao optar por β 1 = 2, e tendo em vsta o valor fxo β =, observa-se que π 1 = 0,2689 e π 2 = 0,00669, (dadas respectvamente pelas probabldades de sucesso quando x = -1 e x = 1). Como π 2 é muto pequena, espera-se que para x = 1 a maora absoluta dos valores observados de Y sejam zero (fracasso), uma vez que esta varável é gerada por meo das probabldades em questão. 20

Este processo de geração de valores de Y medante π 1 e π 2 consste smplesmente em gerar N valores de uma dstrbução de Bernoull ( π 1 ) e outros N valores de uma outra dstrbução Bernoull ( π 2 ). Fgura 3.1 Probabldade de sucesso obtdas ao se varar β 1 e fxar β 0 = 3. O processo de smulação descrto anterormente fo repetdo n = 2000 vezes para cada cenáro, sto é, para cada combnação de valores de β 0, β 1 e η. Deste total de n repetções foram calculadas as proporções de conjuntos de dados que se classfcavam de acordo com as três possíves confgurações: separabldade completa, quase completa e casos comuns (overlap) (tem 2.1 do Capítulo 2). Tas proporções são apresentadas em tabelas do apêndce A com o ntuto de auxlar na avalação do poder dos testes estudados. Na Fgura 3.2 são apresentadas as curvas de probabldade que determnam todos os possíves valores para π 1 e π 2 provenentes de todas as combnações entre os valores consderados para β 0 e β 1. Fgura 3.2 Probabldade de sucesso obtdas ao se varar β 0 e β 1. 21

3.2 Análses dos dados smulados e crtéros de comparação Os dados smulados no tem anteror foram analsados por meo do modelo logístco (Hosmer e Lemeshow, 1989): exp( β0 + β1x ) Y = E( Y x) + e = π + e = + e, em que: (3.4) 1+ exp( β + β x ) π é a PY ( = 1 X = x) conforme expressão (3.1); 0 1 e é o termo de erro aleatóro, em que Ee ( ) = 0 e V( e) = π (1 π ). O modelo apresentado em (3.4) fo ajustado aos dados gerados pelo processo de smulação descrto na seção 3.1 consderando os dos métodos apresentados na Tabela 3.1: máxma verossmlhança genuína e máxma verossmlhança penalzada. Para tanto, foram utlzados, respectvamente, glm e brglm do software R (R Development Core Team, 2009). Dentre todos os cenáros defndos por combnações de valores de β 0 e β 1, um em especal, caracterzado por β 1=0, representa a condção em que os dados foram smulados sob a hpótese de nuldade, ou seja: H 0 : β 1 = 0 vs Ha : β1 0. A relevânca desta condção está fundamentada no fato da mesma permtr a avalação do poder dos dos testes propostos na Tabela 3.1. Isto é porque, sob a confguração de separabldade não se sabe ao certo o poder do teste de razão de verossmlhanças, quando se utlza o método da máxma verossmlhança genuína e nem o poder do teste de Wald quando se utlza o método de máxma verossmlhança penalzada. Em uma análse de smulação de dados, uma forma prátca e efcente de se comparar o poder entre dferentes testes é por meo de uma análse gráfca, a qual consste em plotar a proporção de rejeção de Ho em função dos valores consderados para o parâmetro testado nesta mesma hpótese. A proporção em questão é calculada pela razão entre o número de repetções da smulação na qual o valor da estatístca do teste fo maor que um valor tabelado, após a especfcação de um dado nível de sgnfcânca, e o número total de repetções usado na smulação. Uma lustração é apresentada na Fgura 3.3, na qual se observa, por exemplo, que para β 1 = -1,5 a curva de poder do teste A fornece uma proporção de rejeção de 0,33, enquanto que a curva do teste B fornece uma proporção de 0,01. Como o valor de β 1 não corresponde ao valor consderado em Ho (Ho: β 1 =0), conclu-se que o teste com maor 22

proporção de rejeção de Ho será o mas poderoso, neste caso tal teste é o A. Verfca-se no gráfco em questão, que este resultado se repete para todos os valores de β 1. Fgura 3.3 Ilustração das curvas de poder para os testes A e B. No presente estudo, curvas smlares às apresentadas na Fgura 3.3, foram confecconadas para o TRV e de Wald para dferentes stuações, as quas foram representadas pelas varações de β 0 e η, que por sua vez representam dferentes proporções de separabldade nos dados gerados. Para tanto, fo utlzado um nível de sgnfcânca de 5%, de forma que para rejetar Ho, os valores das estatístcas dos testes em questão foram 2 comparados com o valor 3,84, tendo em vsta a dstrbução aproxmada χ v= 1. Outra forma de estudar um teste de hpótese é por meo da avalação de seu comportamento assntótco sob Ho, pos ao aumentar o tamanho da amostra, espera-se que a proporção de rejeção desta hpótese apresente uma convergênca para o nível de sgnfcânca adotado. Dessa forma, uma análse gráfca deste processo permte comparar dferentes testes por meo da vsualzação da velocdade com que estes convergem para α%, assm o teste que atnge tal valor com um tamanho de amostra menor é aquele que apresenta melhor comportamento assntótco. Uma lustração é apresentada na Fgura 3.4, na qual observa-se que sob Ho ambos os testes (C e D) comparados a um nível de 5% de sgnfcânca apresentam a referda convergênca, porém esta é atngda mas rapdamente pelo C, mplcando em uma melhor performance deste teste sob o ponto de vsta assntótco. No presente trabalho gráfcos smlares ao apresentado na Fgura 3.4 foram confecconados com o ntuto de avalar o comportamento assntótco do TRV e de Wald 23

consderando dferentes valores de β 0, os quas representam as dferentes proporções de separabldade nos dados gerados. P(RHo Ho=0) 0.00 0.02 0.04 0.06 0.08 0.10 0.12 Comportamento assntótco do teste C Comportamento assntótco do teste D 2550 0 500 1000 1500 2000 2500 3000 Fgura 3.4 Comportamento assntótco dos testes C e D. η 3.3 Resultados e dscussão As Tabelas A1, A2, A3, A4, A5, A6, A7 e A8, todas apresentadas no Apêndce A, mostram as proporções de cada categora de conjunto de dados (separação quase completa, separação completa e casos comuns ou overlap) smulados consderando os cenáros defndos pelas combnações dos valores assumdos para η, β0e β 1. Observa-se que a proporção de conjuntos de dados na confguração de separabldade depende prncpalmente do tamanho da amostra ( 2N = η ), uma vez que quanto maor este valor, maor é a quantdade esperada de sucessos em stuações desfavoráves para a ocorrênca dos mesmos. Este fato descaracterza a condção de separabldade, ou seja, a ausênca de sucesso. Estas stuações desfavoráves são verfcadas para baxos valores de π 1 ou para baxos valores deπ 2, uma vez que estes desfavorecem respectvamente a ocorrênca de sucesso para os valores de x =-1 e x =1. Em resumo, se η é grande, ndependentemente dos valores de β 0, β 1, π 1 eπ 2, maor a proporção de casos comuns (overlap). Como exemplo, nota-se que para β 0 > 3, conforme Tabelas A4, A5, A6, A7 e A8, e N > 100, tem-se uma quase totaldade de overlap, ou seja, ausênca de separabldade, stuação na qual Agrest (2002) relata que a superordade do TRV sobre de Wald já é conhecda. 24

De forma geral, as Tabelas A1 a A8 menconadas anterormente têm como objetvo auxlar a nterpretação dos gráfcos representatvos das curvas de poder de cada teste. Uma vez que o objetvo é avalar o poder dos testes em conjuntos de dados na confguração de separabldade, a ndcação da proporção de dados nesta confguração encontra-se nas Tabelas em questão. Nas Fguras 3.5 e 3.6 são apresentadas as curvas de poder dos dos testes obtdas respectvamente para o menor (η=10) e maor (η=400) tamanhos de amostra. Nota-se nestas Fguras que para η=400 (Fgura 3.6) as curvas para ambos os testes são mas fechadas que aquelas observadas para η=10 (Fgura 3.5), evdencando que aumentado o tamanho da amostra os testes ganham poder. Observa-se em todas fguras que as curvas mas abertas, em que β 0 são menores, são aquelas para os cenáros com maores proporções de separabldade, mostradas nas Tabelas do Apêndce A. Tendo em vsta que o prncpal objetvo do presente trabalho é avalar os testes sob condção de separabldade, há ndícos que para η=10 (Fgura 3.5) o TRV apresenta curvas mas fechadas em relação ao teste de Wald. Isto é um ndcatvo que o mesmo é mas poderoso. Proporção de rejeção de Ho 0.0 0.2 0.4 0.6 0.8 1.0 η=10 β 0 = 5 β 0 = 4 β 0 = 3 β 0 = 2 β 0 = 1 β 0 = 0 β 0 = 1 β 0 = 2 Proporção de rejeção de Ho 0.0 0.2 0.4 0.6 0.8 1.0 η=10 β 0 = 5 β 0 = 4 β 0 = 3 β 0 = 2 β 0 = 1 β 0 = 0 β 0 = 1 β 0 = 2-10 -5 0 5 10-10 -5 0 5 10 β 1 β 1 (a) Fgura 3.5 Função poder empírca dos testes da razão de verossmlhanças (TRV) (a) e de Wald (b) para amostras de tamanho η=10. (b) 25

Proporção de rejeção de Ho 0.0 0.2 0.4 0.6 0.8 1.0 η=400 β 0 = 5 β 0 = 4 β 0 = 3 β 0 = 2 β 0 = 1 β 0 = 0 β 0 = 1 β 0 = 2 Proporção de rejeção de Ho 0.0 0.2 0.4 0.6 0.8 1.0 η=400 β 0 = 5 β 0 = 4 β 0 = 3 β 0 = 2 β 0 = 1 β 0 = 0 β 0 = 1 β 0 = 2-10 -5 0 5 10-10 -5 0 5 10 β 1 β 1 (a) (b) Fgura 3.6 Função poder empírca dos testes da razão de verossmlhanças (TRV) (a) e de Wald (b) para amostras de tamanho η=400. Uma vez que baxos valores de β 0 também propcam a condção de separabldade (Fgura 3.2), as Fguras 3.7 e 3.8 mostram as curvas de poder de ambos os testes para o menor valor de β0 consderado ( β 0 = 5 ), respectvamente para o menor e maor tamanho amostral. Nota-se nas Fguras 3.7 e 3.8 as quas são partes das Fguras 3.5 e 3.6, que realmente o TRV é mas poderoso que o teste de Wald sob separabldade, pos em ambos os gráfcos esta condção está presente, porém com maor ncdênca para η=10 (Fgura 3.7) conforme Tabela A1 mostrada no apêndce. As Fguras A13 a A16 apresentadas no apêndce mostram o poder dos testes para cenáros ntermedáros. O tamanho empírco, nível descrtvo, dos testes em questão é mostrado nas Fguras 3.9 (a) e (b), e pode ser verfcado, que os dos testes convergem para o nível descrtvo quando η cresce. Nota-se que nas Fguras 3.9 (a) e (b) a proporção de rejeção de Ho utlzando-se a estatístca TRV e da estatístca de Wald convergem para o nível descrtvo estabelecdo em todos os cenáros, porém, a estatístca de Wald converge mas lentamente. Esta convergênca pode ser observada mas faclmente para β 0 = -5 que é o cenáro no qual apresenta maor proporção de separabldade como pode ser observado nas Tabelas A1 a A8. 26