1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL

Documentos relacionados
diferença não aleatória na distribuição dos fatores de risco entre os dois grupos

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

Modelos Lineares Generalizados

Gabarito Lista 2 LES0773 Estatística III. Os resultados dessa regressão são apresentados na seguinte tabela:

Trabalho de Modelos Lineares Generalizados

EXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO

Métodos Estatísticos Avançados em Epidemiologia

Modelo Linear Generalizado Distribuição de Poisson

Análise de dados em Geociências

Disciplina de Modelos Lineares Professora Ariane Ferreira

O USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG

AMOSTRAGEM COMPLEXA. Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R

Regression and Clinical prediction models

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Regression and Clinical prediction models

Aula prática 4 Parte I - Correlação e regressão linear simples

Precificação de apartamentos para o bairro Água Verde em Curitiba

Análise Estatística em Epidemiologia Utilizando o Ambiente R - I

Introdução Regressão linear Regressão de dados independentes Regressão não linear. Regressão. Susana Barbosa

Análise Estatística em Epidemiologia Utilizando o Ambiente R - I

AULA 17 - Variáveis binárias

Ensaio Clínico de Contraceptivos José Luiz Padilha da Silva 24 de outubro de 2018

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

Teste F-parcial 1 / 16

Constipação José Luiz Padilha da Silva 21 de outubro de 2018

Teste F-parcial 1 / 16

INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 EXAME: DATA 24 / 02 / NOME DO ALUNO:

ANEXO 2 EXERCÍCIOS MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

BIE5782. Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES

1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A

Estatística Aplicada II. } Regressão Linear

i j i i Y X X X i j i i i

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro RESUMO -

Modelos Binomial e Poisson

Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito

ME613 - Análise de Regressão

Regressão linear múltipla

BIOESTATÍSTICA. Análise de regressão

b) Teste a hipótese de efeito significante do tamanho da população sobre a venda do produto, na presença de renda per capita

1 AULA 3 - MODELO DE REGRESSÃO LINEAR

RELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

Associação entre variáveis categóricas e IC95%

Introdução aos Modelos Lineares em Ecologia

Estatística II Licenciatura em Gestão. Parte I

ANOVA com modelos encaixados

i j i i Y X X X i j 1 i 2 i i

CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018

Monitoria Sessão 6. Verônica Santana FEA-USP 10/05/2017

CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 23 de outubro de 2018

DETERMINAÇÃO DA DL50 PARA O CONTROLE BIOLÓGICO DA C.VESTIGIALIS EM PLANTAS DO ÁLAMO. EMBRAPA Pesquisadora: EDILENE MACHADO

Modelos log-lineares

Analisando com desfecho binário

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

Modelos Lineares Generalizados - Regressão Logística

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste Qui-Quadrado

Alternativas à Regressão Logística para análise de dados

ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 9. Funções de suavização

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste de Qui-quadrado

Epidemiologia de Doenças Transmissíveis Aulas Práticas

Testes de raiz unitária

Nome: Turma: Processo

Distribuição e riqueza de espécies arbóreas no Estado de Santa Catarina: modelos atuais e futuros

variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência

Exercícios de programação

FACULDADE DE ECONOMIA DO PORTO. Licenciatura em Economia E C O N O M E T R I A II

Segundo Trabalho de Econometria 2009

Regressão linear múltipla. Regressão linear múltipla

Regressão Logística: Um Estudo sobre o Uso de Tabaco entre Alunos da Universidade Federal do Paraná Curitiba

Análise de Carteiras usando o R - Parte 6

Teste de Cochran-Mantel-Haenszel

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

MRLM COM COVARIÁVEIS CATEGÓRICAS. criar uma variável dummy para representar uma categoria da variável. variável dummy: assume só dois valores: 0 ou 1

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Modelos log-lineares em tabelas tridimensionais

Econometria Aplicada com uso do R

Licenciaturas em Economia e em Finanças Econometria ER 26/06/2015 Duração 2 horas

Modelos de Regressão Múltipla - Parte VII

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

Noções sobre Regressão

Técnicas de classificação Análise discriminante & Regressão logística. Abraham Laredo Sicsú

Bioestatística. Paulo Nogueira quarta-feira, 11 de Janeiro de 2012

FACULDADE DE ECONOMIA DO PORTO. Curso de Mestrado em Economia MÉTODOS ECONOMÉTRICOS (ECON703)

Dados pareados. ## Dados ## Tabela 9.5, p. 236 em Agresti (1996), Introduction to Categorical ## Data Analysis

Modelos de Escolha Discreta. a)pretende-se conhecer os coeficientes da função de utilidade, assim como a sua significância estatística.

UNIVERSIDADE DE SÃO PAULO INSTITUTO DE MATEMÁTICA E ESTATÍSTICA BACHARELADO EM MATEMÁTICA APLICADA E COMPUTACIONAL LEONARDO KIYOSHI KINOSHITA ASSAHIDE

PROGRAMA DE DISCIPLINA MÉTODOS ESTATÍSTICOS EM EPIDEMIOLOGIA

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

3.33pt. AIC Introdução

Testes de Hipóteses. : Existe efeito

Uso de modelos lineares generalizados para estimar germinação carpogênica de escleródios de S. sclerotioroum

Análise de Regressão Logística

Inferência Estatística: Conceitos Básicos II

MODELOS MATEMÁTICOS E APLICAÇÕES 2015/2016 EXERCÍCIOS DE MODELOS LINEARES MISTOS PARTE I

Regressão para Dados de Contagem - Segurança e privatização ferroviária na Grã-Bretanha

AULA 3 CURSO DE INTRODUÇÃO AO STATA

Transcrição:

1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL 1.1 Tabela de contingência A base de dados que vamos utilizar são os dados do estudo caso-controle em que os casos foram mulheres com infertilidade e os controles, mulheres não doentes. Os fatores de risco a serem analisados são a paridade, os abortos espontâneos e induzidos e a escolaridade. Fizemos a análise exploratória dessa base de dados (infert) na aula 2. Agora, vamos fazer a análise dessa base de dados pensando em medidas de associação. Nessa análise, é necessário criar tabelas de contingência, calcular as medidas de associação e o teste de X 2. Importar base de dados >data(infert) Visualizar base de dados > infert[1:10,1:6] education age parity induced case spontaneous 1 0-5yrs 26 6 1 1 2 2 0-5yrs 42 1 1 1 0 3 0-5yrs 39 6 2 1 0 4 0-5yrs 34 4 2 1 0 5 6-11yrs 35 3 1 1 1 6 6-11yrs 36 4 2 1 1 7 6-11yrs 23 1 0 1 0 8 6-11yrs 32 2 0 1 0 9 6-11yrs 21 1 0 1 1 10 6-11yrs 28 2 0 1 0

A primeira tabela de contingência deverá conter os casos (=mulheres com infertilidade) e controles (=mulheres sem infertilidade) em função da exposição (=paridade igual a 1) e não-exposição (=paridade de 2 a 6 filhos). Aplica-se a regra de indexação por meio de operadores lógicos (p. ex., ==, ou seja, semelhante à) para obter essas informações da base de dados infert. Essas informações são fundamentais para montar a tabela de contingência (Tabela 1). Calcular casos e controles expostos >table(infert$case[infert$parity == 1]) Calcular casos e controles não-expostos >table(infert$case[infert$parity > 1]) Criar vetor de caselas >casela <- c(33, 66, 50, 99) Construir a tabela de contingência >tab1 <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab1) <- c( Paridade = 1, Paridade = 2-6 ) Nomear colunas >colnames(tab1) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Tabela 1: Casos e controles expostos ou não segundo paridade. Paridade (# de filhos) Caso = 1 (doentes) Caso = 0 (não-doentes) 1 33 66 2-6 50 99 Para estimar a razão de chances de se tornar doente segundo paridade, deve ser calculada a odds ratio por meio da divisão dos produtos cruzados na tabela de contingência. Realiza-se o teste de X 2 para verificar a significância estatística dessa associação. 2

Estimar a odds ratio > OR1<-(33*99) / (50*66) [1] 0.99 Calcular o teste de X 2 Pearson s Chi-squared test with Yates continuity correction data: tab1 X-squared = 0.0102, df = 1, p-value = 0.9197 A odds ratio foi estimada em 0.99 com teste de X 2 calculado em 0.01 (p = 0.92). Portanto, os casos não estão associados à paridade. Para montar a segunda tabela de contingência (Tabela 2), faz-se necessário repetir o mesmo procedimento realizado anteriormente considerando as categorias da variável educação (=education). Calcular casos e controles na categoria de educação 0-5yrs >table(infert$case[infert$education == "0-5yrs"]) Calcular casos e controles na categoria de educação 6-11yrs >table(infert$case[infert$education == "6-11yrs"]) Calcular casos e controles na categoria de educação 12+ yrs >table(infert$case[infert$education == "12+ yrs"]) Criar vetor de caselas >casela <- c(4, 8, 40, 80, 39, 77) Construir a tabela de contingência >tab2 <- matrix(casela, 3, 2, byrow = T) Nomear linhas >rownames(tab2) <- c( Educação = 0-5, Educação = 6-11, Educação = 12+ ) Nomear colunas >colnames(tab2) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) 3

Tabela 2: Casos e controles expostos ou não segundo educação. Educação (anos) Caso = 1 (doentes) Caso = 0 (não-doentes) 0-5 4 8 6-11 40 80 12+ 39 77 Para estimar a odds ratio e calcular o teste de X 2, vamos dividir a tabela de contingência de interesse (Tabela 2) em duas considerando a categoria de educação 12 + como baseline. Criar vetor de caselas >casela <- c(4, 8, 39, 77) Construir a tabela de contingência 2a >tab2a <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab2a) <- c( Educação = 0-5, Educação = 12+ ) Nomear colunas >colnames(tab2a) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Criar vetor de caselas >casela <- c(40, 80, 39, 77) Construir a tabela de contingência 2b >tab2b <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab2b) <- c( Educação = 6-11, Educação = 12+ ) Nomear colunas >colnames(tab2b) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) 4

Podemos, agora, estimar a odds ratio e calcular o teste de X 2 para as tabelas de contingência tab2a e tab2b. Ver a tabela tab2a > tab2a Caso = 1 (doentes) Caso = 0 (não-doentes) Educação = 0-5 4 8 Educação = 12+ 39 77 Estimar a odds ratio > OR2a <- (4 * 77) / (8 * 39) [1]0.99 Calcular o teste de X 2 >chisq.test(tab2a) Pearson s Chi-squared test with Yates continuity correction data: tab2a X-squared = 0.0906, df = 1, p-value = 0.7635 Warning message: In chisq.test(tab2a) : Chi-squared approximation may be incorrect Ver a tabela tab2b > tab2b Caso = 1 (doentes) Caso = 0 (não-doentes) Educação = 6-11 40 80 Educação = 12+ 39 77 Estimar a odds ratio > OR2b <- (40 * 77) / (80 * 39) [1]0.99 5

Calcular o teste de X 2 >chisq.test(tab2b) Pearson s Chi-squared test with Yates continuity correction data: tab2b X-squared = 0.0083, df = 1, p-value = 0.9273 As estimativas de odds ratio foram idênticas (=0.99) e os valores dos testes dex 2 foram, respectivamente, 0.09(p = 0.76) e 0.01(p = 0.93) para as duas tabelas (tab2a e tab2b). Assim, os casos de infertilidade não estão associados à educação. Finalmente, vamos montar a última tabela de contingência (Tabela 3) na qual associaremos os casos com os abortos espontâneos e induzidos. Nesse caso, precisamos conhecer o outro operador lógico de indexação & que representa a combinação de dois eventos. Para saber, por exemplo, a frequência de casos e controles segundo a ocorrência de aborto espontâneo e a não-ocorrência de aborto induzido, aplicamos o seguinte comando: > table(infert$case[infert$spontaneous > 0 & infert$induced == 0]) 0 1 36 40 Podemos aplicar essa mesma estrutura de comando para obter as seguintes informações esssenciais para a montagem da tabela de contingência (Tabela 3). Calcular casos e controles segundo aborto induzido >table(infert$case[infert$spontaneous == 0 & infert$induced > 0]) Calcular casos e controles segundo ambos abortos >table(infert$case[infert$spontaneous > 0 & infert$induced > 0]) Calcular casos e controles em nenhum dos abortos >table(infert$case[infert$spontaneous == 0 & infert$induced == 0]) Criar vetor de caselas 6

>casela <- c(40, 36, 21, 53, 15, 16, 7, 60) Construir a tabela de contingência >tab3 <- matrix(casela, 4, 2, byrow = T) Nomear linhas >rownames(tab3) <- c( Espontâneo, Induzido, Ambos, Nenhum ) Nomear colunas >colnames(tab3) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Tabela 3: Casos e controles expostos ou não segundo abortos espontâneo e induzido. Aborto (tipo de aborto) Caso = 1 (doentes) Caso = 0 (não-doentes) Espontâneo 40 36 Induzido 21 53 Ambos 15 16 Nenhum 7 60 Para estimar a odds ratio e calcular o teste de X 2, vamos dividir a tabela de contingência de interesse (Tabela 3) em três considerando a categoria de aborto Nenhum como baseline. Criar vetor de caselas >casela <- c(40, 36, 7, 60) Construir a tabela de contingência 3a >tab3a <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab3a) <- c( Espontâneo, Nenhum ) Nomear colunas >colnames(tab3a) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Criar vetor de caselas >casela <- c(21, 53, 7, 60) 7

Construir a tabela de contingência 3b >tab3b <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab3b) <- c( Induzido, Nenhum ) Nomear colunas >colnames(tab3b) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Criar vetor de caselas >casela <- c(15, 16, 7, 60) Construir a tabela de contingência 3c >tab3c <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab3c) <- c( Ambos, Nenhum ) Nomear colunas >colnames(tab3c) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Podemos, agora, estimar a odds ratio e calcular o teste de X 2 para as tabelas de contingência tab3a, tab3b e tab3c. Ver a tabela tab3a > tab3a Caso = 1 (doentes) Caso = 0 (não-doentes) Espontâneo 40 36 Nenhum 7 60 Estimar a odds ratio > OR3a <- (40 * 60) / (7 * 36) [1]9.52 Calcular o teste de X 2 8

>chisq.test(tab3a) Pearson s Chi-squared test with Yates continuity correction data: tab3a X-squared = 26.8375, df = 1, p-value = 2.213e-07 Ver a tabela tab3b > tab3b Caso = 1 (doentes) Caso = 0 (não-doentes) Induzido 21 53 Nenhum 7 60 Estimar a odds ratio > OR3b <- (21 * 60) / (7 * 53) [1]3.40 Calcular o teste de X 2 >chisq.test(tab3b) Pearson s Chi-squared test with Yates continuity correction data: tab3b X-squared = 6.0216, df = 1, p-value = 0.01413 Ver a tabela tab3c > tab3c Caso = 1 (doentes) Caso = 0 (não-doentes) Ambos 15 16 Nenhum 7 60 Estimar a odds ratio > OR3c <- (15 * 60) / (7 * 16) 9

[1]8.04 Calcular o teste de X 2 >chisq.test(tab3c) Pearson s Chi-squared test with Yates continuity correction data: tab3c X-squared = 15.4114, df = 1, p-value = 8.646e-05 As estimativas de odds ratio foram 9.53, 3.40 e 8.04 e valores dos testes dex 2 foram 26.84 (p < 0.001), 6.02 (p = 0.01) e 15.41(p < 0.001) para as, respectivamente, tabelas tab3a, tab3b e tab3c. Assim, os casos de infertilidade estão associados aos abortos. Entretanto, faz-se necessário considerar os intervalos de confiança dessas estimativas. Além disso, seria interessante considerarmos os efeitos dos abortos (nos casos de infertilidade) ajustados por paridade e educação. Essas pendências podem ser resolvidas na próxima etapa que é a de modelos de regressão logística binomial. 1.2 Modelo de regressão logística Este modelo pertence à classe de modelos conhecidos por GLM (Generalized Linear Models) (McCullagh e Nelder 1, 1989). No modelo de regressão logística binomial, a variável dependente y é um evento binário (p. ex., caso = 1 e caso = 0) em que a probabilidade de y = 1 é dada por meio da seguinte equação: P rob(y = 1) = ea+xb 1 + e a+xb onde x é a variável independente e a, b são os coeficientes de regressão β 0, β 1. 10

Uma importante derivação é que essa equação tem equivalência com o cálculo da odds ratio: = 1 1 + e (a+xb) em que a exponencial do coeficiente de regressão b(= β 1 ) é idêntica a estimativa da odds ratio realizada por meio da divisão dos produtos cruzados na tabela de contingência. OR(x) = exp(β) O primeiro passo do processo de modelagem é fazer a análise univariada. Vamos fazer essa análise, primeiramente, para a variável paridade. Para tanto, vamos conhecer a função glm() que nos permite elaborar esses modelos univariados. Por exemplo, vamos criar o modelo glm1 (glm1 <- glm(... )) em que os casos estão em função de paridade (case parity) da base de dados infert (data = infert) no modelo logístico binomial (family=binomial): >glm1<-glm(case parity, data = infert, family=binomial) > summary(glm1) Call: glm(formula = case parity, family = binomial, data = infert) Deviance Residuals: Min 1Q Median 3Q Max -0.9247-0.9022-0.8966 1.4735 1.4870 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -0.71868 0.26252-2.738 0.00619 ** parity 0.01506 0.10731 0.140 0.88841 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 11

(Dispersion parameter for binomial family taken to be 1) Null deviance: 316.17 on 247 degrees of freedom Residual deviance: 316.15 on 246 degrees of freedom AIC: 320.15 Number of Fisher Scoring iterations: 4 Há dois problemas com o modelo glm1. Primeiro, a variável independente não é dicotômica na base de dados original. Segundo, o output da função summary() não é epidemiológico. Para resolver esses dois problemas, vamos, primeiro, criar uma nova base de dados (infert2 ) a qual conterá somente variáveis dicotômicas e, segundo, instalar e carregar o pacote epicalc para utilizar a função logistic.display() (=output epidemiológico). Criar variável dummy de paridade > par1 <- as.numeric(infert$parity == 1) > table(par1) 0 1 149 99 Criar nova base de dados infert2 > infert2 <- data.frame(infert$case, par1) > colnames(infert2) <- c( Casos, Par1 ) Instalar e carregar pacote epicalc > install.packages("epicalc") >require(epicalc) 12

Criar novo glm1 > glm1 <- glm(casos ) Par1, data = infert2, family = binomial > logistic.display(glm1) Logistic regression predicting case OR(95%CI) P(Wald s test) P(LR-test) Par1: 1 vs 0 0.99 (0.5776,1.6967) 0.971 0.971 Log-likelihood = -158.0849 No. of observations = 248 AIC value = 320.1698 Perceba que a estimativa de odds ratio de 0.99 é idêntica àquela obtida com os dados da Tabela 1. Além disso, obtemos o intervalo de confiança de 95% (0.58, 1.70) dessa estimativa e o valor de p (=0.971) do coeficiente β 1 no teste de Wald. Assim como foi visto anteriormente, os casos não estão associados à paridade. Vamos repetir esses procedimentos para os modelos glm2 e glm3 em que os casos estão em função dos abortos e das categorias de educação, respectivamente. Criar variáveis dummy dos abortos > ab1<-as.numeric(infert$spontaneous > 0 & infert$induced == 0) > ab2<-as.numeric(infert$spontaneous == 0 & infert$induced > 0) > ab3<-as.numeric(infert$spontaneous > 0 & infert$induced > 0) Adicionar essas variáveis à nova base de dados infert2 > infert2 <- data.frame(infert$case, par1, ab1, ab2, ab3) > colnames(infert2) <- c( Casos, Par1, ab1, ab2, ab3 ) Criar glm2 > glm2 <- glm(casos ) ab1 + ab2 + ab3, data = infert2, family = binomial 13

> logistic.display(glm2) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ab1: 1 vs 0 3.33 (1.89,5.88) 9.52 (3.86,23.5) <0.001 ab2: 1 vs 0 0.72 (0.4,1.3) 3.4 (1.34,8.62) 0.01 ab3: 1 vs 0 2.05 (0.96,4.39) 8.04 (2.8,23.03) <0.001 Log-likelihood = -140.618 No. of observations = 248 AIC value = 289.2361 As estimativas ajustadas das odds ratio equivalem àquelas obtidas com os dados da Tabela 3. Isso porque esse modelo (glm2), na verdade, não é univariado porque possui 3 variáveis independentes. Como já foi visto, os casos estão associados aos abortos espontâneo (9.52; IC95% = 3.86, 23.5), induzido (3.4; IC95% = 1.34, 8.62) e ambos (8.04; IC95% = 2.8, 23.03). Finalmente, vamos fazer o mesmo procedimento para o modelo glm3. Criar variáveis dummy das categorias de educação > ed1<-as.numeric(infert$education == "0-5yrs") > ed2<-as.numeric(infert$education == "6-11yrs") Adicionar essas variáveis à nova base de dados infert2 > infert2 <- data.frame(infert$case, par1, ab1, ab2, ab3, ed1, ed2) > colnames(infert2) <- c( Casos, Par1, ab1, ab2, ab3, ed1, ed2 ) 14

Criar glm3 > glm3 <- glm(casos ) ed1 + ed2, data = infert2, family = binomial > logistic.display(glm3) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ed1: 1 vs 0 0.99 (0.29,3.4) 0.99 (0.28,3.48) 0.984 ed2: 1 vs 0 0.99 (0.58,1.68) 0.99 (0.57,1.7) 0.963 Log-likelihood = -158.0844 No. of observations = 248 AIC value = 322.1688 As estimativas de odds ratio são iguais àquelas obtidas com os dados da Tabela 2. Como foi visto anteriormente, os casos não estão associados à educação. Vamos comparar todos os modelos para cada variável independente (Tabela 4). Os abortos 1, 2 e 3 são variáveis independentes estatisticamente significantes, enquanto que os casos de infertilidade não estão associados à paridade, educação 1 e 2. Tabela 4: Resultados dos modelos para cada variável em infert2. Modelos Fórmula OR (IC.95) P (teste de Wald) GLM1 case paridade 0.99 (0.58,1.70) 0.971 GLM2 case aborto 1 9.52 (3.86,23.5) <0.001 aborto 2 3.4 (1.34,8.62) 0.01 aborto 3 8.04 (2.8,23.03) <0.001 GLM3 case educação 1 0.99 (0.28,3.48) 0.984 educação 2 0.99 (0.57,1.7) 0.963 15

Embora não estejam associadas com os casos de infertilidade, as variáveis independentes educação 1 e 2 e paridade podem ser variáveis de ajuste para as estimativas de odds ratio dos abortos. Portanto, vamos criar os modelos múltiplos glm4 e glm5. Criar glm4 > glm4 <- glm(casos ab1 + ab2 + ab3 + ed1 + ed2, data = infert2, family = binomial) > logistic.display(glm4) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ab1: 1 vs 0 3.33 (1.89,5.88) 10.38 (4.12,26.13) < 0.001 ab2: 1 vs 0 0.72 (0.4,1.3) 3.71 (1.42,9.67) 0.007 ab3: 1 vs 0 2.05 (0.96,4.39) 8.41 (2.91,24.29) < 0.001 ed1: 1 vs 0 0.99 (0.29,3.4) 1.28 (0.34,4.87) 0.713 ed2: 1 vs 0 0.99 (0.58,1.68) 1.34 (0.74,2.44) 0.339 Criar glm5 > glm5 <- glm(casos ab1 + ab2 + ab3 + ed1 + ed2 + par1, data = infert2, family = binomial) > logistic.display(glm5) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ab1: 1 vs 0 3.33 (1.89,5.88) 12.25 (4.73,31.74) < 0.001 ab2: 1 vs 0 0.72 (0.4,1.3) 4.6 (1.7,12.43) 0.003 ab3: 1 vs 0 2.05 (0.96,4.39) 12.55 (3.9,40.45) < 0.001 ed1: 1 vs 0 0.99 (0.29,3.4) 1.48 (0.39,5.65) 0.564 ed2: 1 vs 0 0.99 (0.58,1.68) 1.46 (0.79,2.68) 0.225 par: 1 vs 0 0.99 (0.58,1.7) 1.77 (0.92,3.42) 0.089 16

As estimativas de odds ratio dos abortos 1 (espontâneo), 2 (induzido) e 3 (ambos) sofreram ajustes das variáveis inclusas nos modelos múltiplos glm4 e glm5. O maior ajuste foi observado no modelo glm5 em que as estimativas foram, respectivamente, ajustadas em 29% (aborto 1), 35% (aborto 2) e 56% (aborto 3) para cima em comparação com o modelo glm2 (Tabela 5). Isso mostra que, possivelmente, os efeitos dos abortos são ainda maiores para a ocorrência de infertilidade, ajustando por paridade e educação das mulheres. Tabela 5: Resultados dos modelos múltiplos glm4 e glm5. Modelos Variáveis OR adj. (IC95) P (Wald) GLM2 aborto 1 9.52 (3.86,23.5) <0.001 aborto 2 3.4 (1.34,8.62) 0.006 aborto 3 8.04 (2.8,23.03) <0.001 GLM5 aborto 1 12.25 (4.73,31.74) < 0.001 aborto 2 4.6 (1.7,12.43) 0.003 aborto 3 12.55 (3.9,40.45) < 0.001 educação 1 1.48 (0.39,5.65) 0.564 educação 2 1.46 (0.79,2.68) 0.225 paridade 1.77 (0.92,3.42) 0.089 GLM4 aborto 1 10.38 (4.12,26.13) < 0.001 aborto 2 3.71 (1.42,9.67) 0.007 aborto 3 8.41 (2.91,24.29) < 0.001 educação 1 1.28 (0.34,4.87) 0.713 educação 2 1.34 (0.74,2.44) 0.339 17

1.3 Exercício da Aula 5 1 Utilize a base de dados birthwt em que foi feita a análise exploratória com gráficos na aula 2 para aplicar a regressão logística binomial. A variável dependente é a low e as variáveis independentes são: race, smoke, ptl, ht, ui e ftv. Construa as tabelas de contingência, estime as odds ratio e calcule os testes de X 2. As variáveis race, ptl e ftv devem ser transformadas em dicotômicas, sendo baseline as seguintes categorias: race = 1, ptl = 0 e ftv > 0. Agora, aplique a função glm() para fazer os modelos para cada variável (ou seja, glm1 <- glm(low... ),..., glm6 <- glm(low... ). Faça apenas um modelo múltiplo (glm7) com todas as variáveis. Interprete os resultados. 18

Referências [1] McCullagh P, Nelder JA. Generalized Linear Models. London: Chapman and Hall 1989. 19