1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL

Transcrição

1 1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL 1.1 Tabela de contingência A base de dados que vamos utilizar são os dados do estudo caso-controle em que os casos foram mulheres com infertilidade e os controles, mulheres não doentes. Os fatores de risco a serem analisados são a paridade, os abortos espontâneos e induzidos e a escolaridade. Fizemos a análise exploratória dessa base de dados (infert) na aula 2. Agora, vamos fazer a análise dessa base de dados pensando em medidas de associação. Nessa análise, é necessário criar tabelas de contingência, calcular as medidas de associação e o teste de X 2. Importar base de dados >data(infert) Visualizar base de dados > infert[1:10,1:6] education age parity induced case spontaneous 1 0-5yrs yrs yrs yrs yrs yrs yrs yrs yrs yrs

2 A primeira tabela de contingência deverá conter os casos (=mulheres com infertilidade) e controles (=mulheres sem infertilidade) em função da exposição (=paridade igual a 1) e não-exposição (=paridade de 2 a 6 filhos). Aplica-se a regra de indexação por meio de operadores lógicos (p. ex., ==, ou seja, semelhante à) para obter essas informações da base de dados infert. Essas informações são fundamentais para montar a tabela de contingência (Tabela 1). Calcular casos e controles expostos >table(infert$case[infert$parity == 1]) Calcular casos e controles não-expostos >table(infert$case[infert$parity > 1]) Criar vetor de caselas >casela <- c(33, 66, 50, 99) Construir a tabela de contingência >tab1 <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab1) <- c( Paridade = 1, Paridade = 2-6 ) Nomear colunas >colnames(tab1) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Tabela 1: Casos e controles expostos ou não segundo paridade. Paridade (# de filhos) Caso = 1 (doentes) Caso = 0 (não-doentes) Para estimar a razão de chances de se tornar doente segundo paridade, deve ser calculada a odds ratio por meio da divisão dos produtos cruzados na tabela de contingência. Realiza-se o teste de X 2 para verificar a significância estatística dessa associação. 2

3 Estimar a odds ratio > OR1<-(33*99) / (50*66) [1] 0.99 Calcular o teste de X 2 Pearson s Chi-squared test with Yates continuity correction data: tab1 X-squared = , df = 1, p-value = A odds ratio foi estimada em 0.99 com teste de X 2 calculado em 0.01 (p = 0.92). Portanto, os casos não estão associados à paridade. Para montar a segunda tabela de contingência (Tabela 2), faz-se necessário repetir o mesmo procedimento realizado anteriormente considerando as categorias da variável educação (=education). Calcular casos e controles na categoria de educação 0-5yrs >table(infert$case[infert$education == "0-5yrs"]) Calcular casos e controles na categoria de educação 6-11yrs >table(infert$case[infert$education == "6-11yrs"]) Calcular casos e controles na categoria de educação 12+ yrs >table(infert$case[infert$education == "12+ yrs"]) Criar vetor de caselas >casela <- c(4, 8, 40, 80, 39, 77) Construir a tabela de contingência >tab2 <- matrix(casela, 3, 2, byrow = T) Nomear linhas >rownames(tab2) <- c( Educação = 0-5, Educação = 6-11, Educação = 12+ ) Nomear colunas >colnames(tab2) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) 3

4 Tabela 2: Casos e controles expostos ou não segundo educação. Educação (anos) Caso = 1 (doentes) Caso = 0 (não-doentes) Para estimar a odds ratio e calcular o teste de X 2, vamos dividir a tabela de contingência de interesse (Tabela 2) em duas considerando a categoria de educação 12 + como baseline. Criar vetor de caselas >casela <- c(4, 8, 39, 77) Construir a tabela de contingência 2a >tab2a <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab2a) <- c( Educação = 0-5, Educação = 12+ ) Nomear colunas >colnames(tab2a) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Criar vetor de caselas >casela <- c(40, 80, 39, 77) Construir a tabela de contingência 2b >tab2b <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab2b) <- c( Educação = 6-11, Educação = 12+ ) Nomear colunas >colnames(tab2b) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) 4

5 Podemos, agora, estimar a odds ratio e calcular o teste de X 2 para as tabelas de contingência tab2a e tab2b. Ver a tabela tab2a > tab2a Caso = 1 (doentes) Caso = 0 (não-doentes) Educação = Educação = Estimar a odds ratio > OR2a <- (4 * 77) / (8 * 39) [1]0.99 Calcular o teste de X 2 >chisq.test(tab2a) Pearson s Chi-squared test with Yates continuity correction data: tab2a X-squared = , df = 1, p-value = Warning message: In chisq.test(tab2a) : Chi-squared approximation may be incorrect Ver a tabela tab2b > tab2b Caso = 1 (doentes) Caso = 0 (não-doentes) Educação = Educação = Estimar a odds ratio > OR2b <- (40 * 77) / (80 * 39) [1]0.99 5

6 Calcular o teste de X 2 >chisq.test(tab2b) Pearson s Chi-squared test with Yates continuity correction data: tab2b X-squared = , df = 1, p-value = As estimativas de odds ratio foram idênticas (=0.99) e os valores dos testes dex 2 foram, respectivamente, 0.09(p = 0.76) e 0.01(p = 0.93) para as duas tabelas (tab2a e tab2b). Assim, os casos de infertilidade não estão associados à educação. Finalmente, vamos montar a última tabela de contingência (Tabela 3) na qual associaremos os casos com os abortos espontâneos e induzidos. Nesse caso, precisamos conhecer o outro operador lógico de indexação & que representa a combinação de dois eventos. Para saber, por exemplo, a frequência de casos e controles segundo a ocorrência de aborto espontâneo e a não-ocorrência de aborto induzido, aplicamos o seguinte comando: > table(infert$case[infert$spontaneous > 0 & infert$induced == 0]) Podemos aplicar essa mesma estrutura de comando para obter as seguintes informações esssenciais para a montagem da tabela de contingência (Tabela 3). Calcular casos e controles segundo aborto induzido >table(infert$case[infert$spontaneous == 0 & infert$induced > 0]) Calcular casos e controles segundo ambos abortos >table(infert$case[infert$spontaneous > 0 & infert$induced > 0]) Calcular casos e controles em nenhum dos abortos >table(infert$case[infert$spontaneous == 0 & infert$induced == 0]) Criar vetor de caselas 6

7 >casela <- c(40, 36, 21, 53, 15, 16, 7, 60) Construir a tabela de contingência >tab3 <- matrix(casela, 4, 2, byrow = T) Nomear linhas >rownames(tab3) <- c( Espontâneo, Induzido, Ambos, Nenhum ) Nomear colunas >colnames(tab3) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Tabela 3: Casos e controles expostos ou não segundo abortos espontâneo e induzido. Aborto (tipo de aborto) Caso = 1 (doentes) Caso = 0 (não-doentes) Espontâneo Induzido Ambos Nenhum 7 60 Para estimar a odds ratio e calcular o teste de X 2, vamos dividir a tabela de contingência de interesse (Tabela 3) em três considerando a categoria de aborto Nenhum como baseline. Criar vetor de caselas >casela <- c(40, 36, 7, 60) Construir a tabela de contingência 3a >tab3a <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab3a) <- c( Espontâneo, Nenhum ) Nomear colunas >colnames(tab3a) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Criar vetor de caselas >casela <- c(21, 53, 7, 60) 7

8 Construir a tabela de contingência 3b >tab3b <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab3b) <- c( Induzido, Nenhum ) Nomear colunas >colnames(tab3b) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Criar vetor de caselas >casela <- c(15, 16, 7, 60) Construir a tabela de contingência 3c >tab3c <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab3c) <- c( Ambos, Nenhum ) Nomear colunas >colnames(tab3c) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Podemos, agora, estimar a odds ratio e calcular o teste de X 2 para as tabelas de contingência tab3a, tab3b e tab3c. Ver a tabela tab3a > tab3a Caso = 1 (doentes) Caso = 0 (não-doentes) Espontâneo Nenhum 7 60 Estimar a odds ratio > OR3a <- (40 * 60) / (7 * 36) [1]9.52 Calcular o teste de X 2 8

9 >chisq.test(tab3a) Pearson s Chi-squared test with Yates continuity correction data: tab3a X-squared = , df = 1, p-value = 2.213e-07 Ver a tabela tab3b > tab3b Caso = 1 (doentes) Caso = 0 (não-doentes) Induzido Nenhum 7 60 Estimar a odds ratio > OR3b <- (21 * 60) / (7 * 53) [1]3.40 Calcular o teste de X 2 >chisq.test(tab3b) Pearson s Chi-squared test with Yates continuity correction data: tab3b X-squared = , df = 1, p-value = Ver a tabela tab3c > tab3c Caso = 1 (doentes) Caso = 0 (não-doentes) Ambos Nenhum 7 60 Estimar a odds ratio > OR3c <- (15 * 60) / (7 * 16) 9

10 [1]8.04 Calcular o teste de X 2 >chisq.test(tab3c) Pearson s Chi-squared test with Yates continuity correction data: tab3c X-squared = , df = 1, p-value = 8.646e-05 As estimativas de odds ratio foram 9.53, 3.40 e 8.04 e valores dos testes dex 2 foram (p < 0.001), 6.02 (p = 0.01) e 15.41(p < 0.001) para as, respectivamente, tabelas tab3a, tab3b e tab3c. Assim, os casos de infertilidade estão associados aos abortos. Entretanto, faz-se necessário considerar os intervalos de confiança dessas estimativas. Além disso, seria interessante considerarmos os efeitos dos abortos (nos casos de infertilidade) ajustados por paridade e educação. Essas pendências podem ser resolvidas na próxima etapa que é a de modelos de regressão logística binomial. 1.2 Modelo de regressão logística Este modelo pertence à classe de modelos conhecidos por GLM (Generalized Linear Models) (McCullagh e Nelder 1, 1989). No modelo de regressão logística binomial, a variável dependente y é um evento binário (p. ex., caso = 1 e caso = 0) em que a probabilidade de y = 1 é dada por meio da seguinte equação: P rob(y = 1) = ea+xb 1 + e a+xb onde x é a variável independente e a, b são os coeficientes de regressão β 0, β 1. 10

11 Uma importante derivação é que essa equação tem equivalência com o cálculo da odds ratio: = e (a+xb) em que a exponencial do coeficiente de regressão b(= β 1 ) é idêntica a estimativa da odds ratio realizada por meio da divisão dos produtos cruzados na tabela de contingência. OR(x) = exp(β) O primeiro passo do processo de modelagem é fazer a análise univariada. Vamos fazer essa análise, primeiramente, para a variável paridade. Para tanto, vamos conhecer a função glm() que nos permite elaborar esses modelos univariados. Por exemplo, vamos criar o modelo glm1 (glm1 <- glm(... )) em que os casos estão em função de paridade (case parity) da base de dados infert (data = infert) no modelo logístico binomial (family=binomial): >glm1<-glm(case parity, data = infert, family=binomial) > summary(glm1) Call: glm(formula = case parity, family = binomial, data = infert) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) ** parity Signif. codes: 0 *** ** 0.01 *

12 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 247 degrees of freedom Residual deviance: on 246 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Há dois problemas com o modelo glm1. Primeiro, a variável independente não é dicotômica na base de dados original. Segundo, o output da função summary() não é epidemiológico. Para resolver esses dois problemas, vamos, primeiro, criar uma nova base de dados (infert2 ) a qual conterá somente variáveis dicotômicas e, segundo, instalar e carregar o pacote epicalc para utilizar a função logistic.display() (=output epidemiológico). Criar variável dummy de paridade > par1 <- as.numeric(infert$parity == 1) > table(par1) Criar nova base de dados infert2 > infert2 <- data.frame(infert$case, par1) > colnames(infert2) <- c( Casos, Par1 ) Instalar e carregar pacote epicalc > install.packages("epicalc") >require(epicalc) 12

13 Criar novo glm1 > glm1 <- glm(casos ) Par1, data = infert2, family = binomial > logistic.display(glm1) Logistic regression predicting case OR(95%CI) P(Wald s test) P(LR-test) Par1: 1 vs (0.5776,1.6967) Log-likelihood = No. of observations = 248 AIC value = Perceba que a estimativa de odds ratio de 0.99 é idêntica àquela obtida com os dados da Tabela 1. Além disso, obtemos o intervalo de confiança de 95% (0.58, 1.70) dessa estimativa e o valor de p (=0.971) do coeficiente β 1 no teste de Wald. Assim como foi visto anteriormente, os casos não estão associados à paridade. Vamos repetir esses procedimentos para os modelos glm2 e glm3 em que os casos estão em função dos abortos e das categorias de educação, respectivamente. Criar variáveis dummy dos abortos > ab1<-as.numeric(infert$spontaneous > 0 & infert$induced == 0) > ab2<-as.numeric(infert$spontaneous == 0 & infert$induced > 0) > ab3<-as.numeric(infert$spontaneous > 0 & infert$induced > 0) Adicionar essas variáveis à nova base de dados infert2 > infert2 <- data.frame(infert$case, par1, ab1, ab2, ab3) > colnames(infert2) <- c( Casos, Par1, ab1, ab2, ab3 ) Criar glm2 > glm2 <- glm(casos ) ab1 + ab2 + ab3, data = infert2, family = binomial 13

14 > logistic.display(glm2) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ab1: 1 vs (1.89,5.88) 9.52 (3.86,23.5) <0.001 ab2: 1 vs (0.4,1.3) 3.4 (1.34,8.62) 0.01 ab3: 1 vs (0.96,4.39) 8.04 (2.8,23.03) <0.001 Log-likelihood = No. of observations = 248 AIC value = As estimativas ajustadas das odds ratio equivalem àquelas obtidas com os dados da Tabela 3. Isso porque esse modelo (glm2), na verdade, não é univariado porque possui 3 variáveis independentes. Como já foi visto, os casos estão associados aos abortos espontâneo (9.52; IC95% = 3.86, 23.5), induzido (3.4; IC95% = 1.34, 8.62) e ambos (8.04; IC95% = 2.8, 23.03). Finalmente, vamos fazer o mesmo procedimento para o modelo glm3. Criar variáveis dummy das categorias de educação > ed1<-as.numeric(infert$education == "0-5yrs") > ed2<-as.numeric(infert$education == "6-11yrs") Adicionar essas variáveis à nova base de dados infert2 > infert2 <- data.frame(infert$case, par1, ab1, ab2, ab3, ed1, ed2) > colnames(infert2) <- c( Casos, Par1, ab1, ab2, ab3, ed1, ed2 ) 14

15 Criar glm3 > glm3 <- glm(casos ) ed1 + ed2, data = infert2, family = binomial > logistic.display(glm3) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ed1: 1 vs (0.29,3.4) 0.99 (0.28,3.48) ed2: 1 vs (0.58,1.68) 0.99 (0.57,1.7) Log-likelihood = No. of observations = 248 AIC value = As estimativas de odds ratio são iguais àquelas obtidas com os dados da Tabela 2. Como foi visto anteriormente, os casos não estão associados à educação. Vamos comparar todos os modelos para cada variável independente (Tabela 4). Os abortos 1, 2 e 3 são variáveis independentes estatisticamente significantes, enquanto que os casos de infertilidade não estão associados à paridade, educação 1 e 2. Tabela 4: Resultados dos modelos para cada variável em infert2. Modelos Fórmula OR (IC.95) P (teste de Wald) GLM1 case paridade 0.99 (0.58,1.70) GLM2 case aborto (3.86,23.5) <0.001 aborto (1.34,8.62) 0.01 aborto (2.8,23.03) <0.001 GLM3 case educação (0.28,3.48) educação (0.57,1.7)

16 Embora não estejam associadas com os casos de infertilidade, as variáveis independentes educação 1 e 2 e paridade podem ser variáveis de ajuste para as estimativas de odds ratio dos abortos. Portanto, vamos criar os modelos múltiplos glm4 e glm5. Criar glm4 > glm4 <- glm(casos ab1 + ab2 + ab3 + ed1 + ed2, data = infert2, family = binomial) > logistic.display(glm4) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ab1: 1 vs (1.89,5.88) (4.12,26.13) < ab2: 1 vs (0.4,1.3) 3.71 (1.42,9.67) ab3: 1 vs (0.96,4.39) 8.41 (2.91,24.29) < ed1: 1 vs (0.29,3.4) 1.28 (0.34,4.87) ed2: 1 vs (0.58,1.68) 1.34 (0.74,2.44) Criar glm5 > glm5 <- glm(casos ab1 + ab2 + ab3 + ed1 + ed2 + par1, data = infert2, family = binomial) > logistic.display(glm5) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ab1: 1 vs (1.89,5.88) (4.73,31.74) < ab2: 1 vs (0.4,1.3) 4.6 (1.7,12.43) ab3: 1 vs (0.96,4.39) (3.9,40.45) < ed1: 1 vs (0.29,3.4) 1.48 (0.39,5.65) ed2: 1 vs (0.58,1.68) 1.46 (0.79,2.68) par: 1 vs (0.58,1.7) 1.77 (0.92,3.42)

17 As estimativas de odds ratio dos abortos 1 (espontâneo), 2 (induzido) e 3 (ambos) sofreram ajustes das variáveis inclusas nos modelos múltiplos glm4 e glm5. O maior ajuste foi observado no modelo glm5 em que as estimativas foram, respectivamente, ajustadas em 29% (aborto 1), 35% (aborto 2) e 56% (aborto 3) para cima em comparação com o modelo glm2 (Tabela 5). Isso mostra que, possivelmente, os efeitos dos abortos são ainda maiores para a ocorrência de infertilidade, ajustando por paridade e educação das mulheres. Tabela 5: Resultados dos modelos múltiplos glm4 e glm5. Modelos Variáveis OR adj. (IC95) P (Wald) GLM2 aborto (3.86,23.5) <0.001 aborto (1.34,8.62) aborto (2.8,23.03) <0.001 GLM5 aborto (4.73,31.74) < aborto (1.7,12.43) aborto (3.9,40.45) < educação (0.39,5.65) educação (0.79,2.68) paridade 1.77 (0.92,3.42) GLM4 aborto (4.12,26.13) < aborto (1.42,9.67) aborto (2.91,24.29) < educação (0.34,4.87) educação (0.74,2.44)

18 1.3 Exercício da Aula 5 1 Utilize a base de dados birthwt em que foi feita a análise exploratória com gráficos na aula 2 para aplicar a regressão logística binomial. A variável dependente é a low e as variáveis independentes são: race, smoke, ptl, ht, ui e ftv. Construa as tabelas de contingência, estime as odds ratio e calcule os testes de X 2. As variáveis race, ptl e ftv devem ser transformadas em dicotômicas, sendo baseline as seguintes categorias: race = 1, ptl = 0 e ftv > 0. Agora, aplique a função glm() para fazer os modelos para cada variável (ou seja, glm1 <- glm(low... ),..., glm6 <- glm(low... ). Faça apenas um modelo múltiplo (glm7) com todas as variáveis. Interprete os resultados. 18

19 Referências [1] McCullagh P, Nelder JA. Generalized Linear Models. London: Chapman and Hall