Confundimento erro devido a uma diferença não aleatória na distribuição dos fatores de risco entre os dois grupos. A variável de confundimento está distribuída desigualmente entre os grupos comparados. Ex: um grupo é mais idoso ou fuma mais que o outro. presente quando estimativa não ajustada do risco difere da estimativa ajustada em pelo menos 10%. Conseqüências: altera a estimativa do risco (subestima, superestima) gera falso-positivo, falso-negativo inverte a direção da associação.
Características do fator de confusão: ser um fator de risco para a doença associado com a exposição não ser um elo de ligação entre a exposição e a doença Elo de ligação não deve ser controlado na análise - associação
O sexo masculino é um fator de risco para malária? Sexo Casos Controles Total n % n % Masculino 88 58,7 68 45,3 156 Feminino 62 41,3 82 54,7 144 Total 150 150 300 Odds ratio = 1,71 (1,06-2,78)
Exposição (sexo) vs fator de confusão (ocupação ao ar livre) Ocupação ao ar livre Sexo Sim Não Total n % N % Masculino 68 43,6 88 56,5 156 Feminino 13 9,0 131 91,0 144 Total 81 219 50,0 300 Odds ratio = 7,79 (3,90 15,80)
Fator de confusão (ocupação ao ar livre) vs desfecho (malária) Ocupação ao ar livre Casos Controles Total n % N % Sim 63 42,0 18 12,0 81 Não 87 58,0 132 88,0 219 Total 150 150 300 Odds ratio = 5,31 (2,84 10,02)
Sexo vs malária estratificação por ocupação Ocupação ao ar livre Sexo Casos Controles Total n % n % Masculino 53 84,1 15 83,3 63 Feminino 10 15,9 3 16,7 18 Total 63 18 81 Odds ratio =1,06 (0,20 5,02)
Sexo vs malária estratificação por ocupação Ocupação em ambientes fechados Sexo Casos Controles Total N % N % Masculino 35 40,2 53 40,2 88 Feminino 52 59,8 79 59,8 131 Total 87 132 219 Odds ratio = 1,00 (0,56-1,81)
O sexo masculino é um fator de risco para malária após controlar-se pela ocupação? Sexo Casos Controles Total n % n % Masculino 88 58,7 68 45,3 156 Feminino 62 41,3 82 54,7 144 Total 150 150 300 Odds ratio bruto= 1,71 (1,06-2,78) Odds ratio ajustado = 1,01 (0,60 1,69)
REGRESSÃO LOGÍSTICA A função logística é perfeitamente aplicável aos problemas epidemiológicos porque é uma função que varia entre 0 e 1. É um função em forma de S alongado. Seu modelo calcula a probabilidade do efeito pela seguinte fórmula: P X 1 ( ) = 1 + e ( α + β i Xi )
Os termos α e β i neste modelo representam parâmetros desconhecidos que serão estimados com base nos dados amostrais obtidos pelo método da máxima verossimilhança (maximiza a probabilidade de obtenção do grupo observado de dados). Pelo modelo estimamos α β i
Assim, sabendo os parâmetros α e β i e conhecendo os valores das variáveis independentes para um indivíduo, podemos aplicar a fórmula acima para calcular a probabilidade de que este indivíduo desenvolva a doença P (X). No exemplo abaixo está calculada a regressão logística tendo como variável dependente o baixo peso ao nascer e como variáveis dependentes fumo materno (0,1) smoke - e número de consultas prénatais no primeiro trimestre de gravidez (de 1 a 6) - ftv.
Logit Estimates Number of obs = 189 chi2(2) = 5.53 Prob > chi2 = 0.0629 Log Likelihood = -114.57008 Pseudo R2 = 0.0236 ------------------------------------------------------------------------------ low Coef. Std. Err. z P> z [95% Conf. Interval] ---------+-------------------------------------------------------------------- smoke.6977775.3203178 2.178 0.029.069966 1.325589 ftv -.1246574.1554117-0.802 0.422 -.4292588.179944 _cons -.9888444.245176-4.033 0.000-1.46938 -.5083083 ------------------------------------------------------------------------------ 1 P( X ) = 1 + e ( α + β 1smoke + β 2 ftv)
P(X)= 0.339= 34% Logit Estimates Number of obs = 189 chi2(2) = 5.53 Prob > chi2 = 0.0629 Log Likelihood = -114.57008 Pseudo R2 = 0.0236 ------------------------------------------------------------------------------ low Coef. Std. Err. z P> z [95% Conf. Interval] ---------+-------------------------------------------------------------------- smoke.6977775.3203178 2.178 0.029.069966 1.325589 ftv -.1246574.1554117-0.802 0.422 -.4292588.179944 _cons -.9888444.245176-4.033 0.000-1.46938 -.5083083 ------------------------------------------------------------------------------ P ( X ) = ( 0.989+ 0.698(1) + ( 1 + e 1 0.125)(3) P(X) = 1 / 1 + e (-0.666) = 1 / 1 + 1.946
Propriedades OR= e β 1 IC 95% (OR)= e [ β 1 ± 1.96 x erro padrão(β 1 ) ] OR= e 0.698 OR= 2.010 IC 95% (OR)= e IC 95% (OR)= e IC 95% (OR)= e [ 0.698 ± 1.96 x 0.320 ] [ 0.698 ± 1.96 x 0.320 ] [ 0.698 ± 0.627 ] Limite inferior do IC 95% (OR)= e 0.071 = 1.074 Limite superior do IC 95% (OR)= e 1.325 = 3.76
Codificação da variável resposta - low Variável Resposta Codificação Baixo peso ao nascer Não 0 Sim 1 Binária ou dicotômica
Codificação das variáveis independentes id low número de identificação do paciente baixo peso ao nascer 0=não 1=sim age idade materna em anos completos (14-45) lwt peso no início da gravidez em libras (80-250) race smoke raça 1=branco 2=negro 3=outra fumo materno 0=não 1=sim ptl número de partos prematuros anteriores (0-3) ht ui ftv hipertensão materna 0=não 1=sim irritabilidade uterina 0=não 1=sim número de consultas no pré-natal no primeiro trimestre da gravidez (0-6) bwt peso ao nascer em gramas (709-4990) Variáveis Quantitativas Categóricas Dummy
Race Código Branca 1 Dummy Negra 2 Outra 3 Branca Negra Outra _Irace_2 0 1 0 _Irace_3 0 0 1
tab race race Freq. Percent Cum. ------------+----------------------------------- 1 96 50.79 50.79 2 26 13.76 64.55 3 67 35.45 100.00 ------------+----------------------------------- Total 189 100.00 tab _Irace_2 race==2 Freq. Percent Cum. ------------+----------------------------------- 0 163 86.24 86.24 1 26 13.76 100.00 ------------+----------------------------------- Total 189 100.00 tab _Irace_3 race==3 Freq. Percent Cum. ------------+----------------------------------- 0 122 64.55 64.55 1 67 35.45 100.00 ------------+-----------------------------------
xi: logistic low i.race i.race _Irace_1-3 (naturally coded; _Irace_1 omitted) Logistic regression Number of obs = 189 LR chi2(2) = 5.01 Prob > chi2 = 0.0817 Log likelihood = -114.83082 Pseudo R2 = 0.0214 ------------------------------------------------------------------------------ low Odds Ratio Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- _Irace_2 2.327536 1.078613 1.82 0.068.9385073 5.772385 _Irace_3 1.889234.6571342 1.83 0.067.9554577 3.735597 ------------------------------------------------------------------------------
Pressupostos da análise Regressão logística múltipla Linearidade do logito - para variáveis representadas na escala intervalar
logit low age Logit Estimates Number of obs = 189 chi2(1) = 2.76 Prob > chi2 = 0.0966 Log Likelihood = -115.95598 Pseudo R2 = 0.0118 ------------------------------------------------------------------------------ low Coef. Std. Err. z P> z [95% Conf. Interval] ---------+-------------------------------------------------------------------- age -.0511529.0315138-1.623 0.105 -.1129188.0106129 _cons.3845819.7321251 0.525 0.599-1.050357 1.819521 ------------------------------------------------------------------------------ logistic low age Logit Estimates Number of obs = 189 chi2(1) = 2.76 Prob > chi2 = 0.0966 Log Likelihood = -115.95598 Pseudo R2 = 0.0118 ------------------------------------------------------------------------------ low Odds Ratio Std. Err. z P> z [95% Conf. Interval] ---------+-------------------------------------------------------------------- age.9501333.0299423-1.623 0.105.8932232 1.010669 ------------------------------------------------------------------------------
O coeficiente para idade materna é 0.051. O odds ratio para cada ano de incremento na idade é 0.95, ou seja, a cada ano de idade materna, há uma redução de 5% no risco de baixo peso ao nascer. Como o intervalo de confiança incluiu o 1, a idade materna não é um fator de risco para o baixo peso ao nascer nesta população. Observe que a idade está modelada como variável contínua. O odds ratio de uma variável contíua representa uma média dos odds nos diversos níveis desta variável.
Há uma tendência linear de decréscimo na probabilidade de baixo peso ao nascer predita pelo modelo à medida em que aumenta a idade materna. Portanto, a idade materna pode ser modelada como uma variável quantitativa contínua no modelo..417861 P robabilidade predita de BP N.128163 14 45 age
ESTRATÉGIAS DE SELEÇÃO DE VARIÁVEIS Modelo Reduzido - por passos - parcimonioso -> para a frente (forward) - amostras pequenas, colinearidade <- para trás (backward) - efeito supressor (valor para inclusão 0,20) ( valor para retenção ou exclusão - P < 0,10 ou 0,15) Modelo Completo
Dados prejudicados O que fazer com eles? Problemas - viés de seleção - presente se os casos perdidos forem sistematicamente diferentes dos remanescentes Teste - se diferentes, descrever a diferença e imaginar qual o viés que pode estar presente no estudo (direção, magnitude)
Dados prejudicados 1. Exclusão desde o início - poucos 2. Criar categoria representando os dados ignorados 3. Reduzir o número de variáveis 4. Estimar o valor dos dados ignorados - imputação
Tamanho da amostra Regressão Logística REGRA - para cada variável independente incluída no modelo são necessários pelo menos 5 a 10 eventos Ex: modelo para identificar fatores de risco para o baixo peso ao nascer com 10 variáveis independentes - 50 a 100 casos de baixo peso ao nascer.
Colinearidade Variáveis estão muito correlacionadas que não se consegue isolar o efeito de cada uma Matriz de correlação - Pearson > 0,90 - problema entre 0,80 e 0,90 - talvez < 0,80 - não causam problema
Colinearidade - Soluções Omitir variáveis Usar variável combinada - e/ou Criar uma escala