Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação Nívea B. da Silva 1 Enrico A. Colosimo 2 Leila A. F. Amorim 3 1 Introdução Nos últimos anos muitas metodologias têm sido propostas para modelar respostas politômicas ordinais, e o interesse nesse tipo de modelagem tem sido crescente tanto em estudos transversais quanto em longitudinais. Em epidemiologia, por exemplo, há interesse frequente em estimar o risco de eventos adversos, e os pesquisadores geralmente escolhem classificar a resposta de interesse em 2 ou mais categorias a fim de estimar o risco relativo ou a razão de chances, a depender do delineamento do estudo. O uso de respostas politômicas ordinais tem ganhado espaço em estudos sobre qualidade de vida, indicadores de condição de saúde, e até mesmo sobre a gravidade de certa doença. Em estudos transversais a modelagem desse tipo de resposta é feita, em geral, ajustando-se um modelo de logitos cumulativos, também conhecido como modelo de odds proporcionais (McCullagh, 1980). Se acompanhamos os indivíduos durante certo período de tempo, e se mais de uma observação por unidade de análise é obtida, tem-se um desenho de estudo do tipo longitudinal, e neste caso técnicas específicas de modelagem precisam ser utilizadas. A análise de dados longitudinais tem por objetivo detectar possíveis mudanças na resposta dos indíviduos sob o tempo, além de avaliar quais fatores influenciam na heterogeneidade entre indivíduos (Fitzmaurice et al., 2011). Os modelos usuais (modelos marginais (GEE), modelos mistos (GLMM) e modelos de transição) para análise de dados longitudinais podem ser utilizados na modelagem de respostas categóricas com mais do que 2 categorias (Fitzmaurice et al, 2011). Nesse trabalho a modelagem de respostas politômicas ordinais é abordada sob a ótica dos modelos marginais. A metodologia apresentada será ilustrada com a análise de dados de um estudo comparativo conduzido pela Faculdade de Medicina da UFMG e pelo Hospital municipal Odilon Berhens, cujo objetivo foi comparar duas técnicas de analgesia para a dor do trabalho de parto (Soares, 2013). Além da análise de dados, são apresentados resultados de um estudo de simulação conduzido para avaliar a performance do modelo marginal para resposta ordinal. 1 Programa de Pós-Graduação em Estatística - UFMG. (e-mail: nivea.bispo@gmail.com) 2 Departamento de Estatística - UFMG 3 Departamento de Estatística - UFBA 1
2 Material e métodos A análise de dados com respostas correlacionadas é comum em estudos onde medidas do mesmo indivíduo podem ser obtidas em diferentes ocasiões. As observações repetidas para um mesmo indivíduo caracterizam um estudo longitudinal, onde um dos objetivos é avaliar quais fatores influenciam na heterogeneidade entre indivíduos (Fitzmaurice et al., 2011). Nesse sentido, a resposta do indivíduo i tomada repetidamente ao longo do tempo é definida por Y i j (i = 1,...,n; j = 1,...,n i ). Se Y i j for categórica, e o número de categorias k for superior a 2, teremos uma resposta politômica longitudinal. Metodologias alternativas têm sido usadas para modelar respostas politômicas em estudos longitudinais. Assim como em respostas binárias e de contagem, é possível usar os modelos marginais (GEE) para modelar respostas categóricas com mais de 2 categorias. A seguir descrevemos de forma sucinta essa metodologia. 2.1 Modelos Marginais (GEE) para respostas ordinais Uma das metodologias mais populares para modelar dados cuja resposta tem caráter longitudinal, os modelos marginais fornecem um método unificado para analisar vários tipos de respostas longitudinais, evitando suposições sobre a distribuição do vetor de respostas, e baseando-se exclusivamente em suposições sobre a resposta média. Essa classe de modelos é apropriada quando o foco da análise é inferir sobre a população média. Assumindo que n indivíduos são medidos repetidamente ao longo do tempo, denotemos Y i j como sendo uma resposta ordinal com k categorias, k = 1,...,K, para o i-ésimo indivíduo na j-ésima ocasião. Associado a cada resposta Y i j, há um vetor p 1 de covariáveis X i j. maneira: Podemos, assim, especificar um modelo marginal para respostas ordinais da seguinte 1. logito (F i jk ) = γ k + Xi T j β, onde F i jk = P(Y i j k); { 2. Var(U i jk X i j ) = F i jk (1 F i jk ), ondeu i jk = 1, se Y i j k 0, se Y i j > k ; 3. A correlação entre os componentes de (U i j1,...,u i j,k 1 ) na j-ésima ocasião será uma função conhecida da média por meio de F i jk, ao especificarmos a associação intra-indivíduo (α). por: Uma extensão natural do modelo de odds proporcionais para dados longitudinais é dada [ ] P(Yi j k) log = γ k + Xi T j β, k = 1,2,...,K 1 (1) 1 P(Y i j k) Nesse modelo a mudança nos K 1 logitos cumulativos, ao longo do tempo, está relacionada com as covariáveis. E, embora ele inclua K 1 interceptos γ k, assume-se que o efeito 2
das covariáveis é o mesmo entre os K 1 logitos, o que equivale dizer que o efeito das covariáveis sob as odds cumulativas são proporcionais (Fitzmaurice et al, 2011). Nos modelos marginais a estimação dos parâmetros é feita utilizando-se as equações de estimação propostas por Heagerty e Zeger (1996): [ µi U 1 (β,α) = β e U 2 (α) = n i=1 n i=1 onde V i11 representa a matriz de covariância de Y i j ; ] T V 1 i11 (Y i µ i (β)) (2) [ ] T ζi Mi 1 (Yi ζ i ) (3) α ζ i é um vetor de tamanho C 2 n i, cujos elementos são ξ i( j,s)(k1,k 2 )E(Y i jk1 Y i jk2 ); M i = diag[ζ i (1 ζ i )], e Y i = ((Y i1 1 C ) T,(Y i2 1 C ) T,...,(Y i(ni 1) 1 C ) T ) T. O algoritmo de estimação para resolver as equações de estimação (2) e (3) são similares ao proposto por Liang e Zeger (1986). É válido ressaltar que o parâmetro α na equação (3) é estimado em termos da razão de chances global. 2.2 Aplicação a dados reais Estudo comparativo conduzido pela Faculdade de Medicina da UFMG e pelo Hospital municipal Odilon Berhens, cujo objetivo foi comparar duas técnicas de analgesia para a dor do trabalho de parto. No estudo 49 pacientes foram acompanhadas durante todo o período até o parto. Consideramos como resposta de interesse a intensidade da dor, avaliada através de uma escala visual analógica (EVA) ( 1: dor leve e tolerável; 2: dor moderada e que causa desconforto; 3: dor intensa e insuportável), tendo sido medida a cada 5 minutos (5,10,15,20,25,30 minutos) após a anestesia, e após isso a cada 30 minutos até o parto (60, 90, 120,...). Para as análises apresentadas aqui considerou-se o tempo até 90 minutos para reduzir o número de medidas por paciente. Neste caso j denota os tempos onde a intensidade da dor foi avaliada. Assim, j = 0,5,10,15,20,25,30,60,90 minutos. As variáveis preditoras consideradas para ajuste do modelo são: grupo (0:peridural; 1:remifentanil), idade da paciente, frequência respiratória (FR), consumo de ocitocina, dilatação uterina (DU). Assumimos que o log da odds para uma das categorias da resposta ordinal em cada tempo j segue o seguinte modelo de odds proporcionais marginais: log [ P(Yi j k X i j ) 1 P(Y i j k X i j ) 2.3 Estudo de simulação ] = γ k + β 1 grupo i + β 2 idade i + β 3 ocitocina i + β 4 FR i j + β 5 DU i j + β 6 tempo i j Estudo conduzido com o objetivo de avaliar a performance do modelo marginal para resposta ordinal. Para gerar as respostas ordinais correlacionadas foi utilizada a função rmult.clm 3
do pacote SimCorMultRes, disponível no software R-2.15. Assumimos Y i j com 3 categorias. Além disso, foram considerados diferentes cenários para o número de medidas repetidas (assumimos j = 3,5 e 7 medidas por indivíduo), assumindo uma correlação de 0.6 entre as respostas. Os tamanhos amostrais considerados em cada cenário foram n = 100,500, e 1000, com 500 replicações de Monte Carlo cada. Os valores assumidos para os interceptos γ k foram 1.0 e 0.5, respectivamente, e para avaliar o efeito do coeficiente de regressão nos modelos assumiuse β = 1, gerando-se a variável X a partir de uma distribuição U(0,1). A partir dos resultados obtidos foram calculados a média, desvio-padrão, o viés, e o erro quadrático médio (EQM) para os γ k e β em todos os cenários. 3 Resultados 3.1 Aplicação Três diferentes estruturas para a matriz de trabalho foram consideradas, e os resultados obtidos nos 3 ajustes foram bem similares, o que corrobora a teoria do modelo no sentido de que independente da matriz de trabalho escolhida, as estimativas para o coeficiente β são consistentes. Assim, tomando o modelo com matriz de trabalho do tipo simétrica composta, observa-se que o efeito de grupo foi estatisticamente significativo, indicando, haver diferença entre os tratamentos, ou seja, a chance de uma parturiente do estudo sentir dor dor leve é menor entre aquelas que tomaram remifentanil (e 1,793=0,17 ) em comparação às que tomaram epidural. E, devido ao pressuposto de proporcionalidade das odds, a chance de sentir dor leve ou moderada é a mesma. (Tabela 1). Tabela 1: Estimativas dos parâmetros para o modelo marginal no estudo sobre analgesia do parto. R(α) independente R(α) simétrica composta R(α) não estruturada + variável β ep p-valor β ep p-valor β ep p-valor γ 1 1,351 1,218-1,804 1,287-1,669 1,308 - γ 2 3,008 1,218-3,443 1,284-3,304 1,296 - grupo (Remifetanil) -1,629 0,369 <0,001-1,793 0,408 <0,001-1,829 0,044 <0,001 Tempo -0,001 0,004 0,827-0,002 0,004 0,608-0,002 0,004 0,544 idade -0,037 0,035 0,299-0,039 0,037 0,303-0,039 0,037 0,286 ocitocina -0,001 0,008 0,866-0,003 0,009 0,775-0,001 0,008 0,846 DU -0,173 0,130 0,185-0,197 0,144 0,172-0,173 0,130 0,185 FR -0,016 0,033 0,620-0,028 0,035 0,427-0,021 0,035 0,548 α - 1,043 0,246 <0,001 α 0,5 = 1,767 0,709 0,012 α 0,10 = 0,948 0,596 0,112.. α 60,90 = 1,188 0,722 0,099 erro-padrão baseado no estimador sanduiche da variância associação intra-indivíduo baseada no log da odds ratio + Para a estrutura de associação são 36 combinações entre os tempos, ou seja 36 α s foram estimados 4
3.2 Estudo de simulação Os resultados obtidos para n=500 e 1000, considerando 3 e 5 medidas repetidas, respectivamente, encontram-se na Tabela 2. A partir dos resultados observa-se que há uma melhora substancial nos resultados quando aumentamos o número de medidas repetidas. Tabela 2: Medidas resumo para γ 1, γ 2 e β com j = 3 e j = 5 medidas repetidas j=3 j=5 medidas resumo n=500 n=1000 n=500 n=1000 ˆγ 1 ˆγ 2 ˆβ média -1,0031 0,5024 1,0100-1,0003 0,5069 1,0047-1,0108 0,4895 1,0229-1,0094 0,4944 1,0196 desvio-padrão 0,1489 0,1459 0,2470 0,1861 0,1860 0,1082 0,1374 0,1346 0,2372 0,1311 0,1282 0,2291 vício -0,0031 0,0024 0,0100-0,0003 0,0069 0,0047-0,0108-0,0105 0,0229-0,0094-0,0056 0,0196 EQM 0,0222 0,0213 0,0611 0,0346 0,0346 0,0117 0,0190 0,0182 0,0568 0,0173 0,0164 0,0529 4 Conclusão Nos últimos anos há um crescente interesse em se estudar técnicas de modelagem para respostas ordinais, sendo o modelo de odds proporcionais (McCullagh, 1980) o mais utilizado na prática. Em estudos longitudinais os modelos usuais podem ser utilizados na modelagem de respostas ordinais, sendo os modelos marginais uma das metodologias mais populares, devido, principalmente, à facilidade na interpretação dos coeficientes estimados. Os resultados obtidos a partir do estudo de simulação apontam para uma boa performance do modelo marginal, indicando que mesmo com poucas medidas repetidas ( j = 3 ou j = 5) por indivíduo, é possível obter bons resultados. Em relação à aplicação ao conjunto de dados reais, observamos que independente da escolha da matriz de trabalho, as estimativas para os coeficientes de regressão são consistentes. Referências [1] FITZMAURICE, G. M., LAIRD, N. M., WARE, J. H. Applied Longitudinal Analysis - 2 nd Edition. Wiley, 2011. [2] HEAGERTY, P., LIANG, K-Y., ZEGER, S. L. Marginal regression models for clustered ordinal measurements. JASA, 91, 1024 1036, [3] McCULLAGH, P. Regression Models for Ordinal Data. Journal of the Royal Statistical Society, Series B, 42, 109 142, 1980. [4] LIANG, K.Y., ZEGER, S.L. Longitudinal Data Analysis for Discrete and Continuous Outcomes. Biometrics, 42, 121 130, 1986b. [5] SOARES, E. S. C. Remifetanil venoso versus analgesia peridural intermitente para o trabalho de parto - Estudo comparativo. Dissertação de mestrado, 2013. [6] TOULOUMIS, A. Package SimCorMultRes - software R, nov/2012. 5