218 International Journal of Cardiovascular Sciences. 2016;29(3):218-222 ARTIGO DE REVISÃO na Pesquisa Cardiovascular Diagnostic Accuracy Measures in Cardiovascular Research Leonardo Silva Roever Borges Universidade Federal de Uberlândia, Uberlândia, MG Brasil Resumo A acurácia do diagnóstico é a capacidade de um teste discriminar entre a condição alvo e saúde, e pode ser quantificada por meio de medidas de precisão de diagnóstico, como sensibilidade, especificidade, valores preditivos positivos e negativos, razões de verossimilhanças positiva e negativa, área sob a curva ROC, razão das chances de diagnóstico e índice de Youden. As medidas de acurácia diagnóstica se relacionam com os diferentes aspectos do procedimento de diagnóstico. Algumas medidas são utilizadas para avaliar a propriedade discriminativa do teste, enquanto outras para sua capacidade preditiva. As medidas de precisão de diagnóstico não são fixos indicadores de um desempenho do teste; alguns são muito sensíveis à prevalência da doença, enquanto outros para o espectro e a definição da doença. Esta revisão descreve as definições e as características das medidas de acurácia diagnóstica utilizadas na pesquisa cardiovascular. Introdução A acurácia de um teste de diagnóstico responde como este teste discrimina corretamente duas condições de interesse: a saúde e a doença. Esta capacidade discriminativa pode ser quantificada pelas medidas de acurácia diagnóstica: sensibilidade e especificidade, Valores Preditivos Positivos e Negativos (VP+ e VP-), Razão de Verossimilhança Positiva e Negativa (RV+ e RV-), a Área sob a Curva Palavras-chave Diagnóstico, Confiabilidade dos Dados, Medicina Baseada em Evidências, Estudo Clínico. (ASC) ROC, o índice de Youden e a Razão das Chances de Diagnóstico (RCD). 1-14 A sensibilidade e a especificidade Um teste de diagnóstico perfeito tem o potencial de discriminar adequadamente os pacientes com e sem doença. Infelizmente, os procedimentos de diagnóstico só podem fazer distinção parcial entre indivíduos com a doença presente ou ausente. Os valores de um teste diagnóstico que são maiores ou iguais ao ponto de corte indicam a presença da doença, enquanto que valores abaixo do ponto de corte excluem a doença. 15 Os valores acima do ponto de corte não são sempre indicativos de uma doença, uma vez que indivíduos sem doença também podem, por vezes, ter os valores elevados. Tais valores elevados de determinado parâmetro de interesse são chamados de Falsos-Positivos (FP). Por outro lado, valores abaixo do ponto de corte são encontrados principalmente em indivíduos sem a doença, porém alguns indivíduos com a doença podem tê-los, sendo denominados Falsos-Negativos (FN). 15 O ponto de corte divide a população de indivíduos examinados com e sem doença em quatro subgrupos, considerando os valores dos parâmetros de interesse: A Verdadeiro-Positivo (VP): pacientes com a doença e com o valor de um parâmetro de interesse maior ou igual ao ponto de corte. B FP: pacientes sem a doença e com o valor de um parâmetro de interesse maior ou igual ao ponto de corte. C Verdadeiro-Negativo (VN): pacientes sem a doença e com o valor de um parâmetro de interesse abaixo do ponto de corte. D FN: pacientes com a doença e com o valor de um parâmetro de interesse abaixo do ponto de corte. Correspondência: Leonardo Silva Roever Borges Rua Rafael Rinaldi, 431, Martins. CEP: 38400-384. Uberlândia, MG Brasil E-mail: leonardoroever@hotmail.com DOI: 10.5935/2359-4802.20160030 Artigo recebido em 22/6/2016; revisado em 27/6/2016; aceito em 10/07/2016.
Int J Cardiovasc Sci. 2016;29(3):218-222 219 O método para se realizarem os cálculos de acurácia diagnóstica é feito por meio de uma tabela 2x2, com os grupos de indivíduos divididos de acordo com o padrão ouro ou do método de referência, em colunas, e categorias, de acordo com o resultado do teste (Tabela 1). 15 A sensibilidade é expressa em porcentagem e definida como a probabilidade de se obter um resultado positivo em indivíduos com a doença (VP/VP+FN). A especificidade é definida como a probabilidade de se obter um resultado negativo em indivíduos sem a doença (VN/VN+FP). 15 Nem a sensibilidade e a especificidade são influenciadas pela prevalência da doença. Isso significa que resultados de um estudo podem ser facilmente transferidos para outro ambiente com uma diferente prevalência da doença na população. No entanto, a sensibilidade e a especificidade podem variar, muito dependendo do espectro da doença no grupo estudado. 15 O SnNOut é utilizado para indicar quando um sinal/ teste ou sintoma,= possui um resultado negativo (N) em um teste altamente sensível (Sn), o que exclui o diagnóstico (Out). O SpPIn indica quando um sinal/teste ou sintoma possui um resultado positivo (P), em um teste altamente específico (Sp), confirmando o diagnóstico (In). 11,12 A chance pré-teste é a chance de um indivíduo ter a doença alvo antes de o teste ser realizado. A chance pós-teste é a chance de que um paciente ter a doença alvo depois de o teste ser realizado. A probabilidade pré-teste (prevalência) é a probabilidade de um indivíduo ter a doença alvo antes de o teste ser realizado, e a probabilidade pós-teste é a probabilidade de um indivíduo com um resultado de um teste específico ter a condição de alvo. 11,12 Tabela 1 Medidas de acurácia diagnóstica Presente Distúrbio alvo Ausente Total Resultado do teste de diagnóstico Positivo A(VP) B(FP) a+b Negativo C(FN) D(VN) c+d Total a+c b+d a+b+c+d Sensibilidade= a/(a+c) Especificidade = d/(b+d) RV+ = sensibilidade/(1-especificidade) RV- = (1-sensibilidade)/especificidade Valor preditivo positivo = a/(a+b) Valor preditivo negativo= d/(c+d) Probabilidade pré-teste (prevalência) = (a+c)/(a+b+c+d) Chance = probabilidade/( 1- probabilidade) Chance pré-teste = prevalência/(1-prevalência) Chance pós-teste = chance pré-teste x RV Probabilidade = chance/ (chance + 1) Probabilidade pós-teste = chance pós-teste /(chance pós-teste +1) Acurácia = (VP + VN)/(VP + FP + VN + FN) FVP - total de exames positivos em doentes FFP - total de exames positivos em não doentes Razão de chances de diagnóstico: RV+/RV- = (VP/FN)/(FP/VN) ED = (VP + VN/ (VP + VN + FP + FN) Índice de Youden: (sensibilidade + especificidade) - 1 VP: verdadeiro-positivo; FP: falso-positivo; FN: falso-negativo; VN: verdadeiro-negativo; RV+: razão de verossimilhança positiva; RV-: razão de verossimilhança negativa; FVP: fração de verdadeiro-positivos; FFP: fração de falso-positivos; ED: eficácia de diagnóstico.
220 Int J Cardiovasc Sci. 2016;29(3):218-222 Valores preditivos O VP+ define a probabilidade de ter a doença de interesse em um indivíduo com um resultado positivo. VP+ representa uma proporção de pacientes com resultado positivo do teste em um total de indivíduos com resultado positivo (VP / VP + FP). 15,16 O VP- descreve a probabilidade de não se ter uma doença em um sujeito com um resultado negativo. O VP- é definido como uma proporção de indivíduos sem a doença com um resultado negativo em um total de indivíduos com resultados negativos (VN / VN + FN). 15,16 Ao contrário da sensibilidade e da especificidade, VP são, em grande parte, dependentes da prevalência da doença na população examinada. Portanto, os VP de um estudo não devem ser transferidos para outra população com uma prevalência diferente da doença. Prevalência afeta VP+ e VP- de forma diferente. O VP+ é aumentando, enquanto o VP- diminui com o aumento da prevalência da doença na população. 15,16 Razão de verossimilhança A RV é uma medida muito útil na precisão diagnóstica, sendo definida como a razão entre resultado do teste esperado em indivíduos com uma determinada doença para os indivíduos sem a doença. Simplificando, a RV diz o quanto é mais provável ter o resultado do teste em particular em indivíduos com a doença do que naqueles sem a doença. Quando ambas as probabilidades são iguais, tal teste é de nenhum valor e sua RV = 1. A RV para testes com resultados positivos (RV +) aponta como mais provável que um teste com um resultado positivo possa ocorrer em indivíduos com a doença, em comparação com os que não têm a doença (RV+ = sensibilidade/(1-especificidade). A RV+ é geralmente maior do que 1, porque é mais provável que o resultado positivo do teste ocorrerá em indivíduos com a doença do que em sujeitos sem a doença. Quanto maior for a RV+, mais o teste é indicativo da doença. Bons testes de diagnóstico têm uma RV+ > 10 e o seu resultado positivo tem contribuição significativa para o diagnóstico. A RV- representa a razão entre a probabilidade de um resultado negativo ocorrer em indivíduos com a doença, para a probabilidade de que o mesmo resultado ocorra em indivíduos sem a doença (RV = (1-sensibilidade)/especificidade). A RV- mostra a chance de um teste normal irá ocorrer em um pacientes com a doença, do que em um indivíduo sem doença. A RV- é geralmente inferior a 1, porque é menos provável que o resultado de teste negativo ocorra em indivíduos com do que em indivíduos sem doença. Bons testes de diagnóstico têm RV- < 0,1. Tanto a sensibilidade e como a especificidade são utilizadas para calcular a taxa de probabilidade, sendo evidente que nem RV+ e a RV- dependem da prevalência da doença nos grupos examinados. Por conseguinte, as razões de probabilidade a partir de um estudo são aplicáveis a qualquer outro ambiente clínico, enquanto a definição da doença não é alterada. Se o modo de definir a doença varia, nenhuma das opções medidas e calculadas deve ser aplicada a outro contexto clínico. A curva ROC Há um par de valores de sensibilidade e especificidade diagnóstica para cada ponto de corte do indivíduo. Para construir um gráfico de curva ROC, marcamos estes pares de valores no gráfico com o 1- especificidade no eixo x e sensibilidade no eixo y (Figura 1). 15,17 A forma de uma curva ROC e a ASC auxiliam a verificar o poder discriminativo de um teste. Quanto mais perto a curva ficar localizada ao canto superior esquerdo e quanto maior a ASC ROC, melhor é o teste para discriminar entre doentes e não doentes. A ASC pode ter qualquer valor entre zero e 1, e isso é um indicador da qualidade do teste. Um teste de diagnóstico perfeito tem ASC de 1 17. Consideramos que um teste não discriminante tem uma área de 0,5. Geralmente, podemos dizer que a relação entre a ASC e a precisão do diagnóstico aplica-se, tal como descrito na Tabela 2. 7 ASC é uma medida global da acurácia diagnóstica. Ela não diz nada sobre os parâmetros do paciente, como a sensibilidade e a especificidade. Pela comparação de áreas sob as duas curvas ROC, pode-se estimar que um dos dois testes é mais adequado para distinguir a saúde da doença ou quaisquer outras duas condições de interesse. 17 Razão de chances de diagnóstico A RCD é também é uma medida global para a precisão diagnóstica, usada para gerar a estimativa do poder de discriminação de procedimentos de diagnóstico e também para a comparação de
Int J Cardiovasc Sci. 2016;29(3):218-222 221 Sensibilidade ASC = 0,9 ASC = 0,7 ASC = 0,5 0 1 1 Especificidade Figura 1 Representação da curva ROC. Tabela 2 Relação entre a área sob a curva ROC e a precisão do diagnóstico Área Precisão diagnóstica 0,9-1,0 Excelente 0,8-0,9 Muito bom 0,7-0,8 Bom 0,6-0,7 Suficiente 0,5-0,6 Ruim < 0,5 Não utilizar o teste precisões de diagnóstico entre dois ou mais testes de diagnóstico. A RCD de um ensaio é a relação das chances de positividade em pacientes com doença, em relação às probabilidades em indivíduos sem a doença [RCD = (VP/FN) / (PF/VN)]. 18 A RCD depende significativamente da sensibilidade e da especificidade de um teste. Por exemplo, em um teste com alta especificidade e com baixa sensibilidade, iremos obter uma alta RCD. Com uma mesma sensibilidade do teste, a RCD se eleva com o aumento da especificidade do teste. 18 Eficácia de diagnóstico A Eficácia de Diagnóstico (ED) é uma medida global de acurácia diagnóstica, expressa em proporção de indivíduos classificados corretamente entre todos [ED = (VP + VN/ (VP + VN + FP + FN)]. É afetada pela prevalência da doença. Com uma mesma sensibilidade e especificidade, a precisão do diagnóstico de uma determinada doença aumenta quando a prevalência da doença diminui. 15
222 Int J Cardiovasc Sci. 2016;29(3):218-222 O índice de Youden O índice de Youden é uma das medidas mais antigas para a precisão do diagnóstico. Trata-se de uma medida de desempenho do teste. É utilizado para a avaliação do poder discriminativo global de um procedimento de diagnóstico e para a comparação entre os testes de diagnóstico. O índice de Youden é calculado deduzindo 1 a partir da soma de sensibilidade e especificidade do teste e não expressa como porcentagem, mas como parte de um número inteiro: (sensibilidade + especificidade) 1. 19 Para um teste com uma má precisão do diagnóstico, índice de Youden é igual a zero, e em um teste perfeito, o índice de Youden é igual a 1. O índice de Youden não é sensível às diferenças na sensibilidade e na especificidade do teste, o que é sua principal desvantagem. O índice de Youden não é afetado pela prevalência da doença, mas pelo espectro da doença, assim como também a especificidade de sensibilidade, RV e RCD. 19 Conclusão A tomada de decisões na prática cardiovascular é muitas vezes baseada em evidências complexas, porém incompletas. As medidas de acurácia de um teste de diagnóstico representam uma ferramenta para melhorar a tomada de decisão cardiovascular e os cuidados aos pacientes. Contribuição dos autores Concepção e desenho da pesquisa: Borges LSR. Obtenção de dados: Borges LSR. Análise e interpretação dos dados: Borges LSR. Redação do manuscrito: Borges LSR. Revisão crítica do manuscrito quanto ao conteúdo intelectual importante: Borges LSR. Potencial Conflito de Interesse Declaro não haver conflito de interesses pertinentes. Fontes de Financiamento O presente estudo não teve fontes de financiamento externas. Vinculação Acadêmica Não há vinculação deste estudo a programas de pós graduação. Referências 1. Sackett DL, Haynes RB. The architecture of diagnostic research. BMJ. 2002;324(7336):539-41. 2. Knottnerus JA, van Weel C, Muris JW. Evaluation of diagnostic procedures. BMJ. 2002;324(7335):477-80. 3. Irwig L, Bossuyt P, Glasziou P, Gatsonis C, Lijmer J. Designing studies to ensure that estimates of test accuracy are transferable. BMJ 2002;324(7338):669-71. 4. Elstein AS, Schwarz A. Clinical problem solving and diagnostic decision making: selective review of the cognitive literature. BMJ. 2002;324(7339):729-32. Erratum in: BMJ. 2006;333(7575):944. 5. Winkens R, Dinant GJ. Evidence base of clinical diagnosis: rational, cost effective use of investigations in clinical practice. BMJ. 2002;324(7340):783. 6. Irwing L, Tosteson AN, Gatsonis C, Lau J, Colditz G, Chalmers TC, et al. Guidelines for meta-analyses evaluating diagnostic tests. Ann Intern Med. 1994;120(8):667-76. 7. Bruns DE. The STARD initiative and the reporting of studies of diagnostic accuracy. Clin Chem. 2003;49(1):19-20. 8. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al. The STARD statement for reporting studies of diagnostic accuracy: explanation and elaboration. Clin Chem. 2003;49(1):7-18. 9. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al; Standards for Reporting of Diagnostic Accuracy. Towards complete and accurate reporting of studies of diagnostic accuracy: The STARD Initiative. Standards for Reporting of Diagnostic Accuracy. Clin Chem. 2003;49(1):1-6. 10. Rennie D. Improving reports of studies of diagnostic tests: the STARD initiative. JAMA. 2003;289(1):89-90. 11. Guyatt G, Rennie D, Meade MO, Cook DJ. (eds.). Users guide to the medical literature: a manual for evidence-based clinical practice. 2nd ed. New York: McGraw Hill Medical; JAMA evidence; 2008. 12. Guyatt G, Rennie D, Meade MO, Cook DJ. (eds.). Users guide to the medical literature: a manual for evidence-based clinical practice. 3rd ed. New York: McGraw Hill Medical; JAMA evidence; 2014. 13. Irwig L, Bossuyt P, Glasziou P, Gatsonis C, Lijmer J. Designing studies to ensure that estimates of test accuracy are transferable. BMJ. 2002;324(7338):669-71. 14. Raslich MA. Markert RJ, Stutes SA. Selecting and interpreting diagnostic tests. Biochemia Medica. 2007;17(2):151-60. 15. Eusebi P. Diagnostic accuracy measures. Cerebrovasc Dis. 2013;36(4):267 72. 16. Deeks JJ, Altman DG. Diagnostic tests 4: likelihood ratios. BMJ. 2004;329(7458):168-9. 17. Obuchowski NA, Lieber ML, Wians FH Jr. ROC curves in clinical chemistry: uses, misuses, and possible solutions. Clin Chem. 2004;50(7):1118-25. 18. Glas AS, Lijmer JG, Prins MH, Bonsel GJ, Bossuyt PM. The diagnostic odds ratio: a single indicator of test performance. J Clin Epidemiol. 2003;56(11):1129-35. 19. Youden WJ. Index for rating diagnostic tests. Cancer. 1950;3(1):32-35.