Minicurso: Validade e confiabilidade de instrumentos de mensuração. Ludmilla Jacobson Professora Adjunta Departamento de Estatística UFF

Minicurso: Validade e confiabilidade de instrumentos de mensuração Ludmilla Jacobson Professora Adjunta Departamento de Estatística UFF

Objetivo do Minicurso Apresentar os conceitos de validade e confiabilidade, assim como as técnicas estatísticas mais adequadas a cada tipo de variável.

Medição A atribuição de números a objetos ou eventos, de acordo com regras. É o processo de ligar conceitos abstratos a indicadores empíricos

Exemplos Pressão Arterial O Sr. É Hipertenso? Conceito de Pressão Arterial Instrumento de medição o resultado ou valor observado é a variável operacional.

Exemplos Horas - Que horas são? Horário de referencia e consenso Ex. Brasília Variabilidade entre pessoas

Equação de Medição X V E Onde : V é o Valor Verdadeiro E é o erro Aleatório

Minimizar Erro Aleatório

Validade Grau em que um instrumento mede o que se propõe a medir.

Confiabilidade Se refere a quanto um instrumento de mensuração produz o mesmo resultado em repetidas tentativas.

Instrumentos de Mensuração Instrumentos de mensuração de dados são utilizados em pesquisas de diversas áreas do conhecimento. Avaliar a validade e confiabilidade destes instrumentos é essencial para evitar erros sistemáticos (viés) e conclusões incorretas para a pesquisa.

Objetivo: Evitar o Viés e minimizar o Erro Aleatório O viés representa o erro sistemático que ocorre no desenho ou mesmo durante o estudo, podendo comprometer as conclusões deste. O erro aleatório representa a diferença entre a estimativa obtida na amostra e o parâmetro real na população de referência Fonte: Ribeiro e Cardoso (2009)

Instrumentos de Mensuração Questionários Fichas para anotações de resultados laboratoriais

Instrumentos de Mensuração Estresse Percebido ISAAC Qualidade de Vida Felicidade Exemplos Motivações para Curtir, Compartilhar e/ou Publicar conteúdos políticos e sociais no Facebook

Variáveis Qualitativas Quantitativas Nominal Discreta Ordinal Contínua

Escalas de Medição Operações Possíveis Nominal Ordinal Intervalar Razão Contagem, %, moda, teste Quiquadrado, McNemar Quantis, teste Mann-Whitney, Kruskal-Wallis, correlação de Spearman Média, Variância, Test t, ANOVA, correlação de pearson Todas as anteriores, coeficiente de variação,...

Exemplos de Variáveis e suas escalas de medida Escala Nominal transformada em Escala Ordinal Escala Nominal Escala Ordinal Muito Bom 5 Bom 4 Regular 3 Ruim 2 Muito Ruim 1 Escala Intervalar: Temperatura (Celsius e Farenheit) Escala de Razão: Razão de Prevalência Risco Relativo

Escala Likert Muito usada para medir atitudes e comportamentos. Concordo plenamente Concordo parcialmente Não concordo nem discordo Discordo parcialmente Discordo totalmente

Escala Likert http://www.netquest.com/blog/br/avancos-tecnologicos-no-mundo-do-software-depesquisas/

Técnicas para Medir Validade e Confiabilidade Sensibilidade e Especificidade; Razão de Verossimilhança; Alfa de Cronbach; Coeficiente Kappa; Correlação; Bland&Altman Coeficiente de correlação intraclasse; Análise Fatorial; etc.

Validade

Validade de Conteúdo Quanto um instrumento pode refletir do fenômeno estudado. Avalia-se se os itens de um índice composto refletem um domínio específico de acordo com o constructo teórico de interesse. A validação de conteúdo fundamenta-se no respaldo de especialista em relação ao conteúdo dos índices. Modelo Teórico

Validade de Constructo Constructo é um fenômeno ou objeto não observável, subjetivo e/ou abstrato. Um método usado para a validação de constructo é a Análise Fatorial

Validade de Constructo A validade convergente e a validade discriminante são consideradas subgrupos da validade do constructo. Validade convergente comprova que os constructos esperados estão correlacionados entre si. Validade discriminante mostra que as medidas de distintos constructos, pelo mesmo método, mostram uma baixa correlação.

Validade de Constructo - Exemplo Facebook Análise Fatorial Exploratória Cargas Fatoriais - Matriz Rotacionada (VARIMAX) Variável Fator 1 Fator 2 Fator 3 Fator 4 Fator 5 q14_1 0,406 0,124 0,09 0,113 0,759 q14_2 0,795 0,198 0,096 0,182 0,103 q14_6 0,375 0,653 0,096 0,221 0,185 q14_9 0,413 0,658 0,111 0,184-0,114 q14_4 0,679 0,171 0,119 0,023 0,256 q14_11-0,121 0,005-0,049-0,912-0,072 q14_3 0,871 0,084 0,046 0,13 0,049 q14_8 0,556 0,375 0,091 0,508 0,014 q14_7 0,508 0,333 0,158 0,483 0,116 q14_10-0,003 0,876-0,009-0,092 0,126 q14_5 0,538 0,469 0,119 0,379 0,01 q6 0,382-0,095 0,614-0,04-0,413 q7 0,074 0,11 0,855 0,135-0,036 q8 0,022 0,075 0,875 0,024 0,244 Validade Convergente Correlação entre as variáveis que pertencem a um mesmo constructo

Modelo de mensuração da comunicação boca a boca no Facebook CBB Comunicação boca-a-boca BI - Benefício Interpessoal AE Autoelevação FLS Força dos laços sociais

Validade de Constructo - Exemplo Facebook Validade Discriminante A validade discriminante foi avaliada comparando a raiz quadrada da AVE com as correlações entre os constructos. A raiz quadrada da AVE em cada variável latente deve ser maior que as correlações entre as variáveis latentes. Raiz quadrada da AVE e correlações entre as variáveis latentes CBB 0,798 CBB FLS BI AE FLS 0,166 0,802 BI 0,572 0,308 0,791 AE 0,361 0,194 0,593 0,805 AVE Variância Média Extraída

Validade de Critério Avalia-se o quanto o resultado de uma medida ou teste obtido no estudo concorda com o de outro considerado como padrão-ouro para identificar o constructo de interesse. Os Métodos geralmente usados são: Sensibilidade e Especificidade Curva ROC Razão de Verossimilhança

Sensibilidade e Especificidade Tabela. Possíveis resultados de um teste diagnóstico para identificar uma doença Método Novo Doente Método Padrão-Ouro Não Doente Total Teste Positivo Verdadeiro Positivo Falso Positivo P(B) Teste Negativo Falso Negativo Verdadeiro Negativo P(B c ) Total P(A) P(A c ) 1

Sensibilidade Eventos: D: Ter Doença T + : Teste Positivo D c : Não ter Doença T - : Teste Negativo Sensibilidade: É a proporção de verdadeiros-positivos entre todos os doentes. Avalia a capacidade do teste detectar a doença quando ela está de fato presente. P( T D) P( T D) P( D)

Especificidade Eventos: D: Ter Doença T + : Teste Positivo D c : Não ter Doença T - : Teste Negativo Especificidade: É a proporção de verdadeiros-negativos entre todos os sadios. Avalia a capacidade do teste afastar a doença quando ela está ausente. c P( T D P( T D ) c P( D ) c )

Sensibilidade e Especificidade Observações: Para rastrear todos os doentes priorizar sensibilidade; (Ex. testar HIV em pessoas que vão doar sangue) Para confirmar diagnóstico priorizar especificidade; (Ex. testar se uma pessoa tem HIV, o resultado falso-positivo pode lesar o paciente emocionalmente) Um teste muito sensível raramente deixará de diagnosticar indivíduos com a doença ; Um teste muito específico raramente classificará como doente um indivíduo sem a doença.

Sensibilidade e Especificidade Exemplo: Artigo: Anemia ferropriva em escolares de Campinas, São Paulo: prevalência,sensibilidade e especificidade de testes laboratoriais.

Sensibilidade Curva ROC Quanto mais próximo do canto superior esquerdo, melhor será o poder discriminatório do teste. 1 - Especificidade

Curva ROC Exemplo: Artigo: Curva ROC para teste diagnóstico Martinez et al., 2003

Razão de Verossimilhança RV Sensibilidade Especificidade RV + Expressa quantas vezes é mais provável encontrar um resultado positivo em pessoas doentes quando comparado às pessoas não-doentes. Quanto Maior, Melhor. RV 1 1 Sensibilidade Especificidade RV - Expressa quantas vezes é mais provável encontrar um resultado negativo em pessoas doentes quando comparado com pessoas não-doentes. Quanto Menor, Melhor.

Razão de Verossimilhança Exemplo: Artigo: Anemia ferropriva em escolares de Campinas, São Paulo: prevalência,sensibilidade e especificidade de testes laboratoriais. 0,129 1 0,129 RV 1,045 RV 0, 994 1 0,877 0,877

Gráfico de Bland & Altman Um gráfico de dispersão relacionando as médias dos dois métodos (M 1 + M 2 )/2, no eixo X, com o viés (diferença entre eles), M 1 M 2, no eixo Y. A hipótese do viés ser ou não igual a zero pode ser testada por um teste t para amostras pareadas.

Gráfico de Bland & Altman É importante visualizar se os pontos estão bem distribuídos ao longo do eixo Y, pois isso vai me mostrar se o erro é maior ou menor num determinado intervalo de valores, ou se o erro é generalizado em todos os indivíduos. IDEAL é ter uma distribuição HOMOGÊNEA.

Gráfico de Bland & Altman Exemplo 1: O tempo de gestação de 50 mulheres foi estimado através da data da última menstruação (DUM) e pelo ultrassom. dum: número de semanas de gestação calculado a partir da DUM; eco_1: número de semanas de gestação calculado a partir do ultrassom obtido após a 20ª semana de gestação;

Gráfico de Bland & Altman Exemplo 1:

Gráfico de Bland & Altman Exemplo 2: Peso Autorreferido vs Peso Aferido Neste caso, mesmo com uma diferença de médias perto do zero, observa-se grande variabilidade dos dados (quase ± 8 kg); Os resultados indicam que a medida autorreferida não é um bom procedimento (é pouco preciso em relação ao peso medido)

-20-10 0 10 Resultado (INTERPRETACAO FINAL): Em média o peso autorreferido foi 0,73 kg menor (IC95% -1,34;-0,12) do que o peso medido, mas os limites de concordância de ± 2DP (ou de 95% de concordância) oscilaram entre -8,3 e +6,9 kg. 40 60 80 100 120 Mean of peso autorreferido and peso aferido observed average agreement y=0 is line of perfect average agreement 95% limits of agreement

Confiabilidade

Consistência Interna Mede a correlação entre diferentes itens em um mesmo teste na avaliação de um constructo. Exemplo de constructo : satisfação do cliente Técnica usada: Alfa de Cronbach

Alfa de Cronbach 2 1 2 1 1 t k i i S S k k K é o número de itens do questionário é a variância do item é a variância total do questionário 2 S i 2 S t

Alfa de Cronbach - Exemplo Análises 1

Alfa de Cronbach e AVE Exemplo Facebook Os instrumentos avaliados neste estudo apresentaram coeficientes do Alfa de Cronbach superiores a 0,7 em todas as dimensões e AVE maiores que 0,5, tornando-o satisfatório e com boa consistência interna. Coeficientes das variáveis latentes CBB FLS BI AE Alfa de Cronbach 0,835 0,713 0,879 0,723 AVE 0,637 0,644 0,626 0,648

Variância Média Extraída - AVE Uma medida complementar da confiabilidade Ela reflete a variância total das variáveis observadas explicada pela variável latente. Bons valores para um constructo devem ser iguais ou acima de 0,50 (Garver & Mentzer, 1999). AVE k i k i 2 i i k i 2 i i é a carga fatorial padronizada da variável i E i é o erro de mensuração da variável i.

Confiabilidade Intra-Observador Consiste na aplicação de um mesmo instrumento duas vezes em um intervalo de tempo razoável. Tem como pressuposto que as aplicações são independentes. Coeficiente de Correlação de Pearson. Coeficiente de Concordância Kappa

Confiabilidade Interobservador Dois ou mais observadores diferentes aplicam o instrumento no mesmo grupo de indivíduos. A ideia básica é comparar a concordância das medidas Métodos usados: Coeficiente de Concordância Kappa Coeficiente de Correlação intraclasse

Confiabilidade Interobservador Quando discordam, contribui: Variabilidade do observador Variabilidade entre indivíduos Erro aleatório Observador 1 Observador 2 + - Total + a b p1 - c d q1 Total p2 q2 N Sua avaliação mais simples é a proporção dos que se encontram na diagonal principal. p o a N d N

Coeficiente de Concordância Kappa Coeficiente Kappa é a proporção de concordância depois que a concordância pelo acaso é removida de consideração. k Onde: p p o 1 p e e k 0,80 : é considerado excelente. K = 0,60 0,79 : é considerado bom. K = 0,40 0,59 : é considerado regular. k 0,39 : é considerado ruim p 0 = proporção global de concordância observada p e = proporção global de concordância esperada pelo acaso

Características do Coeficiente de Pressupostos: Concordância Kappa independência entre os observados; independência entre os observadores; independência entre as categorias da escala nominal (mutuamente exclusiva); observadores são considerados igualmente competentes. Trata todas as discordâncias como idênticas, não considerando o afastamento da diagonal principal.

Coeficiente de Concordância Kappa e e o p p p k 1 Teste de Hipóteses H 0 : k= 0 H 1 : k 0 l i i i i i e e e C R n R C p p n p k s 1 3 2 2 1 1 2 ~ 1 k s k Estatística de Teste: R i é o total da linha i C i é o total da coluna i n é o total geral

Exemplo Concordância entre entrevista pessoal e informação no prontuário médico relativa ao uso de um medicamento Informação do paciente Prontuário médico Sim Não Total Sim 14 7 21 Não 25 171 196 Total 39 178 217 p o p e 14 217 39 217 171 217 0,8525 85,25% 21 217 178 217 196 217 k 0,8525 0,7583 1 0,7583 0,7583 75,83% 0,39 Retirando o efeito do acaso a confiabilidade do teste é de 39%.

Coeficiente Kappa Ponderado Usado quando a medida avaliada é mensurada em uma escala ordinal. Algumas discordâncias são mais graves que outras! Assim, no coeficiente Kappa o grau de concordância é ajustado pela gravidade dos casos discordantes, a partir do estabelecimento de pesos entre 0 (discordância total) e 1 (não tem discordância). Os pesos são arbitrários.

Coeficiente Kappa Ponderado Exemplo de Tabela de Pesos Nível Nível 1º 2º 3º 4º 1º 1 0,667 0,333 0,000 2º 0,667 1 0,667 0,333 3º 0,333 0,667 1 0,667 4º 0,000 0,333 0,667 1

Coeficiente de Correlação Intraclasse ICC Uma alternativa ao Kappa quando há mais de dois avaliadores e opções de resposta. Varia entre 0 e 1. Quanto mais próximo de 1, mais confiável. Proporção da variabilidade total que é devida à variabilidade entre as unidades. ICC 2 e 2 e 2 d 2 e 2 d é a variabilidade entre unidades é a variabilidade intra unidades. Intraclass Correlation Coefficient

Coeficiente de Correlação Intraclasse ICC Ultrassonografia Indivíduos Clínica 1 Clínica 2 Clínica 3 1 2 3 4 5 6 7

Coeficiente de Correlação Intraclasse OBS: Quando há apenas duas mensurações para cada unidade de análise, o ICC é interpretado como o Grau de afastamento dos pontos em relação à reta de 45º (Y=X)

Exemplos Artigo 1: Confiabilidade das aferições de estudo sobre violência familiar e desnutrição severa na Infância. Artigo 2: Reprodutibilidade de instrumentos utilizados em um levantamento epidemiológico conduzido para investigar uso e avaliação dos serviços odontológicos, comportamentos e condições subjetivas de saúde

Bibliotecas no R install.packages("icc") install.packages("psy") install.packages("blandaltmanleh") Comandos

Referencias Monteiro GTR, Hora HRM. Pesquisa em Saúde Pública. Como desenvolver e validar Instrumentos de Coleta de Dados. http://support.minitab.com/pt-br/minitab/17/topiclibrary/modeling-statistics/multivariate/item-and-clusteranalyses/what-is-internal-consistency/ Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics HASSEKMANN Maria Helena, Claudia S. Lopes e Michael E. Reichenheim Confiabilidade das aferições de estudo violência familiar e desnutrição severa na Infância. Rev. Saúde Pública 32 (5), 1998.