HEP0138 BIOESTATÍSTICA Capítulo 5 ANÁLISE BIVARIADA. TESTE QUI-QUADRADO. CORRELAÇÃO DE PEARSON. MEDIDA DE RISCO RELATIVO. Profa. Nilza Nunes da Silva Dra. Regina T. I. Bernal Setembro de 2012
2 1. ANÁLISE BIVARIADA Este capítulo trata da análise descritiva de distribuições bivariadas, sendo ambas variáveis quantitativas ou qualitativas. O objetivo é estudar a variação conjunta das duas variáveis. Ou seja, se a distribuição de uma variável está associada à outra distribuição. Não se trata de estudos de causalidade. DUAS VARIAVEIS QUANTITATIVAS (DISCRETAS OU CONTINUAS) Examinaremos inicialmente a relação linear entre duas variáveis quantitativas, sejam discretas ou contínuas. Observe os diagramas de dispersão abaixo, no qual foram localizados notas de avaliação. Veja como o professor (EIXO X) e os alunos EIXO Y) discordam quanto ao aproveitamento do curso no primeiro, enquanto no segundo parece haver concordância perfeita. I. Correlação Correlação indica a força e a direção do relacionamento linear entre duas VARIÁVEIS QUANTITATIVAS. No uso estatístico geral, correlação se refere à medida da relação entre duas variáveis, embora correlação não implique causalidade. Nesse sentido geral, existem vários coeficientes medindo o grau de correlação, adaptados à natureza dos dados. A medida de correlação mais usada é o coeficiente de correlação linear de Pearson, calculado pela razão da covariância de duas variáveis pelo produto de seus desvios padrão. Apesar do nome, foi apresentada inicialmente por Francis Galton, em meados do século XVII.
3 Coeficiente de correlação de Pearson, em geral é expresso por R ou a letra grega ( ) roh. R= COV X, Y onde COV(X,Y) = DP( X ). DP( Y ) N i ( X i X).( Yi Y ) N quando os N pares de observação estão desagrupados. Ou COV(X,Y) =, f ). i ( X i X).( Yi Y). f N quando os pares estão agrupados em freqüências ( Precisamos apenas aprender a calcular a covariância entre X e Y para os dois casos em estudo. Veja o cálculo na tabela a seguir. E confirme a correlação : no primeiro gráfico = 0 e no segundo igual a 1. Note que a covariância mede a dispersão conjunta das duas variáveis, enquanto o coeficiente de correlação quantifica essa dispersão em função das dispersões isoladas das duas variáveis.
4 Tabela 1 dados do diagrama 1 X (X-Media) Y (Y - Media ) (X-Media)x(Y-Media) 0-5 2-3 15 0-5 4-1 5 0-5 6 1-5 0-5 8 3-15 2-3 2-3 9 2-3 4-1 3 2-3 6 1-3 2-3 8 3-9 4-1 2-3 3 4-1 4-1 1 4-1 6 1-1 4-1 8 3-3 6 1 2-3 -3 6 1 4-1 -1 6 1 6 1 1 6 1 8 3 3 8 3 2-3 -9 8 3 4-1 -3 8 3 6 1 3 8 3 8 3 9 10 5 2-3 -15 10 5 4-1 -5 10 5 6 1 5 10 5 8 3 15 Então R = ( 0 / 3,49. 2,28 ) = 0 soma = 0
5 Tabela 2 dados do diagrama 2 X X-media Y Y-media (X-media)*(Y-media) 2-4 2-4 16 2-4 2-4 16 2-4 2-4 16 2-4 2-4 16 4-2 4-2 4 4-2 4-2 4 4-2 4-2 4 4-2 4-2 4 6 0 6 0 0 6 0 6 0 0 6 0 6 0 0 6 0 6 0 0 8 2 8 2 4 8 2 8 2 4 8 2 8 2 4 8 2 8 2 4 10 4 10 4 16 10 4 10 4 16 10 4 10 4 16 10 4 10 4 16 Soma 160 Covariância = 160/19 = 8,41 R = 8,41/(2,9 x 2,9) = 8,41 / 8,41 = 1 Correlação.negativa perfeita -1 ------------0------------- +1 correlação positiva perfeita ausência de correlação
6 Interpretação dos resultados Vemos na tabela abaixo que apenas os 3 primeiros resultados não incluem duvidas. Entretanto, nas demais situações o quadrado do valor de R informa a quantidade de variação conjunta para as duas variáveis. Pode-se usar esses valores como critério de decisão. R R 2 Variação conjunta % - 1 Correlação 1 100 negativa perfeita 0 Independência 0 nenhuma 1 Correlação 100 perfeita positiva 1 0,9???? 0,81 81 0,8 0,64 64 0,7 0,49 49 0,5???? 0,25 25 0,6 0,36 36 0,3???? 0,09 9 OBSERVAÇÃO : Em qualquer caso, lembre que esse coeficiente refere-se apenas à correlação linear...
7 Variáveis qualitativas Tabelas de contingência Distribuições de frequências bivariadas para variáveis qualitativas são apresentadas em tabelas de contingência, que facilitam a analise estatística da possível relação entre duas características observadas em determinada população. O tipo de tabela mais freqüente nos estudos epidemiológicos são as de 4 caselas ou celas, nas quais as freqüências são resultantes de contagem segundo duas variáveis de classificação. 1- DELIMITANDO A QUESTÃO (um exemplo) Seja a intenção de uma pesquisa verificar a possibilidade de a ocorrência de rubéola no primeiro trimestre de gestação introduzir diferença na prevalência de má formação congênita.. Ou seja, em uma amostra de 104 recém-nascidos (ESTUDO TRANSVERSAL) supõe-se que a OCORRÊNCIA DE ANOMALIAS congênitas esteja associada à ocorrência de rubéola no primeiro trimestre da gestação. TABELA 1 Recém-nascidos segundo periodo da gestação em que ocorreu a rubeola por presença de anomalia. PERIODO DA GESTAÇÃO RN COM ANOMALIA?? TOTAL MESES SIM NÃO < 3 14 36 50 => 3 3 51 54 TOTAL 17 87 104 A tabela 1 reune resultados verídicos observados simultaneamente em 104 recém-nascidos e suas mães. Note que no total de RN observados, a porcentagem com anomalia ( 17/104 ) é igual a 16,35 %, enquanto entre os RN com ocorrência de rubéola no primeiro trimestre de gestação essa porcentagem é igual a (14/50) a 28%. Ou seja, a ocorrencia de rubéola no primeiro trimestre de gestação parece diferente da ocorrência de anomalias na formação do feto.
8 2 - Imaginando um modelo geral para a tabela de contingência com apenas o total de RN ( 104 ) e OS TOTAIS das MARGINAIS FIXOS (50, 54, 17 e 87 ). PRESSUPOSTO ----- INDEPENDENCIA entre presença da rubéola e anomalias Supomos que a ocorrência de anomalias na formação do feto não se altera segundo o período da gestação em que ocorreu a rubéola entre as gestantes. A) Podemos, TEORICAMENTE, esperar que a prevalência de anomalias verificada entre os 104 RN (16,35% ) seja igual para os dois grupos. B) Passamos a trabalhar sob esse pressuposto, e calcularemos as frequencias teóricas ou esperadas das tabelas 2, 3 e 4. Tabela 3 Freqüências esperadas. (totais fixos são os mesmos da tabela 1) PERIODO DA GESTAÇÃO RN COM ANOMALIA?? TOTAL MESES SIM NÃO <= 3.a b 50 > 3.b d 54 TOTAL 17 87 104 Tabela 4 calcular freqüências esperadas Pressuposto : AS PREVALENCIA DE ANOMALIA ENTRE RN SÃO IGUAIS PARA OS ESTRATOS COM E SEM ANOMALIAS. Então ( a/50 = 17/104 )...logo a = 50. 17 / 104 = 8,17 PERIODO DA GESTAÇÃO RN COM ANOMALIA?? TOTAL MESES SIM NÃO <= 3 8,17 b 50 => 3.c d 54 TOTAL 17 87 104
9 Por diferença, calculam-se as demais freqüências. Tabela 5 Freqüências esperadas (2linhas x 2 colunas\) PERIODO COM ANOMALIA TOTAL SIM NÃO <3MESES 8,17 50-8,17=41,83 50 =>3MESES 17-8,17 54-8,83=45,17 54 TOTAL 17 87 104 note decorrencia do pressuposto...prevalencias de anomalia SÃO APROXIMADAMENTE IGUAIS PARA : EXPOSTOS ( 8,17 / 50), não EXPOSTOS ( 8,17/54) e total ( 17/104 ). 3 MEDIDA DE ASSOCIAÇÃO Calculando as diferenças entre as frequencias observadas e esperadas sob o pressuposto de independência entre as variáveis, calcula-se o quiquadrado de Pearson. Que, pela expressão abaixo apresentada, é a soma das razoes dessas diferenças pela correspondente freqüência esperada. 2 ( o e) 2 onde : e i (o)...corresponde à freqüência observada de cada cela ( i ). (e)... corresponde à frequencia esperada. Tabela 5 procedimento para calculo do qui-quadrado Freq esperadas (E) (O-E) (O-E) 2 (O-E) 2 /E Cela Freq observadas(o).a 14 8,17 14-8,17 =5,83 33,98 4,16.b 3 8,83 3-8,83 = -5,83 33,98 3,85.c 36 41,83 36-41,83 =-5,83 33,98 0,81.d 51 45,17 51-45,17 =5,83 33,98 0,75 SOMA 9,57 2 = 9,57. Esse valor será atribuído ao qui-quadrado para uma tabela com quatro caselas (freqüências). Como ELE é maior que 3,84, confirmamos a intenção inicial. ANOMALIAS NA FORMAÇÃO DO FETO PARECE ASSOCIADA Á OCORRENCIA DE RUBEOLA NO PRIMEIRO TRIMESTRE DE GESTAÇÃO.
10 >>> Interpretação final: Os dados observados evidenciam que a ocorrência de anomalias em recém-nascidos está associada à ocorrência de rubéola no primeiro trimestre de gestação de suas mães. OBSERVAÇÕES : >>>Se valor do qui-quadrado fosse igual ou menor a 3,84 não estaria confirmada a intenção inicial. E poderíamos declarar que as variáveis são independentes... >>>Note que cada freqüência (a, b, c, d) podem ser calculadas pelos produtos das respectivos totais marginais dividido pelo total geral (N). a = (50x17)/104 PERIODO DA GESTAÇÃO RN COM ANOMALIA?? TOTAL MESES SIM NÃO <= 3.a=(50x17)/104.b=(50x87)/104 50 => 3.c=(50x17)/104.d=(54x87)/104 54 TOTAL 17 87 104 >>>O qui-quadrado pode ser calculado para tabelas com mais de 4 caselas...graus de Liberdade é calculado por (r-1) x (s-1) onde (r e s ) são,respectivamente, o numero de linhas e colunas da tabela. >>>Para 20<= (n) < 40 n as freqüências esperadas não podem ser inferiores a 5. >>>Se n < 20, não usar o qui-quadrado.
11 MEDIDAS DE RISCO Em analises epidemiológicas interessa medir a magnitude do risco de exposição. Ou seja, a razão da prevalência de anomalias entre expostos e não expostos. RR = {(14 / 50 ) : (3 / 54 )} = 0,28 / 0,0556 = 6,035 O risco de ma formação de fetos é 6 vezes maior para gestantes acometidas por rubéola no primeiro trimestre de gestação. Pode ser usado ainda o odds ratio que estima o risco relativo em tabelas de 4 casas pela razão simples OR = [ (a.x d ) / ( b x c ) ]. No exemplo OR = (14 x 51 ) / ( 3 / 36 ) = 714/108 = 6,61. Usaremos o aplicativo OPEN EPI para cálculo do quiquadrado e do RR ou OR.
12 Exercícios Use os dados do arquivo_pesq_medicamentos_curso_v1.xls e calcule: 1) Há associação entre escolaridade e b3a? 2) Há associação entre escolaridade e b3c? 3) Há associação entre idade e b3c? 4) Calcule a correlação de Pearson entre a renda e a escolaridade. Faça o gráfico de dispersão.