Associação entre variáveis categóricas e IC95% Andréa Homsi Dâmaso Programa de pós-graduação em Epidemiologia UFPEL Biotecnologia: Bioestatística e Delineamento Experimental
Aula de hoje Teste do qui-quadrado Teste exato de Fisher Intervalo de Confiança de 95%
Nas aulas anteriores... Tipos de variáveis Qualitativas/categóricas Quantitativas/numéricas Estatística descritiva Distribuição de frequências - proporções Medidas de tendência central ou posição - médias Estatística analítica Testes estatísticos para comparação de dados
Estatística analítica Testa formalmente diferenças, isto é, compara grupos Testes estatísticos
Teste de hipótese Comparar grupos H 0 : hipótese nula (da igualdade) µ1 = µ2 H 1 : hipótese alternativa µ1 µ2 µ1 > µ2 µ1 < µ2
Teste de hipóteses Comparação de proporções Dados qualitativos Dados quantitativos Comparação de médias Taxa de clivagem em embriões Expressão gênica
Teste de hipóteses para médias 1. Duas médias ou dois grupos Teste z Teste t 2. Três ou mais médias Análise de variância (ANOVA)
Teste de hipóteses para proporções 1. Tabelas 2x2 Teste do qui-quadrado Teste exato de Fisher 2. Tabelas 2xk Teste do qui-quadrado Teste exato de Fisher Teste de tendência linear
Tabelas 2 2
Tabela 2 x 2 Associação entre 2 variáveis categóricas Comparar a ocorrência de uma variável binária (desfecho) entre as categorias de outra variável binária (exposição) Na tabela vai haver apenas 2 linhas e 2 colunas com dados As linhas e colunas correspondem às categorias de cada variável
Tabela 2 x 2 As linhas podem corresponder à exposição e as colunas ao desfecho, ou vice-versa Nem todos fazem da mesma forma... O importante é que os % demonstrados sejam da variável de exposição, isto é, que o 100% some no total das categorias da exposição
Exemplo de Tabela 2 2 Desfecho = chiado no peito (s/n) linha Exposição = mama no peito aos 12 meses (s/n) coluna
Teste do qui-quadrado Permite examinar se existe associação entre a variável da linha e a da coluna No caso das tabelas 2x2 o teste do qui-quadrado corresponde ao teste z para diferença de proporções
Exemplo: qui-quadrado em tabela 2x2 Estudo realizado durante uma epidemia de influenza INFLUENZA TOTAL SIM NÃO VACINA 20 (8,3%) 220 (91,7%) 240 PLACEBO 80 (36,4%) 140 (63,6%) 220 TOTAL 100 (21,7%) 360 (78,3%) 460
Perguntas: Quantos indivíduos contraíram influenza? 100 Quantos indivíduos foram vacinados? 240 INFLUENZA SIM VACINA 20 (8,3%) PLACEBO 80 (36,4%) TOTAL 100 (21,7%) NÃO 220 (91,7%) 140 (63,6%) 360 (78,3%) TOTAL 240 220 460
Perguntas: Que percentagem de indivíduos contraíram influenza dentre os vacinados? 20/240 * 100 = 8,3% Que percentagem de indivíduos contraíram influenza dentre os que receberam placebo? 80/220 * 100= 36,4% INFLUENZA TOTAL SIM VACINA 20 (8,3%) PLACEBO 80 (36,4%) TOTAL 100 (21,7%) NÃO 220 (91,7%) 140 (63,6%) 360 (78,3%) 240 220 460
Perguntas: O fato de vacinar, afeta a probabilidade dos indivíduos de contrair influenza? Aparentemente sim, mas é preciso testar estatisticamente para ver a probabilidade de as diferenças encontradas terem ocorrido ao acaso INFLUENZA SIM VACINA 20 (8,3%) PLACEBO 80 (36,4%) TOTAL 100 (21,7%) NÃO 220 (91,7%) 140 (63,6%) 360 (78,3%) TOTAL 240 220 460
Testar uma associação Teste de qui-quadrado ( 2 ) compara os valores observados em cada uma das 4 categorias da tabela 2 x 2 com os valores esperados se não existisse nenhuma diferença entre receber vacina ou placebo
Teste do qui-quadrado O valor esperado para a é: vacina influenza + + a b n 1 c d n 2 m 1 m 2 N a 1 1 n 1 m N a m1n N
Teste de qui-quadrado Globalmente 100/460 (0,22) contraíram influenza Se a vacina e placebo são igualmente efetivos, esperaríamos essa mesma proporção entre vacinados = 0,21739... * 240=52,2 placebo = 0,21739... * 220=47,8 INFLUENZA TOTAL SIM VACINA 20 (8,3%) PLACEBO 80 (36,4%) TOTAL 100 (21,7%) NÃO 220 (91,7%) 140 (63,6%) 360 (78,3%) 240 220 460
Teste qui-quadrado Valores esperados INFLUENZA TOTAL SIM NÃO VACINA 52,2 187,8 240 PLACEBO 47,8 172,2 220 TOTAL 100 360 460
Obtenção do valor do qui-quadrado (observados esperados )² / esperados...isso para cada uma das 4 caselas da tabela O E 2 E 2 ~ 2 1gl Quanto maior a diferença entre valores observados e esperados, maior o valor de 2
Aplicando o teste do ² Para o teste ser válido: Valor esperado (E) 5 em todas as caselas Fórmula para cálculo na mão: ( ad bc n n m m 2 2 ) 1 2 1 2 N vacina influenza + + a b n 1 c d n 2 m 1 m 2 N
Aplicando o teste do ² Fórmula para cálculo na mão: 2 valor 2 (20 *140 80 * 220) 460 100 * 360 * 240 * 220 de p 0,001 doença 53,01; d.f. exposição + + 20 220 240 80 140 220 100 360 460 1
Aplicando o teste do ² Valor encontrado do ² = 53,09 Procurar a correspondência com valor-p na tabela de distribuição ² Para isso é necessário conhecer o nº de graus de liberdade
Graus de liberdade É um estimador do número de categorias independentes num teste particular ou experiência estatística Também definido como o nº de possibilidade de combinações ao acaso (Linhas 1) x (Colunas 1) Tabela 2x2: (2-1)x(2-1) = 1 grau de liberdade
Observando a tabela do ² Observando a tabela do ²: O valor calculado (53,09) é maior que o maior valor da primeira linha da tabela correspondente a 1G.L. (10,83) 10,83 é o ponto de probabilidade = 0,1% na distribuição ² com 1 G.L., logo, o valor-p para o teste é < 0,001
Conclusão do teste do ² Em nosso exemplo valor-p < 0,001 Existe uma probabilidade muito pequena de que a diferença entre os % de influenza encontrados no grupo de vacinados e no grupo de placebo possa ter sido obtida ao acaso (< 0,1%) Se rejeita a H o Se aceita a H 1 (a vacina é efetiva)
Validade do teste Se os números esperados são muito pequenos ou se o total geral da tabela <20 Teste exato O ² é válido quando N total > 40, independente dos valores esperados N total entre 20 e 40, sendo todos os valores esperados > 4
Teste exato de Fisher Se a aproximação pela ² não é boa Teste exato Usado quando os valores esperados são muito pequenos N total da tabela < 20, ou N total entre 20 e 40 e o menor dos 4 valores esperados é <5
Testes na prática Hoje o cálculo do teste exato é muito rápido Conclusão: Aplicar sempre o teste exato na análise de tabelas 2 x 2
Exemplo: ensaio clínico Testar um novo antibiótico para tratamento de meningite meningocócica Pacientes aleatorizados para atb novo ou tradicional Registro se o paciente morre ou não Morte Tratamento Novo Trad S a b n 1 N c d n 2 m 1 m 2 N
Teste do ² ou exato de Fisher? Pearson chi2(1) = 4,02 P = 0,0435 Fisher's exact P = 0,0964 Mortos Vivem Total ATB novo 0 10 10 ATB habitual 4 8 12 Total 4 18 22
Teste do ² ou exato de Fisher? Pearson chi2(1) = 5,3 P = 0,021 Fisher's exact P = 0,024 Mortos Vivem Total ATB novo 650 350 1000 ATB habitual 600 400 1000 Total 1250 750 2000
Outro exemplo: BPN Será que a proporção de BPN é a mesma nos dois sexos? Sexo BPN normais Total Meninos 50 450 500 Meninas 40 460 500 Total 90 910 1000 p1 = 50/500=0,10=10% p2 = 40/500 = 0,08=8%
Outro exemplo: BPN Hipóteses Ho: a proporção de BPN é a mesma nos dois sexos (hipótese de independência ou não associação) H 1 : a proporção de BPN não é a mesma nos dois sexos (hipótese de dependência ou associação)
Outro exemplo: BPN Comparar as frequências observadas com as frequências esperadas (E) sob a hipótese de nulidade Ho Sexo BPN normais Total Meninos 50 (45) 450 (455) 500 Meninas 40 (45) 460 (455) 500 Total 90 910 1000
Outro exemplo: BPN Será que as diferenças são suficientemente grandes para que se possa rejeitar a hipótese Ho? Calcular ² a partir da amostra: ² = 0,989 valor-p = 32% (> 5%) Não rejeitar H0 não existe associação entre sexo e BPN
Exemplo: tabela de resultados Tabela Prevalência de baixo peso ao nascer (BPN) conforme sexo, Pelotas 2004. Característica N BPN (%) Total N Valor-p 1 Sexo 0,3 masculino 50 10 500 feminino 40 8 500 1 teste exato de Fisher
Tabelas 2 k Teste
Tabelas 2 k Consideramos um desfecho dicotômico e outra variável com 3 ou + (k) categorias Se as k categorias não são ordenadas testa-se associação usando ² geral Nº G.L. = (Linhas 1) x (Colunas 1) Ex: 7 linhas e 2 colunas = (7-1) x (2-1) = 6
Exemplo Tabela Uso de preservativo entre escolares, de acordo com religião Exposição Religião Não usa O (E) Usa O (E) Total Nenhuma 44 (52) 345 (337) 389 Católica 145 (149) 969 (965) 1114 Espírita 21 (25) 164 (160) 185 Protestante 44 (30) 182 (196) 226 Afro-brasileira 4 (6) 44 (42) 48 Evangélica 7 (3) 13 (17) 20 Outras 2 (2) 10 (10) 12 Total 267 1727 1994 Pearson ²(6) = 18,7; p = 0,005
Pearson ²(6) = 18,7; p = 0,005
Exemplo Tabela Uso de preservativo entre escolares, de acordo com religião Exposição Não usa Total Valor-p 1 N (%) Religião 0,005 Nenhuma 44 (11) 389 Católica 145 (13) 1114 Espírita 21 (11) 185 Protestante 44 (19) 226 Afro-brasileira 4 (8) 48 Evangélica 7 (35) 20 Outras 2 (17) 12 Total 267 1994 1 teste de Pearson
Tabelas 2 k: categorias ordenadas Teste de tendência linear Além de avaliar associação Avaliar se há uma tendência de aumento ou diminuição Método de análise mais poderoso
Exemplo Tabela Distribuição do no. de filhos nas famílias, de acordo com classe social Exposição N filhos<5 N (%) N filhos 5 N (%) Total Classe social Alta 88 (92) 8 (8) 96 Média alta 113 (91) 11 (9) 124 Média baixa 87 (84) 16 (16) 103 Baixa 85 (83) 18 (17) 103 Total 373 53 426 Pearson ²(3) = 6,24; p = 0,10 Tendência linear z = 2,36; p = 0,02
Idade x uso de medicamentos 100% 90% 80% 70% 60% 50% 40% Homens Mulheres 30% 20% 10% 0% 20 a 29 30 a 39 40 a 49 50 a 59 60 a 69 70 ou + P < 0,001 para ambos os sexos (teste para tendência linear)
Intervalo de Confiança Medida de precisão das estimativas
Intervalo de Confiança Intervalo de valores que contém o parâmetro de interesse Valores dentro dos quais existe uma certa probabilidade de estar incluída a real média da população x 1, 96 s n
Intervalo de confiança Intervalo que contém o parâmetro de interesse ( ) com alto grau de certeza Intervalo de confiança de 95%: P ( IC ) 95% IC 95% : média 1,96 x ep, média + 1,96 x ep baseado na distribuição normal
Intervalo de confiança de 95% Intervalo de confiança µ ± 1.96 erro padrão e.p. = s / n 95% das amostras 3100 3200 3300
Exemplos Peso ao Nascer Total Sum Mean Variance Std Dev Std Err 449 1420145 3162.906 245887.125 495.870 23.402 Minimum 25%ile Median 75%ile Maximum Mode 900.000 2900.000 3210.000 3475.000 4640.000 3280.000 Cálculo do IC95%: IC 95% = 3162,9 (1,96 x 23,4) e 3162,9 + (1,96 x 23,4) IC 95% = 3117,036 3208,764 Interpretação: Existe 95% de chance que o valor de 3162,9g encontrado como média da amostra encontra-se entre os valores do IC que varia de 3117,0 a 3208,8g
Intervalo de confiança Hypertriglyceridemic Waist Phenotype P-value No HDL cholesterol 55.6 (55.2; 56.1) 49.0 (47.3; 50.6) < 0.001 Non-fasting blood glucose Mean blood pressure Log c-reactive protein Yes 97.2 (96.7; 97.7) 101.6 (99.6; 103.6) < 0.001 87.8 (87.4; 88.2) 97.9 (96.2; 99.5) < 0.001-0.037 (-0.100; 0.025) 1.001 (0.840; 1.163) < 0.001 Total 3459 192