9. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada Quiquadrado de Pearson: mede a associação de tabelas de dupla entrada, sendo definida por: c (e e ij n ij ij ), em que é o número de linhas e c o número de colunas da tabela. O termo n ij na expressão representa as frequências observadas da tabela e e ij as frequências esperadas na condição de independência entre as categorias. Exemplo 1: A tabela abaixo representa um levantamento a respeito do tipo de lesão sofrido na cabeça, por motociclistas, em relação do uso do capacete. a) Encontre as porcentagens do tipo de lesão em função do uso do capacete. b) Você diria que existe associação entre o uso do capacete e a gravidade da lesão na cabeça de motociclistas? Tipo de lesão Uso do capacete Sim Não Marginal das linhas Grave 15 37 Leve 45 18 63 Marginal das colunas 60 40 100
Tabela Uso do capacete x Tipo de lesão e perfil coluna. Tipo de lesão Uso do capacete Uso do capacete % Sim Não Sim Não Grave 15 5.0 55.0 Leve 45 18 75.0 45.0 Total 60 40 100.0 100.0 Figura 1: Perfil coluna, representação gráfica. Notas: i) A tabela para Uso do Capacete x Tipo de lesão é do tipo x, logo = colunas e c = linhas; ii) As frequências observadas em cada casela (cruzamento das linhas e colunas) são: n 11 = 15; n 1 = ; n 1 = 45 e n = 18. O total geral é, então: n = 100 iii) As frequências esperadas na situação de independência são calculadas pelo produto das distribuições marginais das linhas e colunas, dividido pelo total geral n. Desta forma:
e 11 e 1 60 37 40 37. e 1 14. 8 100 100 60 63 40 63 37.8 e 5. 100 100 iv) Tabela com os valores esperados (as marginais das linhas e das colunas não sofrem alteração): Tabela com valores esperados na situação de independência. Tipo de lesão Uso do capacete Marginal das Sim Não linhas Grave, 14,8 37 Leve 37,8 5, 63 Marginal das colunas 60 40 100 O cálculo do de Pearson é dado por: (, 15), (14,8 ) 14,8 (37,8 45) 37,8 (5, 18) 5,,34 3,50 1,37,06 9,7 O de Pearson deve ser comparado com um valor tabelado, que depende do número de linhas e colunas da tabela (que é o número de graus de liberdade).
O número de graus de liberdade se uma tabela é dado pelo número de linhas menos um multiplicado pelo número de colunas menos um, isto é: gl ( 1) ( c 1) Para uma tabela x, o número de graus de liberdade é igual a gl ( 1) ( 1) 1. Para uma tabela x, o número de graus de liberdade é 1 e o valor de comparação 1 é igual a 3.84. Portanto, o valor de 9,7, obtido pelo cálculo do de Pearson, é maior do que o valor de comparação 3,84, indicando que há uma relação entre o uso do capacete e a gravidade da lesão na cabeça. O de Pearson varia de 0 a n, sendo n o número total de casos da tabela de contingência. O valor n indica a associação perfeita e o valor 0 a falta total de associação, ou seja, de independência. Portanto, valores altos de indicam associação entre as categorias da tabela e, quanto maior o valor de, mais forte será essa associação. Entretanto, como depende do valor de n, e também do número de linhas e colunas da tabela, essa dependência pode afetar a interpretação. Nesse sentido outras medidas são propostas na literatura. Assim sendo, serão introduzidas as medidas a seguir, que quantificam do grau da associação. 1 O valor de comparação para tabelas de dupla entrada depende de elementos da teoria das probabilidades e da inferência estatística e não serão abordados aqui. O valor de comparação, quando necessário, será fornecido juntamente com o problema.
9.1. Medidas do grau da associação baseadas no a) Coeficiente :. n O coeficiente varia de 0 a 1, sendo que o valor 0 corresponde a ausência de associação e o valor 1 representa associação completa. Este coeficiente só pode ser aplicado para tabelas. b) Coeficiente V de Cramér : forma corrigida de, dividindo o coeficiente por ( t 1) V, t = min(l, c). n( t 1) V também varia de 0 a 1, tendo a mesma interpretação de ; O coeficiente V de Cramér tem a vantagem de poder ser usado em tabelas de dimensão maior do que. Para tabelas, e V são iguais. c) Coeficiente de Contingência: C. n O coeficiente C não alcança o valor 1, sendo usualmente apresentado na sua forma ajustada para que possa alcançar o máximo 1.
C t t 1 ( t t 1)( * C n), t = min(l, c). Critérios de classificação para os coeficientes e C (ou C*) não são muito comuns de serem encontrados. As maiorias dos autores citam apenas que valores próximos de 0 representam associação fraca ou nenhuma e quanto mais próximo de 1, mais forte é a associação, porém, a escala desses coeficientes não é linear, interferindo na interpretação. A seguir são apresentadas diversas classificações para os coeficientes acima: i) Barbetta (001), pag 61, apresenta a seguinte classificação para o coeficiente de contingência. C* 0 associação fraca C* 0,5 associação moderada C* 1 associação forte ii) Witte & Witte, pag 375, indicam uma classificação para o coeficiente V. V 0,01 (V 0,1) associação fraca V 0,09 (V 0,3) associação moderada V 0,5 (V 0,5) associação forte Na internet, diversos sites também indicam classificações diferentes para tais o coeficiente de contingência.
De http://www.acastat.com/statbook/chisqassoc.htm 0 a 0,1 associação fraca ou nenhuma 0,1 a 0,3 associação baixa 0,3 a 0,5 associação moderada 0,5 associação forte De http://www.statisticssolutions.com/resources/directoryof-statistical-analyses/nominal-variable-association (1) 0,1 associação fraca 0,1 a 0,3 associação moderada 0,3 associação forte (1) segundo o site, essa classificação é dada como regra geral para a interpretação de todas as medidas de associação. Apesar da dificuldade em se encontrar uma classificação mais objetiva, podemos notar que praticamente todas as classificações acima indicam o valor 0.3 para associação moderada. Desta forma, tomando esse valor como referência, vamos adotar a classificação do site: www.acastat.com/statbook/chisqassoc.htm por ser o que mais discrimina.
Exemplo 1: Com os dados do uso do capacete, temos t = min(, ) =, logo 9,7 C * ( 1)(9,7 100) 0,41 O valor C * 0, 41 indica uma associação moderada. Ainda: Coeficiente : 9,7 100 0, 304, Coeficiente V de Cramér: 9,7 V 0,304 associação moderada. ( 1) 100
Exemplo : Dados de grau de instrução por região de procedência de funcionários de uma empresa (livro Bussab & Morettin). Procedência Grau de instrução Totais 1º. grau º. grau superior Linhas Capital 6 7 15 Interior 3 7 1 Outro estado 3 4 9 Totais Colunas 1 18 6 Frequências esperadas na condição de independência: e 11 e 1 e 31 1 15 18 15 615 5,0 e 1 7, 5 e 13, 5 1 1 18 1 61 4,0 e 6, 0 e 3, 0 1 9 18 9 69 3,0 e 3 4, 5 e 33 1, 5 Tabela com os valores esperados na condição de independência: Procedência Grau de instrução Totais 1º. grau º. grau superior Linhas Capital 5,0 7,5,5 15 Interior 4,0 6,0,0 1 Outro estado 3,0 4,5 1,5 9 Totais Colunas 1 18 6
Cálculo do de Pearson: (5,0 6) 5,0 (7,5 7) 7,5 (,5 ),5 (4,0 3) 4,0 (6,0 7) 6,0 (,0 ),0 (3,0 3) 3,0 (4,5 4) 4,5 (1,5 ) 1,5 0,00 0,033 0,100 0,50 0,167 0 0 0,056 0,167 0,97 Número de graus de liberdade para uma tabela 3x3: gl ( 31) (3 1) 4. Com 4 graus de liberdade o valor de comparação é 9,49. Como o de Pearson, igual a 0.97, é muito pequeno em relação ao valor de comparação, não há evidência de associação entre o grau de instrução e a região de procedência dos empregados, isto é, o grau de instrução independe da região de procedência (e vice-e-versa). Neste caso, não é necessário calcular o coeficiente de contingência, porém, vamos realizar os cálculos apenas como curiosidade: t = min( 3, 3 ) = 3
3 0,97 C * 0,199 (3 1)(0,97 ) O valor C * 0, 199 indica uma associação fraca. Ainda: Coeficiente : 0,97 0, 164, Coeficiente V de Cramér: 0,97 V 0,116 associação fraca.
Exemplo 3: No tratamento para dor abdominal um grupo de 63 paciente foi tratado com brometo de pinavério, vezes ao dia. Um segundo grupo de 91 pacientes (grupo controle) recebeu placebo no lugar do medicamento. O resultado do tratamento é apresentado na tabela abaixo. Tabela Tratamento com brometo de pinavério Eliminação da dor Eliminação da dor Grupo Tratamento Controle Total Sim 57 61 118 Não 6 30 Total 63 91 154 Tabela Tratamento com brometo de pinavério Eliminação da dor (%) Grupo Eliminação da dor Total Tratamento Controle Sim 90,5 67,0 76,6 Não 9,5 33,0 3,4 Total 100 100 100
Valores esperados na condição de independência: e 11 e 1 63118 19 118 48,3 e 1 69, 7 154 154 63 91 14,7 e 1, 3 154 154 Valor de Pearson: (48,3-57) 48,3 (69,7-61) 69,7 (14,7-6) 14,7 (1,3-30) 1,3 1,57 1,09 5,15 3,55 11, O de Pearson é grande indicando que pode haver uma associação entre as categorias. Número de graus de liberdade: gl = ( 1) ( 1) = 1 Com 1 grau de liberdade o valor de comparação é: 3,84. 11. > 3,84 há evidências de que existe associação entre o uso do medicamento e a eliminação da dor abdominal.
a) Coeficiente de contingência: t = min(, ) = 11,,71 C * ( 1)(11, 154) 165, 0,371 associação fraca a moderada. 11, b) Coeficiente : 0, 7, 154 Coeficiente V de Cramér: V 11, 154 ( 1) 0,7 associação moderada.
Tabela com valores de comparação em função dos graus de liberdade. Valor de gl comparação 1 3,84 5,99 3 7,81 4 9,49 5 11,07 6 1,59 7 14,07 8 15,51 9 16,9 10 18,31 11 19,68 1 1,03 13,