4. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

4. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada Quiquadrado de Pearson: mede a associação de tabelas de dupla entrada, sendo definido por: c (eij n ij ), i1 j1 e em que é o número de linhas e c o número de colunas da tabela. O termo n ij na expressão representa as frequências observadas da tabela e e ij as frequências esperadas na condição de independência entre as categorias. As frequências esperadas e ij são calculadas pelo produto do total da linha i pelo total da coluna j, dividido pelo total n, ou seja: ij e ij ( total da linha i ) ( total n da coluna j ), i 1,,, e j 1,,,c. Obs: os totais das linhas e os totais das colunas recebem, respectivamente, o nome de distribuição marginal das linhas e distribuição marginal das colunas.

Exemplo 7: A tabela abaixo representa um levantamento a respeito do tipo de lesão sofrido na cabeça, por motociclistas, em relação do uso do capacete. a) Encontre as porcentagens do tipo de lesão em função do uso do capacete. b) Você diria que existe associação entre o uso do capacete e a gravidade da lesão na cabeça de motociclistas? Tabela 1: Uso do capacete x Tipo de lesão. Uso do capacete Distr. marginal Tipo de lesão Sim Não das linhas Grave 15 37 Leve 45 18 63 Distr. marginal das colunas 60 40 100 Tabela : Uso do capacete x Tipo de lesão, perfil coluna. Tipo de lesão Uso do capacete Uso do capacete % Sim Não Sim Não Grave 15 5.0 55.0 Leve 45 18 75.0 45.0 Total 60 40 100.0 100.0 Figura 5: Perfil coluna, representação gráfica.

Notas: i) A tabela para Uso do Capacete x Tipo de lesão é do tipo x, logo = colunas e c = linhas; ii) As frequências observadas em cada casela (cruzamento das linhas e colunas) são: n 11 = 15; n 1 = ; n 1 = 45 e n = 18. O total geral é, então: n = 100 iii) As frequências esperadas na situação de independência são calculadas pelo produto das distribuições marginais das linhas e colunas, dividido pelo total geral n. Desta forma: e 11 e 1 60 37 40 37. e 1 14. 8 100 100 60 63 40 63 37.8 e 5. 100 100 iv) Tabela com os valores esperados (as marginais das linhas e das colunas não sofrem alteração): Tabela 3: Uso do capacete x Tipo de lesão, valores esperados na condição de independência. Tipo de lesão Uso do capacete Distr. marginal Sim Não das linhas Grave, 14,8 37 Leve 37,8 5, 63 Distr. marginal das colunas 60 40 100

O cálculo do de Pearson é dado por: (. 15). (14.8 ) 14.8 (37.8 45) 37.8 (5. 18) 5..34 3.50 1.37.06 9.7 O de Pearson deve ser comparado com um valor tabelado, que depende do número de linhas e colunas da tabela (que é o número de graus de liberdade). O número de graus de liberdade se uma tabela é dado pelo número de linhas menos um multiplicado pelo número de colunas menos um, isto é: gl ( 1) ( c 1) Para uma tabela x, o número de graus de liberdade é igual a gl ( 1) ( 1) 1. Para uma tabela x, o número de graus de liberdade é 1 e o valor de comparação * é igual a 3.84. Portanto, o valor de 9.7, obtido pelo cálculo do de Pearson, é maior do que o valor de comparação 3.84, indicando que há uma evidência de que existe uma associação entre o uso do capacete e a gravidade da lesão na cabeça. * O valor de comparação para tabelas de dupla entrada depende de elementos da teoria das probabilidades e da inferência estatística e não serão abordados aqui. O valor de comparação, quando necessário, será fornecido juntamente com o problema.

O de Pearson varia de 0 a n, sendo n o número total de casos da tabela. i) n: indica associação perfeita ii) 0: indica a falta total de associação, ou seja, indica independência entre as variáveis. Portanto, valores elevados de indicam uma evidência de associação entre as categorias da tabela e, quanto maior o valor de, mais forte será essa evidência. Entretanto, como depende do valor de n, e também do número de linhas e colunas da tabela, essa dependência pode afetar a interpretação. Nesse sentido outras medidas são propostas na literatura. Assim sendo, serão introduzidas as medidas a seguir, que quantificam do grau da associação. 4.1. Medidas do grau da associação baseadas no a) Coeficiente :. n O coeficiente varia de 0 a 1, sendo que o valor 0 corresponde a ausência de associação e o valor 1 representa associação completa. Se todos os valores observados forem iguais a todos os valores esperados o será zero e, portanto, também será zero.

Já o limite superior 1 só é atingido para configurações específicas de tabelas. Portanto, este coeficiente só será aplicado para tabelas. b) Coeficiente V de Cramér : forma corrigida de, dividindo o coeficiente por ( t 1) V, t = min(l, c). n( t 1) V também varia de 0 a 1, tendo a mesma interpretação de ; O coeficiente V de Cramér tem a vantagem de poder ser usado em tabelas de dimensão maior do que. Para tabelas, e V são iguais. c) Coeficiente de Contingência: C. n O coeficiente C não alcança o valor 1, sendo usualmente apresentado na sua forma ajustada para que possa alcançar o máximo 1. C t t 1 ( t t 1)( * C n), t = min(l, c). O único caso em que se pode dar uma interpretação para é para tabelas x o que faz com que, em geral, esta medida só seja utilizada neste caso: http://www.ime.unicamp.br/~lramos/dachs/capitulo-4.htm

Critérios de classificação para os coeficientes e C (ou C*) não são muito comuns de serem encontrados. As maiorias dos autores citam apenas que valores próximos de 0 representam associação fraca ou nenhuma e quanto mais próximo de 1, mais forte é a associação, porém, a escala desses coeficientes não é linear, interferindo na interpretação. A seguir são apresentadas diversas classificações para os coeficientes acima: i) Barbetta (001), pag 61, apresenta a seguinte classificação para o coeficiente de contingência ajustado. C* 0 associação fraca C* 0.5 associação moderada C* 1 associação forte ii) Witte & Witte, pag. 375, indicam uma classificação o coeficiente V de Crámer elevado ao quadrado ( V ). V 0.01 (V 0.1) associação fraca V 0.09 (V 0.3) associação moderada V 0.5 (V 0.5) associação forte Na internet, diversos sites também indicam classificações diferentes para o coeficiente de contingência. iii) De http://www.acastat.com/statbook/chisqassoc.htm 0 a 0.1 associação fraca ou nenhuma 0.1 a 0.3 associação baixa 0.3 a 0.5 associação moderada 0.5 associação forte

iv) De http://www.statisticssolutions.com/resources/directoryof-statistical-analyses/nominal-variable-association 0.1 associação fraca 0.1 a 0.3 associação moderada 0.3 associação forte Apesar da dificuldade em se encontrar uma classificação mais objetiva, podemos notar que praticamente todas as classificações acima indicam o valor 0.3 para associação moderada. Desta forma, tomando esse valor como referência, vamos adotar a classificação do site: www.acastat.com/statbook/chisqassoc.htm por ser o que mais discrimina. Exemplo 8: Com os dados do uso do capacete, temos t = min(, ) =, logo C 9.7 (9.7 100) 0.0848 0.913 C * C 0.913 0.41 ( 1) O valor C * 0. 41 indica uma associação moderada. segundo o site, essa classificação é dada como regra geral para a interpretação de todas as medidas de associação.

Ainda: Coeficiente : 9.7 100 0. 304, Coeficiente V de Cramér: 9.7 V 0.304 associação moderada. ( 1) 100

Exemplo 9: Dados de grau de instrução por região de procedência de funcionários de uma empresa (livro Bussab & Morettin). Tabela 4: Grau de Instrução x Região de procedência Procedência Grau de instrução Totais 1º. grau º. grau superior Linhas Capital 6 7 15 Interior 3 7 1 Outro estado 3 4 9 Totais Colunas 1 18 6 Figura 6: Perfil coluna, grau de instrução por procedência. Frequências esperadas na condição de independência: e 11 e 1 e 31 1 15 18 15 615 5.0 e 1 7. 5 e 13. 5 1 1 18 1 61 4.0 e 6. 0 e 3. 0 1 9 18 9 69 3.0 e 3 4. 5 e 33 1. 5

Tabela 5: Grau de Instrução x Região de procedência, valores esperados Procedência Grau de instrução Totais 1º. grau º. grau superior Linhas Capital 5.0 7.5.5 15 Interior 4.0 6.0.0 1 Outro estado 3.0 4.5 1.5 9 Totais Colunas 1 18 6 Cálculo do de Pearson: (5.0 6) (7.5 7) (.5 ) 5.0 7.5.5 (4.0 3) (6.0 7) (.0 ) 4.0 6.0.0 (3.0 3) (4.5 4) (1.5 ) 3.0 4.5 1.5 0.00 0.033 0.100 0.50 0.167 0 0 0.056 0.167 0.97 Número de graus de liberdade para uma tabela 3x3: gl ( 31) (3 1) 4. Com 4 graus de liberdade o valor de comparação é 9.49. Como o de Pearson, igual a 0.97, é muito pequeno em relação ao valor de comparação, não havendo evidência de associação entre o grau de instrução e a região de procedência dos empregados, isto é, o grau de instrução independe da região de procedência (e vice-e-versa).

Neste caso, não é necessário o coeficiente de contingência, porém, vamos realizar os cálculos a título de curiosidade: t = min( 3, 3 ) = 3 C 0.97 (0.97 ) 0.063 0.16 Ainda: No R: 3 C * C 0.16 1.5 0.199 (3 1) O valor C * 0. 199 indica uma associação fraca. Coeficiente V de Cramér: 0.97 V 0.116 associação fraca. # vcd: pacote para calcular as medidas de associação require(vcd) tab <- matrix(c(6,7,,3,7,,3,4,),3,3, byrow=t) dimnames(tab)[[]] <- c("1º.grau","º.grau","superior") dimnames(tab)[[1]] <- c("capital","interior","outro Estado") tab 1º.grau º.grau Superior Capital 6 7 Interior 3 7 Outro Estado 3 4 assocstats(tab) ^ df P(> ^) Likelihood Ratio 0.96987 4 0.91433 Pearson 0.97 4 0.91398 Phi-Coefficient : 0.164 Contingency Coeff.: 0.16 Cramer's V : 0.116

Exemplo 10: No tratamento para dor abdominal um grupo de 63 paciente foi tratado com brometo de pinavério, vezes ao dia. Um segundo grupo de 91 pacientes (grupo controle) recebeu placebo no lugar do medicamento. O resultado do tratamento é apresentado na tabela abaixo. Tabela 6: Tratamento com brometo de pinavério Eliminação da dor Eliminação da dor Grupo Tratamento Controle Total Sim 57 61 118 Não 6 30 Total 63 91 154 Tabela 7: Perfil coluna Tratamento Eliminação da dor Grupo Eliminação da dor Total Tratamento Controle Sim 90.5 67.0 76.6 Não 9.5 33.0 3.4 Total 100 100 100 Figura 7: Tratamento com brometo de pinavério eliminação da dor.

Valores esperados na condição de independência: e 11 e 1 63118 19118 48.3 e 1 69. 7 154 154 63 91 14.7 e 1. 3 154 154 Valor de Pearson: (48.3-57) 48.3 (69.7-61) 69.7 (14.7-6) 14.7 (1.3-30) 1.3 1.57 1.09 5.15 3.55 11. O de Pearson é grande indicando que pode haver uma associação entre as categorias. Número de graus de liberdade: gl = ( 1) ( 1) = 1 Com 1 grau de liberdade o valor de comparação é: 3.84. 11. > 3.84 há evidências de que existe associação entre o uso do medicamento e a eliminação da dor abdominal. a) Coeficiente de contingência: t = min(, ) =

C 11. (11. 154) 0.0687 0. 6 C * C 0.6 0.371 ( 1) associação fraca a moderada. 11. b) Coeficiente : 0. 7 154 Coeficiente V de Cramér: V 11. 154 ( 1) 0.7 associação moderada. No R: # vcd: pacote para calcular as medidas de associação #################################################### require(vcd) tab <- matrix(c(57,61,6,30),,, byrow=t) dimnames(tab)[[]] <- c("tratamento","controle") dimnames(tab)[[1]] <- c("sim","não") tab Tratamento Controle Sim 57 61 Não 6 30

assocstats(tab) ^ df P(> ^) Likelihood Ratio 1.48 1 0.00041079 Pearson 11.4 1 0.0007569 Phi-Coefficient : 0.7 Contingency Coeff.: 0.63 Cramer's V : 0.7 Tabela com valores de comparação em função dos graus de liberdade. gl Valor de comparação 1 3.84 5.99 3 7.81 4 9.49 5 11.07 6 1.59 7 14.07 8 15.51 9 16.9 10 18.31 11 19.68 1 1.03 13. * tabela parcial, considerando um nível de significância de 5%.