4. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

Documentos relacionados
6. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

9. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

Medidas de associação para variáveis categóricas em tabelas de dupla entrada

2. Testes de Independência

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

Estatística Descritiva (III) Associação entre Variáveis

- Testes Qui-quadrado - Aderência e Independência

- Testes Qui-quadrado - Aderência e Independência

Prof. Lorí Viali, Dr.

Capítulo 6 Estatística não-paramétrica

Análise de Aderência e de Associação

Estatística Aplicada ao Serviço Social

Prof. Lorí Viali, Dr.

VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS

Prof. Lorí Viali, Dr.

Estatística para Geografia. Rio, 30/08/2017

- Testes Qui-quadrado - Aderência e Independência

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

Universidade de São Paulo

Stela Adami Vayego Estatística II CE003/DEST/UFPR

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

Especialização em Engenharia de Processos e de Sistemas de Produção

Inferência Estatística:

Cruzamento de Dados. Lorí Viali, Dr. DESTAT/FAMAT/PUCRS

AULA 8 Experimentos multinomiais e tabelas de contingência

Análise de Dados Categóricos Tabelas 2 2

Estatística 1 - Lista de Exercícios 4-21/06/ Professor José Carlos Fogo

Capítulo 6 Estatística não-paramétrica

Testes de Hipóteses: exemplos

Estatística 1 - Lista de Exercícios 4 Professore José Carlos Fogo

Associação entre variáveis categóricas e IC95%

SÉRIE: Estatística Básica Texto: ANÁLISE BIDIMENSIONAL SUMÁRIO 3. EXERCÍCIOS APÊNDICE REFERÊNCIAS...21

Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito

Testes de Aderência, Homogeneidade e Independência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Métodos Empíricos de Pesquisa I. } Análise Bidimensional

Testes de Aderência, Homogeneidade e Independência

HEP0138 BIOESTATÍSTICA

Stela Adami Vayego DEST/UFPR

Medidas de Dispersão. Introdução Amplitude Variância Desvio Padrão Coeficiente de Variação

Testes de Aderência, Homogeneidade e Independência

Estatística Aplicada I. } Análise Bidimensional

Stela Adami Vayego DEST/UFPR

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste de Qui-quadrado

ESTATÍSTICA. Ana Paula Fernandes - FAMAT/UFU

Probabilidade e Estatística

Análise de correspondência

Teste Qui-Quadrado Rio de Janeiro, 23 de setembro de 2012

ESTATÍSTICA EXPERIMENTAL. ANOVA. Aula 05

Medidas de Semelhança

Medidas de Dispersão para uma Amostra. Conteúdo: AMPLITUDE VARIÂNCIA DESVIO PADRÃO COEFICIENTE DE VARIAÇÃO

Testes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Modelos log-lineares em tabelas tridimensionais

Aula prática 4 Parte I - Correlação e regressão linear simples

AULA 10 RELACIONAMENTOS ENTRE DUAS VARIÁVEIS

Por que testes não-paramétricos?

Aula 16: Análise de Aderência e Associação

Medidas de associação entre duas variáveis qualitativas

CORRELAÇÃO E REGRESSÃO

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

ESTATÍSTICA. Tabelas e Gráficos. Elisabeti Kira - IME USP. Beti Kira (IME-USP) Estatística 18.abril.

PROVA DE QUI-QUADRADO QUADRADO. Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística - PPGEMQ / PPGEP - UFSM -

MAE0229 Introdução à Probabilidade e Estatística II

Prof. Lorí Viali, Dr.

Os testes. Objetivo. O teste de Kruskal-Wallis (Análise de variância de uma classificação por postos) O teste qui-quadrado

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

Análise Exploratória de Dados

Testes não paramétricos. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Os testes. Objetivos. O teste Q de Cochran; O teste de Friedman (Análise de variância de duplo fator por postos)

Anexo 1 Análise de correspondências simples

Introdução ao modelo de Regressão Linear

Aula 03 Estatística, Correlação e Regressão

O Coeficiente SINCLAIR

Renda x Vulnerabilidade Ambiental

UNIVERSIDADE FEDERAL DE MINAS GERAIS FACULDADE DE FILOSOFIA E CIÊNCIAS HUMANAS DEPARTAMENTO DE CIÊNCIA POLÍTICA CURSO DE GESTÃO PÚBLICA

Estatística aplicada a ensaios clínicos

i j i i Y X X X i j i i i

Esse material foi extraído de Barbetta (2007 cap 13)

INTRODUÇÃO A ECONOMETRIA

ANÁLISE DE VARIÂNCIA - ANOVA. Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística - PPGEMQ / PPGEP - UFSM

Delineamento e Análise Experimental Aula 3

MAE Planejamento e Pesquisa II

INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 EXAME: DATA 24 / 02 / NOME DO ALUNO:

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

Universidade Federal do Pará Instituto de Ciências Exatas e Naturais Faculdade de Estatística Bacharelado em Estatística

É dada uma tabela de contingências, sendo os factores de classificação as proveniências (a=3 níveis) e os terrenos (b=3 níveis).

ESTATÍSTICA INFERENCIAL. Prof. Dr. Guanis de Barros Vilela Junior

Hoje vamos analisar duas variáveis quantitativas conjuntamente com o objetivo de verificar se existe alguma relação entre elas.

Variáveis bidimensionais

Exemplos Modelos de Quase-Verossimilhança

Planejamento e Otimização de Experimentos

Teste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste Qui-Quadrado

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME:

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Transcrição:

4. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada Quiquadrado de Pearson: mede a associação de tabelas de dupla entrada, sendo definido por: c (eij n ij ), i1 j1 e em que é o número de linhas e c o número de colunas da tabela. O termo n ij na expressão representa as frequências observadas da tabela e e ij as frequências esperadas na condição de independência entre as categorias. As frequências esperadas e ij são calculadas pelo produto do total da linha i pelo total da coluna j, dividido pelo total n, ou seja: ij e ij ( total da linha i ) ( total n da coluna j ), i 1,,, e j 1,,,c. Obs: os totais das linhas e os totais das colunas recebem, respectivamente, o nome de distribuição marginal das linhas e distribuição marginal das colunas.

Exemplo 7: A tabela abaixo representa um levantamento a respeito do tipo de lesão sofrido na cabeça, por motociclistas, em relação do uso do capacete. a) Encontre as porcentagens do tipo de lesão em função do uso do capacete. b) Você diria que existe associação entre o uso do capacete e a gravidade da lesão na cabeça de motociclistas? Tabela 1: Uso do capacete x Tipo de lesão. Uso do capacete Distr. marginal Tipo de lesão Sim Não das linhas Grave 15 37 Leve 45 18 63 Distr. marginal das colunas 60 40 100 Tabela : Uso do capacete x Tipo de lesão, perfil coluna. Tipo de lesão Uso do capacete Uso do capacete % Sim Não Sim Não Grave 15 5.0 55.0 Leve 45 18 75.0 45.0 Total 60 40 100.0 100.0 Figura 5: Perfil coluna, representação gráfica.

Notas: i) A tabela para Uso do Capacete x Tipo de lesão é do tipo x, logo = colunas e c = linhas; ii) As frequências observadas em cada casela (cruzamento das linhas e colunas) são: n 11 = 15; n 1 = ; n 1 = 45 e n = 18. O total geral é, então: n = 100 iii) As frequências esperadas na situação de independência são calculadas pelo produto das distribuições marginais das linhas e colunas, dividido pelo total geral n. Desta forma: e 11 e 1 60 37 40 37. e 1 14. 8 100 100 60 63 40 63 37.8 e 5. 100 100 iv) Tabela com os valores esperados (as marginais das linhas e das colunas não sofrem alteração): Tabela 3: Uso do capacete x Tipo de lesão, valores esperados na condição de independência. Tipo de lesão Uso do capacete Distr. marginal Sim Não das linhas Grave, 14,8 37 Leve 37,8 5, 63 Distr. marginal das colunas 60 40 100

O cálculo do de Pearson é dado por: (. 15). (14.8 ) 14.8 (37.8 45) 37.8 (5. 18) 5..34 3.50 1.37.06 9.7 O de Pearson deve ser comparado com um valor tabelado, que depende do número de linhas e colunas da tabela (que é o número de graus de liberdade). O número de graus de liberdade se uma tabela é dado pelo número de linhas menos um multiplicado pelo número de colunas menos um, isto é: gl ( 1) ( c 1) Para uma tabela x, o número de graus de liberdade é igual a gl ( 1) ( 1) 1. Para uma tabela x, o número de graus de liberdade é 1 e o valor de comparação * é igual a 3.84. Portanto, o valor de 9.7, obtido pelo cálculo do de Pearson, é maior do que o valor de comparação 3.84, indicando que há uma evidência de que existe uma associação entre o uso do capacete e a gravidade da lesão na cabeça. * O valor de comparação para tabelas de dupla entrada depende de elementos da teoria das probabilidades e da inferência estatística e não serão abordados aqui. O valor de comparação, quando necessário, será fornecido juntamente com o problema.

O de Pearson varia de 0 a n, sendo n o número total de casos da tabela. i) n: indica associação perfeita ii) 0: indica a falta total de associação, ou seja, indica independência entre as variáveis. Portanto, valores elevados de indicam uma evidência de associação entre as categorias da tabela e, quanto maior o valor de, mais forte será essa evidência. Entretanto, como depende do valor de n, e também do número de linhas e colunas da tabela, essa dependência pode afetar a interpretação. Nesse sentido outras medidas são propostas na literatura. Assim sendo, serão introduzidas as medidas a seguir, que quantificam do grau da associação. 4.1. Medidas do grau da associação baseadas no a) Coeficiente :. n O coeficiente varia de 0 a 1, sendo que o valor 0 corresponde a ausência de associação e o valor 1 representa associação completa. Se todos os valores observados forem iguais a todos os valores esperados o será zero e, portanto, também será zero.

Já o limite superior 1 só é atingido para configurações específicas de tabelas. Portanto, este coeficiente só será aplicado para tabelas. b) Coeficiente V de Cramér : forma corrigida de, dividindo o coeficiente por ( t 1) V, t = min(l, c). n( t 1) V também varia de 0 a 1, tendo a mesma interpretação de ; O coeficiente V de Cramér tem a vantagem de poder ser usado em tabelas de dimensão maior do que. Para tabelas, e V são iguais. c) Coeficiente de Contingência: C. n O coeficiente C não alcança o valor 1, sendo usualmente apresentado na sua forma ajustada para que possa alcançar o máximo 1. C t t 1 ( t t 1)( * C n), t = min(l, c). O único caso em que se pode dar uma interpretação para é para tabelas x o que faz com que, em geral, esta medida só seja utilizada neste caso: http://www.ime.unicamp.br/~lramos/dachs/capitulo-4.htm

Critérios de classificação para os coeficientes e C (ou C*) não são muito comuns de serem encontrados. As maiorias dos autores citam apenas que valores próximos de 0 representam associação fraca ou nenhuma e quanto mais próximo de 1, mais forte é a associação, porém, a escala desses coeficientes não é linear, interferindo na interpretação. A seguir são apresentadas diversas classificações para os coeficientes acima: i) Barbetta (001), pag 61, apresenta a seguinte classificação para o coeficiente de contingência ajustado. C* 0 associação fraca C* 0.5 associação moderada C* 1 associação forte ii) Witte & Witte, pag. 375, indicam uma classificação o coeficiente V de Crámer elevado ao quadrado ( V ). V 0.01 (V 0.1) associação fraca V 0.09 (V 0.3) associação moderada V 0.5 (V 0.5) associação forte Na internet, diversos sites também indicam classificações diferentes para o coeficiente de contingência. iii) De http://www.acastat.com/statbook/chisqassoc.htm 0 a 0.1 associação fraca ou nenhuma 0.1 a 0.3 associação baixa 0.3 a 0.5 associação moderada 0.5 associação forte

iv) De http://www.statisticssolutions.com/resources/directoryof-statistical-analyses/nominal-variable-association 0.1 associação fraca 0.1 a 0.3 associação moderada 0.3 associação forte Apesar da dificuldade em se encontrar uma classificação mais objetiva, podemos notar que praticamente todas as classificações acima indicam o valor 0.3 para associação moderada. Desta forma, tomando esse valor como referência, vamos adotar a classificação do site: www.acastat.com/statbook/chisqassoc.htm por ser o que mais discrimina. Exemplo 8: Com os dados do uso do capacete, temos t = min(, ) =, logo C 9.7 (9.7 100) 0.0848 0.913 C * C 0.913 0.41 ( 1) O valor C * 0. 41 indica uma associação moderada. segundo o site, essa classificação é dada como regra geral para a interpretação de todas as medidas de associação.

Ainda: Coeficiente : 9.7 100 0. 304, Coeficiente V de Cramér: 9.7 V 0.304 associação moderada. ( 1) 100

Exemplo 9: Dados de grau de instrução por região de procedência de funcionários de uma empresa (livro Bussab & Morettin). Tabela 4: Grau de Instrução x Região de procedência Procedência Grau de instrução Totais 1º. grau º. grau superior Linhas Capital 6 7 15 Interior 3 7 1 Outro estado 3 4 9 Totais Colunas 1 18 6 Figura 6: Perfil coluna, grau de instrução por procedência. Frequências esperadas na condição de independência: e 11 e 1 e 31 1 15 18 15 615 5.0 e 1 7. 5 e 13. 5 1 1 18 1 61 4.0 e 6. 0 e 3. 0 1 9 18 9 69 3.0 e 3 4. 5 e 33 1. 5

Tabela 5: Grau de Instrução x Região de procedência, valores esperados Procedência Grau de instrução Totais 1º. grau º. grau superior Linhas Capital 5.0 7.5.5 15 Interior 4.0 6.0.0 1 Outro estado 3.0 4.5 1.5 9 Totais Colunas 1 18 6 Cálculo do de Pearson: (5.0 6) (7.5 7) (.5 ) 5.0 7.5.5 (4.0 3) (6.0 7) (.0 ) 4.0 6.0.0 (3.0 3) (4.5 4) (1.5 ) 3.0 4.5 1.5 0.00 0.033 0.100 0.50 0.167 0 0 0.056 0.167 0.97 Número de graus de liberdade para uma tabela 3x3: gl ( 31) (3 1) 4. Com 4 graus de liberdade o valor de comparação é 9.49. Como o de Pearson, igual a 0.97, é muito pequeno em relação ao valor de comparação, não havendo evidência de associação entre o grau de instrução e a região de procedência dos empregados, isto é, o grau de instrução independe da região de procedência (e vice-e-versa).

Neste caso, não é necessário o coeficiente de contingência, porém, vamos realizar os cálculos a título de curiosidade: t = min( 3, 3 ) = 3 C 0.97 (0.97 ) 0.063 0.16 Ainda: No R: 3 C * C 0.16 1.5 0.199 (3 1) O valor C * 0. 199 indica uma associação fraca. Coeficiente V de Cramér: 0.97 V 0.116 associação fraca. # vcd: pacote para calcular as medidas de associação require(vcd) tab <- matrix(c(6,7,,3,7,,3,4,),3,3, byrow=t) dimnames(tab)[[]] <- c("1º.grau","º.grau","superior") dimnames(tab)[[1]] <- c("capital","interior","outro Estado") tab 1º.grau º.grau Superior Capital 6 7 Interior 3 7 Outro Estado 3 4 assocstats(tab) ^ df P(> ^) Likelihood Ratio 0.96987 4 0.91433 Pearson 0.97 4 0.91398 Phi-Coefficient : 0.164 Contingency Coeff.: 0.16 Cramer's V : 0.116

Exemplo 10: No tratamento para dor abdominal um grupo de 63 paciente foi tratado com brometo de pinavério, vezes ao dia. Um segundo grupo de 91 pacientes (grupo controle) recebeu placebo no lugar do medicamento. O resultado do tratamento é apresentado na tabela abaixo. Tabela 6: Tratamento com brometo de pinavério Eliminação da dor Eliminação da dor Grupo Tratamento Controle Total Sim 57 61 118 Não 6 30 Total 63 91 154 Tabela 7: Perfil coluna Tratamento Eliminação da dor Grupo Eliminação da dor Total Tratamento Controle Sim 90.5 67.0 76.6 Não 9.5 33.0 3.4 Total 100 100 100 Figura 7: Tratamento com brometo de pinavério eliminação da dor.

Valores esperados na condição de independência: e 11 e 1 63118 19118 48.3 e 1 69. 7 154 154 63 91 14.7 e 1. 3 154 154 Valor de Pearson: (48.3-57) 48.3 (69.7-61) 69.7 (14.7-6) 14.7 (1.3-30) 1.3 1.57 1.09 5.15 3.55 11. O de Pearson é grande indicando que pode haver uma associação entre as categorias. Número de graus de liberdade: gl = ( 1) ( 1) = 1 Com 1 grau de liberdade o valor de comparação é: 3.84. 11. > 3.84 há evidências de que existe associação entre o uso do medicamento e a eliminação da dor abdominal. a) Coeficiente de contingência: t = min(, ) =

C 11. (11. 154) 0.0687 0. 6 C * C 0.6 0.371 ( 1) associação fraca a moderada. 11. b) Coeficiente : 0. 7 154 Coeficiente V de Cramér: V 11. 154 ( 1) 0.7 associação moderada. No R: # vcd: pacote para calcular as medidas de associação #################################################### require(vcd) tab <- matrix(c(57,61,6,30),,, byrow=t) dimnames(tab)[[]] <- c("tratamento","controle") dimnames(tab)[[1]] <- c("sim","não") tab Tratamento Controle Sim 57 61 Não 6 30

assocstats(tab) ^ df P(> ^) Likelihood Ratio 1.48 1 0.00041079 Pearson 11.4 1 0.0007569 Phi-Coefficient : 0.7 Contingency Coeff.: 0.63 Cramer's V : 0.7 Tabela com valores de comparação em função dos graus de liberdade. gl Valor de comparação 1 3.84 5.99 3 7.81 4 9.49 5 11.07 6 1.59 7 14.07 8 15.51 9 16.9 10 18.31 11 19.68 1 1.03 13. * tabela parcial, considerando um nível de significância de 5%.