9. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

Documentos relacionados
6. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

4. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

Medidas de associação para variáveis categóricas em tabelas de dupla entrada

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

Estatística Descritiva (III) Associação entre Variáveis

Estatística 1 - Lista de Exercícios 4-21/06/ Professor José Carlos Fogo

Estatística 1 - Lista de Exercícios 4 Professore José Carlos Fogo

2. Testes de Independência

Especialização em Engenharia de Processos e de Sistemas de Produção

VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS

Prof. Lorí Viali, Dr.

Análise de Aderência e de Associação

Prof. Lorí Viali, Dr.

Estatística Aplicada ao Serviço Social

Prof. Lorí Viali, Dr.

AULA 8 Experimentos multinomiais e tabelas de contingência

Associação entre variáveis categóricas e IC95%

Stela Adami Vayego DEST/UFPR

Métodos Empíricos de Pesquisa I. } Análise Bidimensional

Cruzamento de Dados. Lorí Viali, Dr. DESTAT/FAMAT/PUCRS

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

Universidade de São Paulo

HEP0138 BIOESTATÍSTICA

Estatística Aplicada I. } Análise Bidimensional

- Testes Qui-quadrado - Aderência e Independência

SÉRIE: Estatística Básica Texto: ANÁLISE BIDIMENSIONAL SUMÁRIO 3. EXERCÍCIOS APÊNDICE REFERÊNCIAS...21

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Estatística para Geografia. Rio, 30/08/2017

- Testes Qui-quadrado - Aderência e Independência

Capítulo 6 Estatística não-paramétrica

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Testes de Aderência, Homogeneidade e Independência

Testes de Aderência, Homogeneidade e Independência

Medidas de Dispersão. Introdução Amplitude Variância Desvio Padrão Coeficiente de Variação

Os testes. Objetivo. O teste de Kruskal-Wallis (Análise de variância de uma classificação por postos) O teste qui-quadrado

Testes de Aderência, Homogeneidade e Independência

Anexo 1 Análise de correspondências simples

Estatística descritiva: medidas de tendência central.

Testes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

- Testes Qui-quadrado - Aderência e Independência

O Coeficiente SINCLAIR

Capítulo 6 Estatística não-paramétrica

Aula prática 4 Parte I - Correlação e regressão linear simples

Stela Adami Vayego DEST/UFPR

5. Resultados e Discussão

Inferência Estatística:

Análise de correspondência

Variáveis bidimensionais

Lista de Exercícios II - Probabilidade e Estatística

de uma variável em função da outra, por exemplo: Quantas TV Philips são vendidas na região Norte? Quantos homens são fumantes?

Medidas de Semelhança

Medidas de associação entre duas variáveis qualitativas

Teste Qui-Quadrado Rio de Janeiro, 23 de setembro de 2012

Teste Chi-Quadrado de Independência. Prof. David Prata Novembro de 2016

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste de Qui-quadrado

PROVA DE QUI-QUADRADO QUADRADO. Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística - PPGEMQ / PPGEP - UFSM -

Modelos log-lineares em tabelas tridimensionais

Estatística aplicada a ensaios clínicos

Por que testes não-paramétricos?

Testes de Hipóteses: exemplos

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Delineamento e Análise Experimental Aula 3

Exemplos Modelos de Quase-Verossimilhança

Prof. Lorí Viali, Dr.

ESTATÍSTICA INFERENCIAL. Prof. Dr. Guanis de Barros Vilela Junior

Análise Bidimensional

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV

Os testes. Objetivos. O teste Q de Cochran; O teste de Friedman (Análise de variância de duplo fator por postos)

Análise de Correspondência em acessos de pimenta

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

Medidas de Dispersão. Prof.: Joni Fusinato

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME:

Esse material foi extraído de Barbetta (2007 cap 13)

Análise de Dados Categóricos Tabelas 2 2

Idade da mãe, em anos completos, no dia do parto. Numérico * A ausência de preenchimento identifica a não obtenção do valor no momento da coleta

Cap. 6 Medidas descritivas

MAE Planejamento e Pesquisa II

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Anova para medidas repetidas

Medidas de Dispersão para uma Amostra. Conteúdo: AMPLITUDE VARIÂNCIA DESVIO PADRÃO COEFICIENTE DE VARIAÇÃO

MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE CAMPINA GRANDE CENTRO DE CIENCIAS E TECNOLOGIA AGROALIMENTAR UNIDADE V

Bioestatística CE001 Prof. Fernando de Pol Mayer Departamento de Estatística DEST Exercícios: medidas resumo Nome: GABARITO

Correlação e Regressão

P R O G R A M A TERCEIRA FASE. DISCIPLINA: Estatística Aplicada à Pesquisa Educacional Código: 3EAPE Carga Horária: 54h/a (crédito 03)

Análise Exploratória de Dados

Algumas vantagens. Algumas restrições ao seu uso

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Aula 05. Análise Bidimensional. Stela Adami Vayego - DEST/UFPR 1

Teste U de Mann-Whitney BRUNA FERNANDA BATTISTUZZI BARBOSA KAUANA SOARES PAULO ROGÉRIO DA SILVA

TESTES NÃO PARAMÉTRICOS (para mediana/média)

Probabilidade e Estatística

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste Qui-Quadrado

É dada uma tabela de contingências, sendo os factores de classificação as proveniências (a=3 níveis) e os terrenos (b=3 níveis).

Associação entre variáveis qualitativas. Tabelas de Contigência

Transcrição:

9. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada Quiquadrado de Pearson: mede a associação de tabelas de dupla entrada, sendo definida por: c (e e ij n ij ij ), em que é o número de linhas e c o número de colunas da tabela. O termo n ij na expressão representa as frequências observadas da tabela e e ij as frequências esperadas na condição de independência entre as categorias. Exemplo 1: A tabela abaixo representa um levantamento a respeito do tipo de lesão sofrido na cabeça, por motociclistas, em relação do uso do capacete. a) Encontre as porcentagens do tipo de lesão em função do uso do capacete. b) Você diria que existe associação entre o uso do capacete e a gravidade da lesão na cabeça de motociclistas? Tipo de lesão Uso do capacete Sim Não Marginal das linhas Grave 15 37 Leve 45 18 63 Marginal das colunas 60 40 100

Tabela Uso do capacete x Tipo de lesão e perfil coluna. Tipo de lesão Uso do capacete Uso do capacete % Sim Não Sim Não Grave 15 5.0 55.0 Leve 45 18 75.0 45.0 Total 60 40 100.0 100.0 Figura 1: Perfil coluna, representação gráfica. Notas: i) A tabela para Uso do Capacete x Tipo de lesão é do tipo x, logo = colunas e c = linhas; ii) As frequências observadas em cada casela (cruzamento das linhas e colunas) são: n 11 = 15; n 1 = ; n 1 = 45 e n = 18. O total geral é, então: n = 100 iii) As frequências esperadas na situação de independência são calculadas pelo produto das distribuições marginais das linhas e colunas, dividido pelo total geral n. Desta forma:

e 11 e 1 60 37 40 37. e 1 14. 8 100 100 60 63 40 63 37.8 e 5. 100 100 iv) Tabela com os valores esperados (as marginais das linhas e das colunas não sofrem alteração): Tabela com valores esperados na situação de independência. Tipo de lesão Uso do capacete Marginal das Sim Não linhas Grave, 14,8 37 Leve 37,8 5, 63 Marginal das colunas 60 40 100 O cálculo do de Pearson é dado por: (, 15), (14,8 ) 14,8 (37,8 45) 37,8 (5, 18) 5,,34 3,50 1,37,06 9,7 O de Pearson deve ser comparado com um valor tabelado, que depende do número de linhas e colunas da tabela (que é o número de graus de liberdade).

O número de graus de liberdade se uma tabela é dado pelo número de linhas menos um multiplicado pelo número de colunas menos um, isto é: gl ( 1) ( c 1) Para uma tabela x, o número de graus de liberdade é igual a gl ( 1) ( 1) 1. Para uma tabela x, o número de graus de liberdade é 1 e o valor de comparação 1 é igual a 3.84. Portanto, o valor de 9,7, obtido pelo cálculo do de Pearson, é maior do que o valor de comparação 3,84, indicando que há uma relação entre o uso do capacete e a gravidade da lesão na cabeça. O de Pearson varia de 0 a n, sendo n o número total de casos da tabela de contingência. O valor n indica a associação perfeita e o valor 0 a falta total de associação, ou seja, de independência. Portanto, valores altos de indicam associação entre as categorias da tabela e, quanto maior o valor de, mais forte será essa associação. Entretanto, como depende do valor de n, e também do número de linhas e colunas da tabela, essa dependência pode afetar a interpretação. Nesse sentido outras medidas são propostas na literatura. Assim sendo, serão introduzidas as medidas a seguir, que quantificam do grau da associação. 1 O valor de comparação para tabelas de dupla entrada depende de elementos da teoria das probabilidades e da inferência estatística e não serão abordados aqui. O valor de comparação, quando necessário, será fornecido juntamente com o problema.

9.1. Medidas do grau da associação baseadas no a) Coeficiente :. n O coeficiente varia de 0 a 1, sendo que o valor 0 corresponde a ausência de associação e o valor 1 representa associação completa. Este coeficiente só pode ser aplicado para tabelas. b) Coeficiente V de Cramér : forma corrigida de, dividindo o coeficiente por ( t 1) V, t = min(l, c). n( t 1) V também varia de 0 a 1, tendo a mesma interpretação de ; O coeficiente V de Cramér tem a vantagem de poder ser usado em tabelas de dimensão maior do que. Para tabelas, e V são iguais. c) Coeficiente de Contingência: C. n O coeficiente C não alcança o valor 1, sendo usualmente apresentado na sua forma ajustada para que possa alcançar o máximo 1.

C t t 1 ( t t 1)( * C n), t = min(l, c). Critérios de classificação para os coeficientes e C (ou C*) não são muito comuns de serem encontrados. As maiorias dos autores citam apenas que valores próximos de 0 representam associação fraca ou nenhuma e quanto mais próximo de 1, mais forte é a associação, porém, a escala desses coeficientes não é linear, interferindo na interpretação. A seguir são apresentadas diversas classificações para os coeficientes acima: i) Barbetta (001), pag 61, apresenta a seguinte classificação para o coeficiente de contingência. C* 0 associação fraca C* 0,5 associação moderada C* 1 associação forte ii) Witte & Witte, pag 375, indicam uma classificação para o coeficiente V. V 0,01 (V 0,1) associação fraca V 0,09 (V 0,3) associação moderada V 0,5 (V 0,5) associação forte Na internet, diversos sites também indicam classificações diferentes para tais o coeficiente de contingência.

De http://www.acastat.com/statbook/chisqassoc.htm 0 a 0,1 associação fraca ou nenhuma 0,1 a 0,3 associação baixa 0,3 a 0,5 associação moderada 0,5 associação forte De http://www.statisticssolutions.com/resources/directoryof-statistical-analyses/nominal-variable-association (1) 0,1 associação fraca 0,1 a 0,3 associação moderada 0,3 associação forte (1) segundo o site, essa classificação é dada como regra geral para a interpretação de todas as medidas de associação. Apesar da dificuldade em se encontrar uma classificação mais objetiva, podemos notar que praticamente todas as classificações acima indicam o valor 0.3 para associação moderada. Desta forma, tomando esse valor como referência, vamos adotar a classificação do site: www.acastat.com/statbook/chisqassoc.htm por ser o que mais discrimina.

Exemplo 1: Com os dados do uso do capacete, temos t = min(, ) =, logo 9,7 C * ( 1)(9,7 100) 0,41 O valor C * 0, 41 indica uma associação moderada. Ainda: Coeficiente : 9,7 100 0, 304, Coeficiente V de Cramér: 9,7 V 0,304 associação moderada. ( 1) 100

Exemplo : Dados de grau de instrução por região de procedência de funcionários de uma empresa (livro Bussab & Morettin). Procedência Grau de instrução Totais 1º. grau º. grau superior Linhas Capital 6 7 15 Interior 3 7 1 Outro estado 3 4 9 Totais Colunas 1 18 6 Frequências esperadas na condição de independência: e 11 e 1 e 31 1 15 18 15 615 5,0 e 1 7, 5 e 13, 5 1 1 18 1 61 4,0 e 6, 0 e 3, 0 1 9 18 9 69 3,0 e 3 4, 5 e 33 1, 5 Tabela com os valores esperados na condição de independência: Procedência Grau de instrução Totais 1º. grau º. grau superior Linhas Capital 5,0 7,5,5 15 Interior 4,0 6,0,0 1 Outro estado 3,0 4,5 1,5 9 Totais Colunas 1 18 6

Cálculo do de Pearson: (5,0 6) 5,0 (7,5 7) 7,5 (,5 ),5 (4,0 3) 4,0 (6,0 7) 6,0 (,0 ),0 (3,0 3) 3,0 (4,5 4) 4,5 (1,5 ) 1,5 0,00 0,033 0,100 0,50 0,167 0 0 0,056 0,167 0,97 Número de graus de liberdade para uma tabela 3x3: gl ( 31) (3 1) 4. Com 4 graus de liberdade o valor de comparação é 9,49. Como o de Pearson, igual a 0.97, é muito pequeno em relação ao valor de comparação, não há evidência de associação entre o grau de instrução e a região de procedência dos empregados, isto é, o grau de instrução independe da região de procedência (e vice-e-versa). Neste caso, não é necessário calcular o coeficiente de contingência, porém, vamos realizar os cálculos apenas como curiosidade: t = min( 3, 3 ) = 3

3 0,97 C * 0,199 (3 1)(0,97 ) O valor C * 0, 199 indica uma associação fraca. Ainda: Coeficiente : 0,97 0, 164, Coeficiente V de Cramér: 0,97 V 0,116 associação fraca.

Exemplo 3: No tratamento para dor abdominal um grupo de 63 paciente foi tratado com brometo de pinavério, vezes ao dia. Um segundo grupo de 91 pacientes (grupo controle) recebeu placebo no lugar do medicamento. O resultado do tratamento é apresentado na tabela abaixo. Tabela Tratamento com brometo de pinavério Eliminação da dor Eliminação da dor Grupo Tratamento Controle Total Sim 57 61 118 Não 6 30 Total 63 91 154 Tabela Tratamento com brometo de pinavério Eliminação da dor (%) Grupo Eliminação da dor Total Tratamento Controle Sim 90,5 67,0 76,6 Não 9,5 33,0 3,4 Total 100 100 100

Valores esperados na condição de independência: e 11 e 1 63118 19 118 48,3 e 1 69, 7 154 154 63 91 14,7 e 1, 3 154 154 Valor de Pearson: (48,3-57) 48,3 (69,7-61) 69,7 (14,7-6) 14,7 (1,3-30) 1,3 1,57 1,09 5,15 3,55 11, O de Pearson é grande indicando que pode haver uma associação entre as categorias. Número de graus de liberdade: gl = ( 1) ( 1) = 1 Com 1 grau de liberdade o valor de comparação é: 3,84. 11. > 3,84 há evidências de que existe associação entre o uso do medicamento e a eliminação da dor abdominal.

a) Coeficiente de contingência: t = min(, ) = 11,,71 C * ( 1)(11, 154) 165, 0,371 associação fraca a moderada. 11, b) Coeficiente : 0, 7, 154 Coeficiente V de Cramér: V 11, 154 ( 1) 0,7 associação moderada.

Tabela com valores de comparação em função dos graus de liberdade. Valor de gl comparação 1 3,84 5,99 3 7,81 4 9,49 5 11,07 6 1,59 7 14,07 8 15,51 9 16,9 10 18,31 11 19,68 1 1,03 13,