UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste de Qui-quadrado

Documentos relacionados
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste Qui-Quadrado

Aula 4 PROJETO DE EXTENSÃO. UFFS Universidade Federal da Fronteira Sul Campus Cerro Largo

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

AULA 8 Experimentos multinomiais e tabelas de contingência

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

2. Testes de Independência

- Testes Qui-quadrado - Aderência e Independência

Capítulo 6 Estatística não-paramétrica

- Testes Qui-quadrado - Aderência e Independência

Capítulo 6 Estatística não-paramétrica

PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre. Aula 2.

Introdução à análise estatística com SPSS. Guião nº6: Medidas de associação

Testes de Aderência, Homogeneidade e Independência

Testes de Aderência, Homogeneidade e Independência

Análise de Aderência e de Associação

Associação entre variáveis categóricas e IC95%

- Testes Qui-quadrado. - Aderência e Independência

Testes de Aderência, Homogeneidade e Independência

Análise de Correspondência: introdução

Probabilidade e Estatística

Estatística para Geografia. Rio, 30/08/2017

Prof. Lorí Viali, Dr.

Análise Exploratória de Dados

Notas de aula Testes de Hipóteses. Idemauro Antonio Rodrigues de Lara

Aula de hoje. Associação e Proporções. Tabela 2x2 (valores esperados dados hipotéticos) Tabela 2x2 (valores esperados dados reais)

Os testes. Objetivos. O teste Q de Cochran; O teste de Friedman (Análise de variância de duplo fator por postos)

Testes de Hipóteses. : Existe efeito

TESTES NÃO-PARAMÉTRICOS

- Testes Qui-quadrado - Aderência e Independência

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

BIOESTATÍSTICA AULA 7. Anderson Castro Soares de Oliveira Jose Nilton da Cruz. Departamento de Estatística/ICET/UFMT

Universidade Federal do Pará Instituto de Ciências Exatas e Naturais Faculdade de Estatística Bacharelado em Estatística

Métodos Quantitativos Aplicados

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

Estimação e Testes de Hipóteses

Medidas de associação entre duas variáveis qualitativas

Aula 8. Teste Binomial a uma proporção p

Testes não paramétricos. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

MAE0229 Introdução à Probabilidade e Estatística II

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Aderência Testes de Independência Testes de Homogeneidade

7 Teste de Hipóteses

Testes não paramétricos são testes de hipóteses que não requerem pressupostos sobre a forma da distribuição subjacente aos dados.

'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

Teste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte

Testes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Intervalos de Confiança

AULA 05 Teste de Hipótese

Stela Adami Vayego DEST/UFPR

Testes para dados categóricos

Teste χ 2 de aderência

Métodos Quantitativos em Medicina. Prof. Neli Ortega

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.

Testes de Hipóteses Genéticas. Alan Silva. Doutorando PPG-GEN AU08

AULA 10 RELACIONAMENTOS ENTRE DUAS VARIÁVEIS

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)

Testes de Hipóteses: exemplos

Teste qui-quadrado e teste exato de Fisher

Bioestatística. Paulo Nogueira quarta-feira, 11 de Janeiro de 2012

CE-003: Estatística II - Turma: K/O, 2 a Prova (22/06/2016)

AULA 04 Teste de hipótese

MANUAL DIDÁTICO PARA APLICAÇÃO DE TESTES ESTATÍSTICOS NA ANÁLISE DO DESEMPENHO DE ALUNOS EM DISCIPLINAS DA GRADUAÇÃO

Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

1 Teoria da Decisão Estatística

Aula 16: Análise de Aderência e Associação

CONSULTADORIA INFORMÁTICA, LDA. Análise Bivariada

Stela Adami Vayego Estatística II CE003/DEST/UFPR

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Resolução dos exemplos da apostila Capítulo 5 - Teste de Hipóteses

Estatística Não Paramétrica. Como construir testes de aderência

de uma variável em função da outra, por exemplo: Quantas TV Philips são vendidas na região Norte? Quantos homens são fumantes?

4. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

Tópicos Extras 1ª parte. Testes Não Paramétricos, Análise Multivariada, Outras Técnicas

Teste de Cochran-Mantel-Haenszel

Teste de hipóteses. Testes de Hipóteses. Valor de p ou P-valor. Lógica dos testes de hipótese. Valor de p 31/08/2016 VPS126

AULA 11 Teste de Hipótese

Regression and Clinical prediction models

Prof. Lorí Viali, Dr.

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Estatística aplicada a ensaios clínicos

Cauê Teixeira Rebeca Fuccio Thabata Oliveira

Medidas de associação para variáveis categóricas em tabelas de dupla entrada

Última Lista de Exercícios

Inferência Estatística

AULA 11 Experimentos Multinomiais e Tabelas de Contingência

Mais Informações sobre Itens do Relatório

Prof. Lorí Viali, Dr.

PROVA DE QUI-QUADRADO QUADRADO. Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística - PPGEMQ / PPGEP - UFSM -

16/6/2014. Teste Qui-quadrado de independência

Teste Qui-Quadrado Rio de Janeiro, 23 de setembro de 2012

Se a afirmação de João é verdadeira, temos o seguinte conjunto em seu bolso.

Transcrição:

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO PROJETO DE EXTENSÃO Software R: Capacitação em análise estatística de dados utilizando um software livre. Fonte: https://www.r-project.org/ Módulo IV Teste de Qui-quadrado Ministrante: Denise Reis Blog do projeto: https://softwarelivrer.wordpress.com/equipe/ Equipe: Coordenadora: Profe. Iara Endruweit Battisti (iara.battisti@uffs.edu.br) Colaboradores: Profa. Denize Reis Prof. Erikson Kaszubowski Prof. Reneo Prediger Profa. Tatiane Chassot Mestrando Felipe Smolski Bolsista: Djaina Rieger - aluna de Engenharia Ambiental (djaina.rieger@outlook.com) Voluntárias: Jaíne Frank Jaqueline Caye

SUMÁRIO SUMÁRIO Sumário 1 Teste qui-quadrado para verificar associação entre duas variáveis qualitativas 3 1.1 Teste com correção de continuidade(correção DE YATES)........... 5 1.2 Coeficiente de contingência............................... 5 2 Teste qui-quadrado para verificar aderência a uma distribuição 11 3 Referências Bibliográficas 14 Software R 2

MÓDULO 4 TESTE QUI-QUADRADO Para uma variável (aderência) Para duas variáveis (associação) Medidas de magnitude ESTUDO DA RELAÇÃO ENTRE DUAS VARIÁVEIS Em muitos estudos, há o interesse sobre a relação entre duas ou mais variáveis aleatórias, sejam elas qualitativas ou quantitativas. O interesse pode ser sobre a existência da relação entre as variáveis, sobre o tipo da relação, predição de valores e ainda se essa relação é significativa. Para analisar a relação entre duas variáveis qualitativas utiliza-se o teste de associação e para analisar a relação entre duas variáveis quantitativas utiliza-se a análise de correlação e a análise de regressão simples. Se existem mais de duas variáveis quantitativas, pode-se utilizar a análise de regressão múltipla ou outras técnicas de análise multivariada, esta também aplicada a variáveis qualitativas 1 Teste qui-quadrado para verificar associação entre duas variáveis qualitativas O teste do Qui-quadrado é usado quando se quer comparar frequências observadas com frequências esperadas. Existem vários testes baseados no qui-quadrado, contudo só dois tem esse nome: o teste do qui-quadrado da aderência ou ajustamento (para uma amostra) e o teste do qui-quadrado da independência. Requisitos: Dados amostrais devem ser selecionados aleatoriamente e são representados como contagens de frequências em tabela de dupla entrada. Em toda célula da tabela, a frequência esperada (E) deve ser no mínimo 5. Não há exigência quanto à frequência observada (O). Não há exigência de que população deva ter distribuição normal ou qualquer outra. A tabela de dupla entrada ou tabela de contingência (Tabela 1) é utilizada para representar as frequências observadas. Cada célula ou casela da tabela de dupla entrada é usada para representar uma frequência observada (O ij ), onde i corresponde a linha e j corresponde a coluna. Exemplo: Vamos analisar a tabela de contingências para as variáveis Gênero Sexual e Função Exercida apresentada abaixo: Tabela 1 Relação entre as funções exercidas e o sexo de 474 funcionários de uma organização. Software R 3

Neste caso, pode ser interessante saber se as duas variáveis são estatisticamente dependentes, e o quão forte é esta associação. 1) Formular as hipóteses H0 e H1: H0: as variáveis são independentes (não existe associação entre função e sexo) H1: as variáveis não são independentes (existe associação entre função e sexo) O teste pode ser realizado porque o grau de dependência pode ser quantificado descritivamente através de uma estatística, que se chama justamente Qui-Quadrado (x 2 ), cuja expressão é: Em que: l : número de linhas c : número de colunas O ij : frequência observada na linha i e coluna j E ij : frequência esperada na linha i e coluna j *Com grau de liberdade = gl = (c - 1)(l - 1) A frequência esperada de uma casela é obtida pela multiplicação do total da linha pelo total da coluna dividido pelo total geral. O Teste do Qui-Quadrado para avaliar se duas variáveis são independentes será unilateral: ou seja a Hipótese Nula será rejeitada se x 2 é maior que (x 2 ) crítico para um certo número de graus de liberdade. Depois que se obtém o valor do qui-quadrado, compara-se com o valor do qui-quadrado tabelado, com um nível α de significância e gl graus de liberdade. Se o valor do qui-quadrado calculado for maior ou igual ao valor do qui-quadrado tabelado então rejeita-se a H 0. Obs.: - Quando a tabela é 2x2, deve-se utilizar o teste com correção de continuidade (correção de Yates), pois a distribuição de frequências observadas é discreta e está sendo aproximada pela distribuição qui-quadrado, que é contínua (Barbetta, 1998). -O cálculo do qui-quadrado deve ser a partir de valores absolutos e não deve ser calculado quando a frequência esperada em qualquer casela for menor que 5. Neste caso, deve-se usar o teste exato de Fisher, para garantir o grau de certeza do teste.estes diferentes testes são fornecidos pelo software estatístico SPSS, R, entre outros. Quando as amostras são pareadas, utiliza-se o teste de McNemar. Software R 4

1.1 Teste com correção de continuidade(correção DE YATES) Para avaliar a força da associação entre as duas variáveis utiliza-se: - risco relativo - razão de prevalência - razão de chances (odds ratio) - coeficiente de contingência 1.1 Teste com correção de continuidade(correção DE YATES) Utilizada quando a tabela é de 2 x 2. 1.2 Coeficiente de contingência Caso o teste de qui-quadrado for significativo (rejeita-se Ho), é aconselhável calcular o coeficiente de contingência para medir a força da relação entre as duas variáveis: Barbetta (2001), pag 261, apresenta a seguinte classificação para o coeficiente de contingência. Quando o cálculo é realizado no software estatístico, utiliza-se o valor P para decidir em rejeitar ou não H 0, conforme Quadro 1. Quadro 1 Valor p, interpretação e conclusão do valor p Software R 5

1.2 Coeficiente de contingência Exemplo utilizando os recursos do software R: Realizar o teste de associação para os dados da Tabela 1: Tabela 1 Relação entre as funções exercidas e o sexo de 474 funcionários de uma organização. Sintaxe no software R: Digitar os dados da tabela cruzada (tabela de contingência) no formato de uma matriz, valor ij, considerando i=linha e j=coluna, em sequência por coluna (por exemplo, digita-se todos os valores da primeira coluna, depois digita-se todos os valores da segunda coluna e assim sucessivamente). O comando matrix indica que os dados serão organizados em uma matriz, nc indica o número de colunas da tabela, o operador = atribui os valores digitados no nome informado pelo usuário que neste caso é dados. O comando nome matriz, mostra a matriz elaborada, que neste caso represente uma tabela cruzada de duas linhas e três colunas, conforme a tabela do Exemplo 1. Primeiramente, deve-se verificar a existência de alguma casela com frequência esperada menor que 5. Caso não exista, utiliza-se o teste de qui-quadrado com o comando chisq.test. Conclusão: Software R 6

1.2 Coeficiente de contingência Em caso contrário, utiliza-se o teste Exato de Fisher (ou seja, se existir casela com freqüência esperada menor que 5). Exemplo: Foi feita a análise de 24 indivíduos do sexo masculino e feminino (Tabela 2) e será verificado se existe diferença entre os gêneros sexuais nas opiniões em relação à redução da maioridade penal, utilizando α = 5%. Tabela 2 Opinião das pessoas quanto a redução da maioridade penal Hipóteses estatísticas: H0: as variáveis são independentes (não existe associação entre opinião e sexo) H1: as variáveis não são independentes (existe associação entre opinião e sexo) maioridade<-matrix(c(5,10,12,8),nc=2) maioridade [,1] [,2] [1,] 5 12 [2,] 10 8 chisq.test(maioridade)$expected [,1] [,2] [1,] 7.285714 9.714286 [2,] 7.714286 10.285714 fisher.test(maioridade) Fisher's Exact Test for Count Data data: maioridade p-value = 0.1756 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.06462439 1.62962403 sample estimates: odds ratio 0.3444411 Software R 7

1.2 Coeficiente de contingência Caso a tabela seja 2x2, então usa-se o teste de qui-quadrado com o comando chisq.test acrescido de correct=true indicando a utilização da correção de continuidade (correção de Yates). Exemplo: Numa classe de 35 acadêmicos, comparou-se os mesmos quanto a característica de terem vínculo empregatício ou não. Os resultados seguem na Tabela 3. O interesse neste caso, é verificar se existe relação entre as variáveis gênero sexual e vínculo empregatício, ou seja, se as variáveis são ou não independentes. Tabela 3 Situação dos estudantes quanto a existência de vínculo empregatício. Para isso definem-se as seguintes hipóteses estatísticas: H0: as variáveis são independentes (não existe associação entre o gênero sexual e vínculo empregatício) H1: as variáveis não são independentes (existe associação entre gênero sexual e vínculo empregatício) emprego<-matrix(c(5,10,12,8),nc=2) emprego [,1] [,2] [1,] 5 12 [2,] 10 8 chisq.test(emprego)$expected [,1] [,2] [1,] 7.285714 9.714286 [2,] 7.714286 10.285714 chisq.test(emprego,correct=true) Pearson's Chi-squared test with Yates' continuity correction data: emprego X-squared = 1.4893, df = 1, p-value = 0.2223 Software R 8

1.2 Coeficiente de contingência Conclusão: No caso de amostras pareadas (dependentes), utiliza-se o teste de McNemar para testar a associação. Importante para o teste de McNemar: no software R os dados na matriz (tabela de contingência) devem ser distribuídos da mesma maneira tanto nas linhas quanto nas colunas. Isto é, a e d devem expressar o mesmo comportamento. Por exemplo: aprovado, desaprovado, aprovado, desaprovado. Exemplo: Uma pesquisa foi realizada para verificar o efeito de uma propaganda sobre a satisfação de um produto. Para isso foram selecionados aleatoriamente 76 indivíduos com características semelhantes para avaliarem o produto antes e após a propaganda. Na Tabela 1 é apresentada a satisfação dos indivíduos pesquisados. Teste a hipótese de que existe diferença na satisfação antes e após a propaganda, considerando nível de 5% de significância. Tabela 4 Efeito de uma propaganda sobre a satisfação de um produto Hipóteses estatísticas: H0: As frequências das diferentes categorias ocorrem na mesma proporção (Frequências b e c ocorrem na mesma proporção ou seja... ) H1: As frequências b e c ocorrem em proporções diferentes, ou seja as mudanças são significativas. Software R 9

1.2 Coeficiente de contingência prop=matrix(c(34,25,2,15),nc=2) prop [,1] [,2] [1,] 34 2 [2,] 25 15 chisq.test(prop)$expected [,1] [,2] [1,] 27.94737 8.052632 [2,] 31.05263 8.947368 mcnemar.test(prop) McNemar's Chi-squared test with continuity correction data: prop McNemar's chi-squared = 17.926, df = 1, p-value = 2.297e-05 Exemplo: Uma empresa está interessada em avaliar o impacto de uma intervenção em um grupo de pessoas com hipertensão, relacionada com a obesidade. A intervenção se dará em forma de um programa envolvendo assistência profissional nutricional, médica e atividades físicas. A tabela abaixo mostra os resultados. Avalie se a intervenção foi efetiva para redução da proporção de obesos. Hipóteses estatísticas: H0: As frequências das diferentes categorias ocorrem na mesma proporção (Frequências b e c ocorrem na mesma proporção ou seja a intervenção não foi efetiva para redução da proporção de obesos). H1: As frequências b e c ocorrem em proporções diferentes, ou seja as mudanças são significativas. A intervenção foi efetiva para redução da proporção de obesos. No R: Conclusão: Software R 10

2 TESTE QUI-QUADRADO PARA VERIFICAR ADERÊNCIA A UMA DISTRIBUIÇÃO 2 Teste qui-quadrado para verificar aderência a uma distribuição Para verificar se o conjunto de dados segue uma distribuição teórica especificado. No caso a seguir, verificar se as frequências de clientes são as mesmas ao longo da semana: Exemplo: Deseja-se verificar se o número de clientes em um pequeno restaurante localizado as margens de uma rodovia muda conforme o dia da semana. O número de clientes observado para cada dia de uma semana escolhida aleatoriamente foram: Tabela 5 - Número de clientes no restaurante/dia da semana Para um nível de significância de 5%, o que pode ser dito? 1)Hipóteses a serem testadas: Ho: O número de clientes não muda conforme o dia da semana; H1: Pelo menos um dos dias tem número diferente dos demais. clientes<-c(20,12,10,17,30,22,35) chisq.test(clientes)$expected [1] 20.85714 20.85714 20.85714 20.85714 20.85714 20.85714 20.85714 chisq.test(clientes) Chi-squared test for given probabilities data: clientes X-squared = 23.822, df = 6, p-value = 0.0005631 Software R 11

2 TESTE QUI-QUADRADO PARA VERIFICAR ADERÊNCIA A UMA DISTRIBUIÇÃO Conclusão: Exemplo: A tabela a seguir apresenta o número de empresas constituídas no Rio Grande do Sul, no tipo Micro Empreendedor Individual, nos 10 primeiros meses do ano, cujos atos foram arquivados na JUCERGS. Tabela 6 Constituições de empresas Fonte: http://www.jucergs.rs.gov.br/p_estatisticas.asp Verificar as frequências de constituição de novas empresas são as mesmas ao longo dos meses observados. Hipóteses: Conclusão: Software R 12

2 TESTE QUI-QUADRADO PARA VERIFICAR ADERÊNCIA A UMA DISTRIBUIÇÃO Exemplo: Num estudo verifica-se a ocorrência de 4 espécies de moscas, conforme exposto na Tabela 7. Verifique as frequências de quatro espécies de moscas se distribuem de forma igual? Tabela 7 Ocorrência de espécies de Moscas moscas<-c(24,32,10,9) chisq.test(moscas)$expected [1] 18.75 18.75 18.75 18.75 chisq.test(moscas) Chi-squared test for given probabilities data: moscas X-squared = 19.987, df = 3, p-value = 0.0001708 Ou para verificar se as frequências de espécies de moscas seguem uma distribuição específica, informado em dist. Lembrando que os valores no vetor dist devem estar no formato de proporção (por exemplo, 0.35). Exemplo: No caso do exemplo moscas moscas<-c(24,32,10,9) dist<-c(0.25,0.10,0.35,0.3) chisq.test(moscas)$expected [1] 18.75 18.75 18.75 18.75 chisq.test(moscas,p=dist) Chi-squared test for given probabilities data: moscas X-squared = 99.663, df = 3, p-value < 2.2e-16 Software R 13

3 REFERÊNCIAS BIBLIOGRÁFICAS 3 Referências Bibliográficas BARBETTA, P. A. Estatística Aplicada às Ciências Sociais. Ed. da UFSC, 4 ed. Florianópolis, 2001. CÂMARA, Filipe Gago. Estatística Não Paramétrica - Testes de Hipóteses e Medidas de Associação. Universidade dos Açores. 2001. STEVENSON, William J. Estatística Aplicada à Administração. Ed. Harper, São Paulo, 1981. TRIOLA, M. F. Introdução à Estatística, 7 ed., LTC, Rio de Janeiro, 1999. Software R 14