Análise de dados categóricos

Documentos relacionados
Análise de dados categóricos

Sintetizando dados qualitativos e quantitativos

Teste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

Teste do Qui2. O tamanho de amígdala está associado com a presença da bactéria Streptoccocus pyogenes?

Distribuições de probabilidade de variáveis aleatórias contínuas

Medidas de associação entre duas variáveis qualitativas

Aná lise QL QL Me todo do X²

Capítulo 6 Estatística não-paramétrica

Medidas de tendência central,dispersão, posição, associação e boxplot

Teste χ 2 de aderência

Testes não paramétricos. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Capítulo 6 Estatística não-paramétrica

Testes de Hipóteses para Mèdia de Populações Normais- Variância conhecida e desconhecida

Aula 02. Variáveis. Organização e Apresentação dos Dados

SINTETIZANDO DADOS QUALITATIVOS E QUANTITATIVOS

A teoria postulada por Mendel estabelece que a segregação, neste caso, deve ocorrer na seguinte proporção: 9/16 : 3/16 : 3/16 : 1/16

Dados. Regular 35% Freqüência de municípios 10. Conhecimento Novas hipóteses

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Testes de Aderência, Homogeneidade e Independência

Testes de Hipóteses: exemplos

Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Regressão linear simples

Teste Chi-Quadrado de Independência. Prof. David Prata Novembro de 2016

AULA 10 RELACIONAMENTOS ENTRE DUAS VARIÁVEIS

2. Testes de Independência

Análise de Correspondência: introdução

Análise Bidimensional

AULA 8 Experimentos multinomiais e tabelas de contingência

1 Estatística Descritiva

Intervalos de Confiança - Amostras Pequenas

ESTATÍSTICA. Ana Paula Fernandes - FAMAT/UFU

Associação entre variáveis categóricas e IC95%

Prof. Lorí Viali, Dr.

Testes de Aderência, Homogeneidade e Independência

Análise de variância (ANOVA)

Associação entre variáveis qualitativas. Tabelas de Contigência

Testes de Aderência, Homogeneidade e Independência

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

Estatísticas de saúde. Certificados de óbito.

Introdução à análise estatística com SPSS. Guião nº6: Medidas de associação

Estimação e Testes de Hipóteses

EXERCÍCIOS DE INTERVALO DE CONFIANÇA

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

12/03/2012. Risco Relativo ou razão de incidências acumuladas. Razão de taxas de incidências RR= exposta NÃO DESENVOLVE DOENÇA PESSOAS-TEMPO

Estatística. 1 Introdução 2 Tabelas Estatísticas 3 População, Amostra e Variáveis 4 Gráficos e Distribuição de Freqüências.

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste Qui-Quadrado

Análise de Dados Categóricos

Stela Adami Vayego Estatística II CE003/DEST/UFPR

Prof. Lorí Viali, Dr.

Testes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Análise de Aderência e de Associação

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Análise de Dados Categóricos

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

Estatística Não Paramétrica. Como construir testes de aderência

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas

Aula 16: Análise de Aderência e Associação

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste de Qui-quadrado

Prof.Letícia Garcia Polac. 28 de agosto de 2017

Aula 02. Variáveis. Organização e Apresentação dos Dados

BIO-103 Biologia evolutiva

Métodos Quantitativos Aplicados

TESTES NÃO-PARAMÉTRICOS

Comparações múltiplas

ESTATÍSTICA INFERENCIAL. Prof. Dr. Guanis de Barros Vilela Junior

Estatística Aplicada I. } Análise Bidimensional

Intervalos de confiança

Cauê Teixeira Rebeca Fuccio Thabata Oliveira

- Testes Qui-quadrado - Aderência e Independência

Estatística Descritiva (III) Associação entre Variáveis

Testes de Hipóteses Genéticas. Alan Silva. Doutorando PPG-GEN AU08

Introdução à análise exploratória de dados

Cruzamento de Dados. Lorí Viali, Dr. DESTAT/FAMAT/PUCRS

Estudo das hipóteses não paramétricas χ² de Pearson aplicado ao número de acidentes envolvendo motos na cidade de Campina Grande Paraíba.

Conceitos centrais em análise de dados

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV

Probabilidade e Estatística

Genética Quantitativa. Recursos Computacionais. Estatística. no Processo da Pesquisa. Desenvolvimento Avícola. Nutrição Manejo. Modelos Estatísticos

Testes não paramétricos são testes de hipóteses que não requerem pressupostos sobre a forma da distribuição subjacente aos dados.

Introdução aos Testes de Hipóteses

Prof. Lorí Viali, Dr.

Teste Qui-Quadrado Rio de Janeiro, 23 de setembro de 2012

Prof. Lorí Viali, Dr.

Métodos Empíricos de Pesquisa I. } Análise Bidimensional

Apontamentos de Introdução às Probabilidades e à Estatística

PROVA DE QUI-QUADRADO QUADRADO. Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística - PPGEMQ / PPGEP - UFSM -

Testes para dados categóricos

Inferência Estatística

Estatística Descritiva: organização dos dados. 1 - Distribuição de frequências

Introdução à probabilidade e à estatística II. Prof. Alexandre G Patriota Sala: 298A Site:

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo. Teste de Hipóteses

Lista 1 de Exercícios Estatística II-CE003

Prof. Lorí Viali, Dr.

Inferência Estatística:

Stela Adami Vayego DEST/UFPR

Princípios de Bioestatística

ANÁLISE EXPLORATÓRIA DE DADOS

Transcrição:

Análise de dados categóricos Universidade Estadual de Santa Cruz Ivan Bezerra Allaman

Cronograma 1. Introdução 2. Estimadores 3. Estatística de teste 4. Exemplo 5. Aplicações 2/21

Introdução Lembrando lá da estatística básica, quando nos referimos a dados categóricos, estamos nos referindo a variáveis que são mensuradas em escala nominal e ordinal. Neste tópico veremos métodos inferenciais aplicados a tabelas de contigências, técnica esta abordado em introdução a estatística e que será brevemente revisado. 3/21

Tabela de contigência de ordem n x p A tabela de contigência é uma técnica utilizada para avaliar se há associação ou não entre duas variáveis categóricas. Como exemplo poderíamos estudar se há relação entre: - - - - - Sexo e o hábito de fumar Grau de escolaridade dos pais e grau de escolaridade dos filhos Grau de stress e profissão Escolha partidária política e classe social Etc. 4/21

Hipóteses As hipóteses que iremos formular são as seguintes: H 0 : As variáveis são independentes, ou seja, não há associação entre elas H a : As variáveis não são independentes, ou seja, há associação entre elas 5/21

Estatística de teste Utilizaremos a estatística qui-quadrado para testarmos as hipóteses acima. A estatística de teste é a seguinte: = (O E) 2 χ 2 E com (coluna 1) (linha 1) graus de liberdade. Em que O representa a frequência observada na amostra e E a frequência esperada. A frequência esperada é calculada da seguinte forma: E = Total linha Total coluna Tamanho da amostra 6/21

Aplicação 1. Um estudo foi realizado com o intuito de estudar a associação entre sexo (masculino e feminino) e tabagismo (fumante e não fumante) em uma população. Coletou-se uma amostra de 300 pessoas adultas dessa população, fazendo-se a classificação segundo a tabela abaixo: Tabagismo Sexo/Masculino Sexo/Feminino Total Fumante 92(46) 38(38) 130 Não fumante 108(54) 62(62) 170 Total 200(100) 100(100) 300 7/21

Se observarmos a proporção entre parênteses, tudo nos leva a crer que não há associação entre tabagismo e sexo, pois a proporção de fumantes não se alterou com o sexo, ou seja, seja masculino ou feminino, a proporção de fumantes é menor. Percebam que esta é uma conclusão subjetiva, ou seja, estamos afirmando algo sem fornecer uma probabilidade de certeza. Logo, utilizaremos a estatística de teste quiquadrado para avaliarmos a associação entre variáveis qualitativas provenientes de uma tabela de contigência. 8/21

As hipóteses são: H 0 : Sexo e tabagismo são variáveis independentes, na população em estudo H a : Existe associação entre as variáveis sexo e tabagismo, na população em estudo 9/21

Vamos mostrar o cálculo da frequência esperada apenas para a célula que corresponde a masculino e fumante, pois o raciocínio é o mesmo para as demais células. (92 + 38) (92 + 108) E fu masc = 300 = 86, 67 Logo, tem-se a seguinte organização dos cálculos: Tabagismo Sexo Freq.observada Freq.esperada OmE OmE2 OmE2dE fumante Mascu 92 86.67 5.33 28.4089 0.3277824 nfumante Mascu 108 113.33-5.33 28.4089 0.2506741 fumante Femi 38 43.33-5.33 28.4089 0.6556404 nfumante Femi 62 56.67 5.33 28.4089 0.5013040 10/21

As abreviações OME, OME2, OME2dE significam respectivamente Freq. observada menos a freq. esperada, Freq. observada menos freq. esperada ao quadrado e Freq. observada menos freq. esperada ao quadrado dividido pela freq. esperada. Logo, para calcularmos o chi-quadrado calculado basta somarmos a última coluna. Portanto, temse: χ 2 = 1.735401 11/21

Agora nos resta encontrar o pvalor com 1 graus de liberdade. Este grau só serve para tabelas do tipo 2x2. Lembrando que já foi ensinado duas opções para encontrar quantis e probabilidades de funções de probabilidade e de densidades. Portanto, o p-valor é igual a p-valor = 0.1877226 Como o p-valor foi maior do que α, não rejeitase H 0, ou seja, não há razões para crermos que há uma relação entre sexo e tabagismo. 12/21

Correção de continuidade de Yates Quando existe alguma frequência esperada entre 5 e 10, há uma necessidade de se fazer uma correção na estatística qui-quadrado. Esta correção só é necessário quando a tabela tem dimensões 2 x 2. Nestes casos a correção é feita da seguinte forma: = ( O E 0, 5) 2 χ 2 E 13/21

Aplicação 2. Considere a seguinte amostra quanto a classificação de 38 indivíduos à ansiedade e tabagismo. Fumante Não fumante Ansioso 15 6 Nansioso 7 10 14/21

Tem-se as seguintes hipóteses: H 0 : Ansiedade e tabagismo são variáveis independentes, na população em estudo. H a : Existe associação entre as variáveis ansiedade e tabagismo, na população em estudo. Montando a tabela com os cálculos tem-se: Tabagismo Sexo Freq.observada Freq.esperada fumante Ansioso 15 12.157895 nfumante Ansioso 7 9.842105 fumante Nansioso 6 8.842105 Tabagismo Sexo Freq.observada Freq.esperada nfumante Nansioso 10 7.157895 15/21

Calculando a estatística qui-quadrado com a correção de yates, ois houve 3 células com frequência esperada entre 5 e 10 tem-se: χ 2 = 2.3952604. Logo, o p-valor com 1 graus de liberdade é igual a 0.1217035. Portanto, como o p-valor é maior do que α não rejeita-se H 0, ou seja, não há relação entre ansiedade e tabagismo. 16/21

Tabelas de grandes dimensões São tabelas com dimensões acima de 2x2, ou seja, com n linhas e p colunas. As técnicas apresentadas acima servem para qualquer dimensão de tabela. 17/21

Aplicação 3. Considerem os dados disponíveis no link http://nbcgib.uesc.br/lec/download/r/dados/barbetta.txt de uma pesquisa realizada em Santa Catarina a respeito do perfil de famílias de três localidades distintas. Vamos avaliar se existe associação entre "programa de alimentação popular (p.a.p)" e "local". Portanto, tem-se as seguintes hipóteses: H 0 : As variáveis p.a.p e localidade são independentes. H a : Existe associação entre as variáveis p.a.p e localidade. 18/21

Segue a tabela auxiliar com os cálculos. Local Pap O E (O-E) (O-E)^2 (O-E)^2/E Enc. morro Não usa 12 12.95-0.95 0.9 0.07 Monte V Não usa 18 14.00 4.00 16.0 1.14 Pq. figu. Não usa 12 15.05-3.05 9.3 0.62 Enc. morro Usa 25 24.05 0.95 0.9 0.04 Monte V Usa 22 26.00-4.00 16.0 0.62 Pq. figu. Usa 31 27.95 3.05 9.3 0.33 Somando-se a última coluna da tabela tem-se a estatística qui-quadrado igual a 2.8163917. O graus de liberdade é 2 conforme fórmula já explicada anteriormente. O p-valor é igual a 0.2445842. Logo, como o p-valor é maior do que α, não rejeita-se H 0. 19/21

Podemos ainda fazer um gráfico proveniente de uma tabela de contingência. Segue três opções de gráficos. 20/21

21/21