- Testes Qui-quadrado - Aderência e Independência

Documentos relacionados
- Testes Qui-quadrado - Aderência e Independência

- Testes Qui-quadrado. - Aderência e Independência

Testes de Aderência Testes de Independência Testes de Homogeneidade

Testes de Aderência, Homogeneidade e Independência

Medidas de associação entre duas variáveis qualitativas

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

Capítulo 6 Estatística não-paramétrica

Intervalos de Confiança

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Teste Qui-quadrado. Comparando proporções Verificando a hipótese de associação entre variáveis qualitativas

Estimação e Testes de Hipóteses

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

Capítulo 6 Estatística não-paramétrica

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

16/6/2014. Teste Qui-quadrado de independência

Análise de Dados Categóricos

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

NOÇÕES DE TESTE DE HIPÓTESES (I) Teste de hipóteses para a proporção populacional

Prof. Lorí Viali, Dr.

Os testes. Objetivos. O teste Q de Cochran; O teste de Friedman (Análise de variância de duplo fator por postos)

TESTES DE HIPÓTESES. Conceitos, Testes de 1 proporção, Testes de 1 média

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Gráfico de Probabilidades

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

NOÇÕES DE TESTE DE HIPÓTESES (I) Teste de hipóteses para a proporção populacional

X e Y independentes. n + 1 m

INFERÊNCIA ESTATÍSTICA. ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p

Testes de Hipóteses Genéticas. Alan Silva. Doutorando PPG-GEN

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

ANOVA - parte I Conceitos Básicos

Teste de Hipótese e Intervalo de Confiança

( ) = σ 2. Capítulo 8 - Testes de hipóteses. 8.1 Introdução

Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM

Teste de Cochran (Homogeneidade de Variância)

BIOMETRIA. Profa. Dra. Mõnica Trindade Abreu de Gusmão

Medidas de associação para variáveis categóricas em tabelas de dupla entrada

Estatística Aplicada. Prof. Carlos Alberto Stechhahn PARTE I ESPAÇO AMOSTRAL - EVENTOS PROBABILIDADE PROBABILIDADE CONDICIONAL.

Testes de hipóteses Paramétricos

Estatística: Objetivos e fundamentos

Coleta e Modelagem dos Dados de Entrada

7 Teste de Hipóteses

TESTE DE MANN-WHITNEY

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) EXPERIMENTOS COM DOIS FATORES E O PLANEJAMENTO FATORIAL

Teste Chi-Quadrado de Independência. Prof. David Prata Novembro de 2016

Teoria das Probabilidades

Métodos Quantitativos Aplicados

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ... ANÁLISE DE VARIÂNCIA. Departamento de Matemática ESTV.

O que é população? O que é amostra? Curso de Bacharelado em Educação Física e Saúde

Modelos de Regressão Linear Simples - Análise de Resíduos

Testes de Hipótese para uma única Amostra - parte I

6. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

CORRELAÇÃO. Flávia F. Feitosa

Testes de Hipóteses Paramétricos

HEP0138 BIOESTATÍSTICA

BAC011 - ESTATÍSTICA ANÁLISE DE VARIÂNCIA. Análise de Variância ANOVA. Prof. Dr. Emerson José de Paiva

Coeficiente de Assimetria

Análise do tempo médio gasto para travessia de uma avenida durante três horários de pico de trânsito do dia.

Delineamento, Tipos de Pesquisa, Amostragem. Prof. Alejandro Martins

Probabilidade e Estatística, 2010/2

mat.ufrgs..ufrgs.br br/~viali/ mat.ufrgs..ufrgs.br

Estatística. Nos exercícios que se seguem, e caso seja necessário, considere que os pressupostos necessários à aplicação da ANOVA são verificados.

ESTATÍSTICA INFERENCIAL. Prof. Dr. Guanis de Barros Vilela Junior

a) 19% b) 20% c) Aproximadamente 13% d) 14% e) Qualquer número menor que 20%

Modelos Probabilísticos Teóricos Discretos e Contínuos. Bernoulli, Binomial, Poisson, Uniforme, Exponencial, Normal

Teste de Gaussianidade 2

Aula 7. Testes de Hipóteses Paramétricos (II)

Distribuições Amostrais

Universidade Federal do Paraná Seminário de Bioestatistica. Teste de Wilcoxon. Danielle Pierin Olivia Cleto

Aula 7. Testes de Hipóteses Paramétricos (II)

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

PROVA DE QUI-QUADRADO QUADRADO. Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística - PPGEMQ / PPGEP - UFSM -

Aula 8. Teste Binomial a uma proporção p

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME:

Teste Anova. Prof. David Prata Novembro de 2016

Teste de hipóteses. Testes de Hipóteses. Valor de p ou P-valor. Lógica dos testes de hipótese. Valor de p 31/08/2016 VPS126

Amostragem e distribuições por amostragem

Testes de Significância Estatística para Avaliação de Algoritmos

A Metodologia de Box & Jenkins

Parte I Visão Geral do Processo de Pesquisa 21. Capítulo 1 Introdução à Pesquisa em Atividade Física 23

Teste Qui-quadrado de aderência Rinaldo Artes Insper Instituto de Ensino e Pesquisa 2014

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE

EXAME DE ESTATÍSTICA / ESTATÍSTICA I

VERSÃO RESPOSTAS PROVA DE MÉTODOS QUANTITATIVOS

Princípios de Bioestatística Teste de Hipóteses

Pesquisa Operacional II. Professor: Roberto César

DELINEAMENTO EM BLOCOS AO ACASO

Transcrição:

- Testes Qui-quadrado - Aderência e Independência 1

1. Testes de Aderência Objetivo: Testar a adequabilidade de um modelo probabilístico a um conjunto de dados observados Exemplo 1: Segundo Mendel (geneticista famoso), os resultados dos cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas seguem uma distribuição de probabilidades dada por: Resultado Amarela redonda Amarela enrugada Verde redonda Verde enrugada Probabilidade 9/16 3/16 3/16 1/16 Uma amostra de 556 ervilhas resultantes de cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas foi classificada da seguinte forma: Resultado Amarela redonda Amarela enrugada Verde redonda Verde enrugada Frequência observada 315 101 108 3

Há evidências de que os resultados desse experimento estão de acordo com a distribuição de probabilidades proposta por Mendel? 4 categorias para os resultados dos cruzamentos: Amarelas redondas (AR), Amarelas enrugadas (AE), Verdes redondas (VR), Verdes enrugadas (VE). Segundo Mendel, a probabilidade de cada categoria é dada por: Probabilidades: AR 9/16 AE 3/16 VR VE 3/16 1/16 3

No experimento, 556 ervilhas foram classificadas segundo o tipo de resultado, fornecendo a tabela a seguir: Tipo de resultado Frequência observada AR 315 AE 101 VR 108 VE 33 Total 556 Objetivo: Verificar se o modelo probabilístico proposto é adequado aos resultados do experimento. 4

Se o modelo probabilístico for adequado, a frequência esperada ervilhas do tipo AR, dentre as 556 observadas, pode ser calculada por: 556 x P(AR) = 556 x 9/16 = 31,75 Da mesma forma, temos para o tipo AE, 556 x P(AE) = 556 x 3/16 = 104,5 Para o tipo VR temos 556 x P(VR) = 556 x 3/16 = 104,5 E, para o tipo VE, 556 x P(VE) = 556 x 1/16 = 34,75 5

Podemos expandir a tabela de frequências dada anteriormente: Tipo de resultado Frequência observada Frequência esperada AR 315 31,75 AE 101 104,5 VR 108 104,5 VE 3 34,75 Total 556 556 Pergunta: Podemos afirmar que os valores observados estão suficientemente próximos dos valores esperados, de tal forma que o modelo probabilístico proposto por Mendel é adequado aos resultados desse experimento? 6

Testes de Aderência Metodologia Considere uma tabela de frequências, com k categorias de resultados: Categorias Frequência Observada 1 O 1 O 3 O 3 k Total O k n em que O i é o total de indivíduos observados na categoria i, i = 1,...,k. 7

Seja p i a probabilidade associada à categoria i, i = 1,..., k. O objetivo do teste de aderência é testar as hipóteses H : p 1 = p o1,..., p k = p ok A : existe pelo menos uma diferença sendo p oi a probabilidade especificada para a categoria i, i = 1,..., k, fixada através do modelo probabilístico de interesse. Se E i é o total de indivíduos esperados na categoria i, quando a hipótese H é verdadeira, então: E i = n p oi, i = 1,...,k 8

Expandindo a tabela de frequências original, temos Categorias Frequência observada Frequência esperada sob H 1 O 1 E 1 O E 3 O 3 E 3 k O k E k Total n n Quantificação da distância entre as colunas de frequências: χ k i 1 ( O i E E i i ) 9

k ( Oi Ei) E i 1 i Estatística do teste de aderência Supondo H verdadeira, k ( O ) i Ei E q i 1 i ~, aproximadamente, sendo que q = k - 1 representa o número de graus de liberdade. Em outras palavras, se H é verdadeira, a v.a. tem distribuição aproximada qui-quadrado com q graus de liberdade. IMPORTANTE.: Este resultado é válido para n grande e para E i 5, i = 1,..., k. 10

Regra de decisão: Pode ser baseada no nível descritivo ou valor P, neste caso obs em que é o valor calculado, a partir dos dados, usando a expressão apresentada para. Graficamente: P P ( q obs ), P obs Se, para a fixado, obtemos P a, rejeitamos a hipótese H. 11

Exemplo (continuação): Cruzamentos de ervilhas Hipóteses: H : O modelo probabilístico proposto por Mendel é adequado. A : O modelo proposto por Mendel não é adequado. De forma equivalente, podemos escrever: 1/16. H: P(AR) =9/16, P(AE) = 3/16, P(VR) = 3/16 e P(VE) = A: ao menos uma das igualdades não se verifica. A tabela seguinte apresenta os valores observados e esperados (calculados anteriormente). 1

obs Resultado O i E i AR 315 31,75 AE 101 104,5 VR 108 104,5 VE 3 34,75 Total 556 556 Cálculo do valor da estatística do teste ( k = 4): 4 ( O 1 i E E i i ) (315 31,75) 31,75 (101104,5) 104,5 0,016 0,101 0,135 0,18 0,470. Usando a distribuição de qui-quadrado com q = k-1 = 3 graus de liberdade, o nível descritivo é calculado por P P( 3 0,470) Conclusão: Para a = 0,05, como P = 0,95 > 0,05, não há evidências para rejeitarmos a hipótese H, isto é, ao nível de significância de 5%, concluímos o modelo de probabilidades 13 de Mendel se aplica aos resultados do experimento. 0,95. (108 104,5) 104,5 (3 34,75) 34,75

Exemplo : Deseja-se verificar se o número de acidentes em uma estrada muda conforme o dia da semana. O número de acidentes observado para cada dia de uma semana escolhida aleatoriamente foram: Dia da semana No. de acidentes Seg 0 Ter 10 Qua 10 Qui 15 Sex 30 Sab 0 Dom 35 O que pode ser dito? 14

Hipóteses a serem testadas: H: O número de acidentes não muda conforme o dia da semana; A: Pelo menos um dos dias tem número diferente dos demais. Se p i representa a probabilidade de ocorrência de acidentes no i-ésimo dia da semana, H: p i = 1/7 para todo i = 1,, 7 A: p i 1/7 para pelo menos um valor de i. Total de acidentes na semana: n =140. Logo, se H for verdadeira, E i = 140 x 1/7 = 0, i = 1,,7, ou seja, esperamos 0 acidentes por dia. 15

χ Dia da semana N o. de acidentes observados (O i ) N o. esperado de acidentes (E i ) Seg 0 0 Ter 10 0 Qua 10 0 Qui 15 0 Sex 30 0 Sab 0 0 Dom 35 0 Cálculo da estatística de qui-quadrado: obs 7 ( Oi 1 E E i i ) (0 0) 0 (10 0) 0 (30 0) 0 (0 0) 0 (10 0) 0 (35 0) 0 (15 0) 0 7,50 16

Neste caso, temos ~ 6, aproximadamente. O nível descritivo é dado por P P ( 7,50) 0,0001, 6 Conclusão: Para a = 0,05, temos que P = 0,0001 < a. Assim, há evidências para rejeitarmos H, ou seja, concluímos ao nível de significância de 5% que o número de acidentes não é o mesmo em todos os dias da semana. 17

. Testes de Independência Objetivo: Verificar se existe independência entre duas variáveis medidas nas mesmas unidades experimentais. Exemplo 3: A Associação de Imprensa do Estado de São Paulo fez um levantamento com 1300 leitores, para verificar se a preferência por leitura de um determinado jornal é independente do nível de instrução do indivíduo. Os resultados obtidos foram: Grau de instrução Tipo de Jornal Jornal A Jornal B Jornal C Outros Total 1 o Grau 10 8 5 7 50 o Grau 90 16 15 73 450 Universitário 00 50 0 130 800 Total 300 40 350 30 1300 18

Vamos calcular proporções segundo os totais das colunas (poderiam também ser calculadas pelos totais das linhas. Temos a seguinte tabela: Grau de instrução Tipo de Jornal Jornal A Jornal B Jornal C Outros Total 1 o Grau 3,33% 1,90% 1,43% 11,74% 3,85% o Grau 30,00% 38,57% 35,71% 31,74% 34,6% Universitário 66,67% 59,5% 6,86% 56,5% 61,54% Total 100,00% 100,00% 100,00% 100,00% 100,00% Independentemente da preferência por um tipo de jornal, 3,85% dos leitores têm o 1º Grau, 34,6% têm o º Grau e 61,54% são universitários. 19

Sob independência entre grau de instrução e preferência por um tipo de jornal, o número esperado de leitores que têm o 1º Grau e preferem o jornal A é igual a 300 x 0,0385 = 11,54, que têm o º Grau e preferem o Jornal A é 300 x 0,346 = 103,85 e que são universitários e preferem o jornal A é 300 x 0,6154 = 184,6. Grau de instrução 1 o Grau 10 11,54 (3,85%) o Grau 90 103,85 (34,6)% 00 Universitário 184,6 (61,54%) Tipo de Jornal Jornal A Jornal B Jornal C Outros Total 8 16,15 (3,85%) 16 145,38 (34,6%) 50 58,46 (61,54%) 5 13,46 (3,85%) 15 11,15 (34,6%) 0 15,38 (61,54%) 7 8,85 (3,85%) 73 79,6 (34,6%) 130 141,54 (61,54%) As diferenças entre os valores observados e os esperados não são muito pequenas. Preferência por um tipo de jornal e grau de instrução parecem não ser independentes. 50 450 800 Total 300 40 350 30 1300 0

Testes de Independência Metodologia Em geral, os dados referem-se a mensurações de duas características (A e B) feitas em n unidades experimentais, que são apresentadas conforme a seguinte tabela: A \ B B 1 B... B s Total A 1 O 11 O 1... O 1s O 1. A O 1 O... O s O................... A r O r1 O r... O rs O r. Total O.1 O.... O.s n Hipóteses a serem testadas Teste de independência: H: A e B são variáveis independentes A: As variáveis A e B não são independentes 1

Quantas observações devemos esperar em cada casela, se A e B forem independentes? Sendo O ij o total de observações na casela (i, j), se A e B forem independentes, esperamos que, para todos os possíveis pares (A i e B j ): O i1 /O.1 = O i /O. =... = O is /O.s = O i. /n, i = 1,..., r ou ainda O ij /O.j = O i. /n = 1,..., r, j = 1,..., s de onde se deduz, finalmente, que O ij = (O i. x O.j )/n, i = 1,,, r e j = 1,,,s. Logo, o número esperado de observações com as características (A i e B j ), entre as n observações, sob a hipótese de independência, é dado por E ij O i. n O. j

Distância entre os valores observados e os valores esperados sob a suposição de independência: χ s r ( Oij ij ) i1 j 1 E Eij Estatística do teste de independência Supondo H verdadeira, ( O E ) r s ij ij ~ q i1 j1 Eij aproximadamente, sendo q = ( r 1) ( s 1 ) o número de graus de liberdade. 3

Regra de decisão: Pode ser baseada no valor P (nível descritivo), neste caso obs em que é o valor calculado, a partir dos dados, usando a expressão apresentada para. Graficamente: P P ( q obs ) P obs Se, para a fixado, obtemos P a, rejeitamos a hipótese H de independência. 4

Exemplo (continuação): Estudo da independência entre preferência por um tipo de jornal e grau de instrução. 1300 eleitores foram entrevistados ao acaso. Hipóteses H: As variáveis preferência por um tipo de jornal e grau de instrução são independentes. A: Existe dependência entre as variáveis. Grau de instrução Tipo de Jornal Jornal A Jornal B Jornal C Outros Total 1 o Grau 10 8 5 7 50 o Grau 90 16 15 73 450 Universitário 00 50 0 130 800 Total 300 40 350 30 1300 Exemplo do cálculo dos valores esperados sob H (independência): Número esperado de leitores que têm 1º Grau e preferem o jornal A: 30050. E 11 1300 11,54 5

Tabela de valores observados e esperados (entre parênteses) Tipo de Jornal Grau de instrução Jornal A Jornal B Jornal C Outros Total 1 o Grau 10 8 5 7 (11,54) (16,15) (13,46) (8,85) 50 o Grau 90 16 15 73 (103,85) (145,38) (11,15) (79,6) 450 Universitário 00 50 0 130 (184,6) (58,46) (15,38) (141,54) 800 Total 300 40 350 30 1300 º Grau e prefere jornal B: Universitário e prefere outros jornais: E 40 450 1300 145,38 E Lembre-se: ij O O i. n...j E 34 30 800 141,54 1300 6

Cálculo da estatística de qui-quadrado: obs 53,910. (10 11,54) 11,54 (90 103,85) 103,85 Tipo de Jornal Grau de instrução Jornal A Jornal B Jornal C Outros Total 1 o Grau 10 8 5 7 (11,54) (16,15) (13,46) (8,85) 50 o Grau 90 16 15 73 (103,85) (145,38) (11,15) (79,6) 450 Universitário 00 50 0 130 (184,6) (58,46) (15,38) (141,54) 800 Total 300 40 350 30 1300 (00 184,6) 184,6 (8 16,15) 16,15 (16 145,38) 145,38 (50 58,46) 58,46 (5 13,46) 13,46 (15 11,15) 11,15 (0 15,38) 15,38 (7 8,85) 8,85 (73 79,6) 79,6 (130 141,54) 141,54 7

Determinação do número de graus de liberdade: Categorias de Grau de instrução: s = 3 Categorias de Tipo de jornal: r = 4 O nível descritivo (valor P): P P ( 6 53,910) q = (r 1)(s 1) = 3 = 6 0,0001 Supondo a 0,05, temos P < a. Assim, temos evidências para rejeitar a independência entre as variáveis grau de instrução e preferência por tipo de jornal ao nível de 5% de significância. 8