- Testes Qui-quadrado. - Aderência e Independência

Documentos relacionados
Testes de Aderência Testes de Independência Testes de Homogeneidade

- Testes Qui-quadrado - Aderência e Independência

- Testes Qui-quadrado - Aderência e Independência

- Testes Qui-quadrado - Aderência e Independência

2. Testes de Independência

Aula 16: Análise de Aderência e Associação

Capítulo 6 Estatística não-paramétrica

Análise de Aderência e de Associação

Capítulo 6 Estatística não-paramétrica

Testes de Aderência, Homogeneidade e Independência

Testes de Aderência, Homogeneidade e Independência

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Testes de Aderência, Homogeneidade e Independência

MAE0229 Introdução à Probabilidade e Estatística II

Testes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

X ~ Binomial (n ; p) H: p = p 0 x A: p p 0 (ou A: p > p 0 ou A: p < p 0 ) { X k 1 } U { X k 2 } (ou { X k } ou { X k }) x RC não rejeitamos H

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

Teste Qui-Quadrado para Independência Texto criado na data. 7 de novembro de 2018

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

Stela Adami Vayego Estatística II CE003/DEST/UFPR

Probabilidade e Estatística

Stela Adami Vayego DEST/UFPR

Teste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Intervalos de Confiança

Análise de Dados Categóricos

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

CURSO DE MEDICINA EXERCÍCIOS GENÉTICA DE POPULAÇÕES

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

AULA 8 Experimentos multinomiais e tabelas de contingência

Teste Qui-quadrado. Comparando proporções Verificando a hipótese de associação entre variáveis qualitativas

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Prof. Lorí Viali, Dr.

Tópicos Extras 1ª parte. Testes Não Paramétricos, Análise Multivariada, Outras Técnicas

BIO-103 Biologia evolutiva

Os testes. Objetivos. O teste Q de Cochran; O teste de Friedman (Análise de variância de duplo fator por postos)

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste Qui-Quadrado

Unidade IV Inferência estatística

Aula prática 4 Parte I - Correlação e regressão linear simples

Teste de Hipóteses em Genética. Professora Lupe Furtado Alle

ECOLOGIA II RELATÓRIO 1-2ªPARTE. Trabalho realizado por:

16/6/2014. Teste Qui-quadrado de independência

Estimação e Testes de Hipóteses

Associação entre variáveis categóricas e IC95%

AULA 05 Teste de Hipótese

Teste de Hipóteses em Genética. Professora Lupe Furtado Alle

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

MATRÍCULA: EXERCÍCIOS SOBRE GENÉTICA DE POPULAÇÕES

Medidas de associação entre duas variáveis qualitativas

7.13 Exercicios sobre Qui-quadrado

UNIVERSIDADE FEDERAL DO PARANÁ Setor de Ciências Biológicas Departamento de Genética BG403 - GENÉTICA ANIMAL. Respostas da lista de exercícios

Cap. 9 Comparação entre tratamentos

(a) Teste e IC para Duas Variâncias. (b) Teste para médias. Duas Amostras de Teste T e IC

Teste de Hipótese. Capítulo 8 Triola, 10 a. Ed. (Capítulo 7 Triola, 9 a. Ed.) 1 Visão Geral. 2 Fundamentos do teste de hipótese

Estatística II Licenciatura em Gestão TESTE I

Testes de Hipóteses Genéticas. Alan Silva. Doutorando PPG-GEN AU08

Inferência Estatística Básica. Teste de Hipóteses: decidindo na presença de incerteza

Análise de Dados Categóricos Tabelas 2 2

Probabilidade e Estatística

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

Introdução em Probabilidade e Estatística II

Aula 5. Teste de Hipóteses II. Capítulo 12, Bussab&Morettin Estatística Básica 7ª Edição

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Modelos de Regressão Linear Simples - Erro Puro e Falta de Ajuste

MAE116 Noções de Estatística

Esquema Fatorial. Lucas Santana da Cunha Universidade Estadual de Londrina

AULA 11 Teste de Hipótese

Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito

BAC011 - ESTATÍSTICA ANÁLISE DE VARIÂNCIA. Análise de Variância ANOVA. Prof. Dr. Emerson José de Paiva

Delineamento e Análise Experimental Aula 3

Capítulo 5 Distribuições de Probabilidades. Seção 5-1 Visão Geral. Visão Geral. distribuições de probabilidades discretas

Testes de Hipóteses. : Existe efeito

GENÉTICA DE POPULAÇÃO

Transcrição:

- Testes Qui-quadrado - Aderência e Independência 1

1. Testes de Aderência Objetivo: Testar a adequabilidade de um modelo probabilístico a um conjunto de dados observados Exemplo 1: 1 Genética Equilíbrio Hardy-Weinberg Aa Aa AA Aa aa Probabilidades: (Modelo teórico) ¼ ½ ¼ 3 categorias: AA, Aa, aa

Em uma certa população, 100 descendentes foram estudados, fornecendo a tabela a seguir: Genótipo AA Aa aa Freqüência observada 6 45 9 100 Objetivo: Verificar se o modelo genético proposto é adequado para essa população 3

Se o modelo Hardy-Weinberg for adequado, a freqüência esperada de descendentes para o genótipo AA, dentre os 100 indivíduos, pode ser calculada por: 100 P(AA) = 100 = 5 1 4 Da mesma forma, temos para o genótipo Aa, 100 P(Aa) = 100 = 50 1 E para o genótipo aa, 100 P(aa) = 100 = 5 1 4 4

Podemos expandir a tabela de freqüências dada anteriormente: Genótipo AA Aa aa Freqüência observada 6 45 9 100 Freqüência esperada 5 50 5 100 Pergunta: Podemos afirmar que os valores observados estão suficientemente próximos dos valores esperados, de tal forma que o modelo Hardy-Weinberg é adequado a esta população? 5

1. Testes de Aderência Metodologia Considere uma tabela de freqüências, com k categorias de resultados: Categorias 1 3 M k Freqüência Observada O 1 O O 3 M O k n em que O i é o total de indivíduos observados na categoria i, i = 1,...,k. 6

Seja p i a probabilidade associada à categoria i, i=1,...,k. O objetivo do teste de aderência é testar as hipóteses H : p 1 = p o1,..., p k = p ok A : existe pelo menos uma diferença sendo p oi a probabilidade especificada para a categoria i, i=1,...,k, fixada através do modelo probabilístico de interesse. Se E i é o total de indivíduos esperados na categoria i, quando a hipótese H é verdadeira, então: E i = n p oi, i = 1,...,k 7

Expandindo a tabela de freqüências original, temos Categorias 1 3 Freqüência observada O 1 O O 3 O k n Freqüência esperada sob H E 1 E E 3 M M M k E k n Quantificação da distância entre as colunas de freqüências: χ = k = i 1 ( O i E E i i ) 8

χ k i = 1 ( Oi Ei ) E i = Estatística do teste de aderência Supondo H verdadeira, χ ( Oi Ei ) E k = χq i = 1 i ~, aproximadamente, sendo que q = k - 1 representa o número de graus de liberdade. Em outras palavras, se H é verdadeira, a v.a. χ tem distribuição aproximada qui-quadrado com q graus de liberdade. Obs.: Este resultado é válido para n grande e para E i 5, i = 1,..., k. 9

Regra de decisão: Pode ser baseada no nível descritivo P, neste caso χ obs Graficamente: P = P( χ χ ), q obs em que é o valor calculado, a partir dos dados, usando a expressão apresentada para χ. P χ obs Se, para α fixado, obtemos P α, rejeitamos a hipótese H. 10

Exemplo (continuação): Genética Equilíbrio Hardy-Weinberg: Hipóteses: H : O modelo proposto é adequado a esta situação A : O modelo não é adequado a esta situação De forma equivalente, podemos escrever: H: P(AA) = ¼, P(Aa) = ½ e P(aa) = ¼ A: ao menos uma das igualdades não se verifica A tabela seguinte apresenta os valores observados e esperados (calculados anteriormente). 11

Genótipo AA Aa aa O i 6 45 9 100 E i 5 50 5 100 Cálculo do valor da estatística do teste ( k = 3): χ obs 3 = 1 ( O i E E i i ) (6 5) = 5 = 0,04 + 0,50 + 0,64 = 1,18 Usando a distribuição de qui-quadrado com q = k-1 = graus de liberdade, o nível descritivo é calculado por P = P ( χ 1,18) = 0,5543. (45 50) + 50 Conclusão: Para α = 0,05, como P = 0,5543 > 0,05, não rejeitamos a hipótese H, isto é, essa população segue o equilíbrio Hardy-Weinberg. (9 5) + 5 = 1

O cálculo do nível descritivo P pode ser feito no MINITAB, através dos comandos: MTB > cdf 1.18 k1; SUBC> chisquare. MTB > let k = 1 - k1 MTB > print k Data Display K 0.55437 MTB > Nível descritivo 13

Exemplo : Deseja-se verificar se o número de acidentes em uma estrada muda conforme o dia da semana. O número de acidentes observado para cada dia de uma semana escolhida aleatoriamente foram: Dia da semana Seg Ter Qua Qui Sex Sab Dom No. de acidentes 0 10 10 15 30 0 35 O que pode ser dito? 14

Hipóteses a serem testadas: H: O número de acidentes não muda conforme o dia da semana; A: Pelo menos um dos dias tem número diferente dos demais. Se p i representa a probabilidade de ocorrência de acidentes no i-ésimo dia da semana, H: p i = 1/7 para todo i = 1,, 7 A: p i 1/7 para pelo menos um valor de i. de acidentes na semana: n =140. Logo, se H for verdadeira, E i = 140 x 1/7 = 0, i = 1,,7, ou seja, esperamos 0 acidentes por dia. 15

Dia da semana Seg Ter Qua Qui Sex Sab Dom N o. de acidentes observados (O i ) 0 10 10 15 30 0 35 N o. esperado de acidentes (E i ) 0 0 0 0 0 0 0 χ Cálculo da estatística de qui-quadrado: obs 7 = 1 ( O i E E i i ) (0 0) = 0 (10 0) + 0 (30 0) 0 (0 0) + 0 (10 0) + 0 (35 0) + 0 (15 0) + 0 = 7,50 16 +

Neste caso, temos χ ~ χ 6, aproximadamente. O nível descritivo é dado por P = P( χ 7,50) e pode ser obtido no MINITAB por: MTB > cdf 7.50 k1; SUBC> chisquare 6. MTB > let k = 1 - k1 MTB > print k 6 Data Display K 0.000116680 Logo, para α = 0,05, segue que P = 0,0001 < α e, assim, rejeitamos H, e concluímos que o número de acidentes não é o mesmo em todos os dias da semana. 17

. Testes de Independência Objetivo: Verificar se existe independência entre duas variáveis medidas nas mesmas unidades experimentais. Exemplo 3: 3 Deseja-se verificar se existe dependência entre a renda e o número de filhos em famílias de uma cidade. 50 famílias escolhidas ao acaso forneceram a tabela a seguir: Renda (R$) menos de 000 0 15 Número de filhos 1 + de 7 50 43 135 000 a 5000 5 30 1 8 75 5000 ou mais 8 13 9 10 40 48 70 71 61 50 18

Em geral, os dados referem-se a mensurações de duas características (A e B) feitas em n unidades experimentais, que são apresentadas conforme a seguinte tabela: Hipóteses a serem testadas Teste de independência: H: A e B são variáveis independentes A: As variáveis A e B não são independentes 19

Quantas observações devemos ter em cada casela, se A e B forem independentes? Se A e B forem independentes, temos que, para todos os possíveis pares (A i e B j ): P(A i B j ) = p ij = P(A i ) P(B j ), para i = 1,,, r e j = 1,,,s. Logo, o número esperado de observações com as características (A i e B j ), entre as n observações sob a hipótese de independência, é dado por ni. Eij = n pij = n pi. p.j = n n sendo p ij a proporção de observações com as características (A i e B j ). Assim, E ij = n i. n n.j O processo deve ser repetido para todas as caselas (i, j). n.j n, 0

Distância entre os valores observados e os valores esperados sob a suposição de independência: χ = s r i = 1 j = 1 ( O ij E ij ) E ij Estatística do teste de independência em que O ij = n ij representa o total de observações na casela (i, j). Supondo H verdadeira, χ ( O E ) r s = ij ij ~ χq i = 1 j = 1 Eij sendo q = ( r 1) ( s 1 ) graus de liberdade. 1

Regra de decisão: Pode ser baseada no nível descritivo P, neste caso χ obs Graficamente: P = P( χ χ ), q obs em que é o valor calculado, a partir dos dados, usando a expressão apresentada para χ. P χ obs Se, para α fixado, obtemos P α,, rejeitamos a hipótese H de independência.

Exemplo (continuação): Estudo da dependência entre renda e o número de filhos 50 famílias foram escolhidas ao acaso Hipóteses H: O número de filhos e a renda são independentes A: Existe dependência entre o número de filhos e a renda Renda (R$) menos de 000 0 15 Número de filhos 1 7 50 + de 43 135 000 a 5000 5 30 1 8 75 5000 ou mais 8 13 9 10 40 48 70 71 61 50 Exemplo do cálculo dos valores esperados sob H (independência): Número esperado de famílias sem filhos e renda menor que R$ 000: E 11 48 135 = = 5,9. 50 3

Tabela de valores observados e esperados (entre parênteses) Renda (R$) 0 1 Número de filhos + de menos de 000 15(5,9) 7(37,80) 50(38,34) 43(3,94) 135 000 a 5000 5000 ou mais 5(14,40) 8(7,68) 30(1,00) 13(11,0) 1(1,30) 9(11,36) 8(18,30) 10(9,76) 75 40 48 70 71 61 50 1 filho e renda de R$ 000 a R$ 5000: E 70 75 = = 1,00 50 E Lembre-se: ij = n ou + filhos e renda de R$ 5000 ou mais: n i j n E 34 61 40 = = 9,76 50 4

Cálculo da estatística de qui-quadrado: quadrado: Renda (R$) 0 1 Número de filhos + de menos de 000 15(5,9) 7(37,80) 50(38,34) 43(3,94) 135 000 a 5000 5(14,40) 30(1,00) 1(1,30) 8(18,30) 75 5000 ou mais 8(7,68) 13(11,0) 9(11,36) 10(9,76) 40 48 70 71 61 50 χ obs ( 15 5,9) ( 5 14,40) ( 8 7,68) ( 7 37,80 ) = + + + + 5,9 14,40 7,68 37,80 ( 30 1,00 ) ( 13 11,0 ) ( 50 38,34) ( 1 1,30 ) + + + + + 1,00 11,0 38,34 1,30 ( 1 1,30 ) ( 9 11,36 ) ( 43 3,94 ) ( 8 18,30) + + + + + 1,30 11,36 3,94 18,30 ( 10 9,76) + = 36,6. 9,76 5

Determinação do número de graus de liberdade: Categorias de renda: r = 3 Categorias de nº de filhos: s = 4 q = (r 1) (s 1) = 3 = 6 χ ~ χ 6 Logo, e, supondo α = 0,05, P = P( χ 36,6) = 0,000 6 Como P = 0,000 < α = 0,05, rejeitamos a independência entre número de filhos e renda familiar. Os cálculos podem ser feitos diretamente no MINITAB: Stat Tables Chi-Square test 6

Saída do MINITAB: Chi-Square Test Expected counts are printed below observed counts C1 C C3 C4 1 15 7 50 43 135 5,9 37,80 38,34 3,94 5 30 1 8 75 14,40 1,00 1,30 18,30 3 8 13 9 10 40 7,68 11,0 11,36 9,76 48 70 71 61 50 Chi-Sq = 4,601 + 3,086 + 3,546 + 3,07 + 7,803 + 3,857 + 4,061 + 5,797 + 0,013 + 0,89 + 0,490 + 0,006 = 36,61 DF = 6, P-Value = 0,000 7

Exemplo 4: 4 137 indivíduos adultos classificados segundo a pressão sangüínea (mm Hg) e o nível de colesterol (mg/100cm 3 ). Verificar se existe independência entre essas variáveis. Colesterol < 17 Pressão 17 a 166 >166 <00 117 168 307 00 a 60 04 418 63 685 >60 67 145 33 45 388 731 118 137 H: Pressão sangüínea e nível de colesterol são independentes; A: Nível de colesterol e pressão sangüínea são variáveis dependentes. 8

Saída do MINITAB: Chi-Square Test Expected counts are printed below observed counts C1 C C3 1 117 168 307 96,9 181,4 9,9 04 418 63 685 14,86 404,80 65,34 3 67 145 33 45 76,85 144,78 3,37 388 731 118 137 Chi-Sq = 4,45 + 0,993 + 1,81 + 0,549 + 0,431 + 0,084 + 1,6 + 0,000 + 3,967 = 13,550 DF = 4, P-Value = 0,009 Rejeitamos a independência entre pressão sangüínea e nível de colesterol (α = 0,05). 9