- Testes Qui-quadrado - Aderência e Independência 1
1. Testes de Aderência Objetivo: Testar a adequabilidade de um modelo probabilístico a um conjunto de dados observados Exemplo 1: 1 Genética Equilíbrio Hardy-Weinberg Aa Aa AA Aa aa Probabilidades: (Modelo teórico) ¼ ½ ¼ 3 categorias: AA, Aa, aa
Em uma certa população, 100 descendentes foram estudados, fornecendo a tabela a seguir: Genótipo AA Aa aa Freqüência observada 6 45 9 100 Objetivo: Verificar se o modelo genético proposto é adequado para essa população 3
Se o modelo Hardy-Weinberg for adequado, a freqüência esperada de descendentes para o genótipo AA, dentre os 100 indivíduos, pode ser calculada por: 100 P(AA) = 100 = 5 1 4 Da mesma forma, temos para o genótipo Aa, 100 P(Aa) = 100 = 50 1 E para o genótipo aa, 100 P(aa) = 100 = 5 1 4 4
Podemos expandir a tabela de freqüências dada anteriormente: Genótipo AA Aa aa Freqüência observada 6 45 9 100 Freqüência esperada 5 50 5 100 Pergunta: Podemos afirmar que os valores observados estão suficientemente próximos dos valores esperados, de tal forma que o modelo Hardy-Weinberg é adequado a esta população? 5
1. Testes de Aderência Metodologia Considere uma tabela de freqüências, com k categorias de resultados: Categorias 1 3 M k Freqüência Observada O 1 O O 3 M O k n em que O i é o total de indivíduos observados na categoria i, i = 1,...,k. 6
Seja p i a probabilidade associada à categoria i, i=1,...,k. O objetivo do teste de aderência é testar as hipóteses H : p 1 = p o1,..., p k = p ok A : existe pelo menos uma diferença sendo p oi a probabilidade especificada para a categoria i, i=1,...,k, fixada através do modelo probabilístico de interesse. Se E i é o total de indivíduos esperados na categoria i, quando a hipótese H é verdadeira, então: E i = n p oi, i = 1,...,k 7
Expandindo a tabela de freqüências original, temos Categorias 1 3 Freqüência observada O 1 O O 3 O k n Freqüência esperada sob H E 1 E E 3 M M M k E k n Quantificação da distância entre as colunas de freqüências: χ = k = i 1 ( O i E E i i ) 8
χ k i = 1 ( Oi Ei ) E i = Estatística do teste de aderência Supondo H verdadeira, χ ( Oi Ei ) E k = χq i = 1 i ~, aproximadamente, sendo que q = k - 1 representa o número de graus de liberdade. Em outras palavras, se H é verdadeira, a v.a. χ tem distribuição aproximada qui-quadrado com q graus de liberdade. Obs.: Este resultado é válido para n grande e para E i 5, i = 1,..., k. 9
Regra de decisão: Pode ser baseada no nível descritivo P, neste caso χ obs Graficamente: P = P( χ χ ), q obs em que é o valor calculado, a partir dos dados, usando a expressão apresentada para χ. P χ obs Se, para α fixado, obtemos P α, rejeitamos a hipótese H. 10
Exemplo (continuação): Genética Equilíbrio Hardy-Weinberg: Hipóteses: H : O modelo proposto é adequado a esta situação A : O modelo não é adequado a esta situação De forma equivalente, podemos escrever: H: P(AA) = ¼, P(Aa) = ½ e P(aa) = ¼ A: ao menos uma das igualdades não se verifica A tabela seguinte apresenta os valores observados e esperados (calculados anteriormente). 11
Genótipo AA Aa aa O i 6 45 9 100 E i 5 50 5 100 Cálculo do valor da estatística do teste ( k = 3): χ obs 3 = 1 ( O i E E i i ) (6 5) = 5 = 0,04 + 0,50 + 0,64 = 1,18 Usando a distribuição de qui-quadrado com q = k-1 = graus de liberdade, o nível descritivo é calculado por P = P ( χ 1,18) = 0,5543. (45 50) + 50 Conclusão: Para α = 0,05, como P = 0,5543 > 0,05, não rejeitamos a hipótese H, isto é, essa população segue o equilíbrio Hardy-Weinberg. (9 5) + 5 = 1
O cálculo do nível descritivo P pode ser feito no MINITAB, através dos comandos: MTB > cdf 1.18 k1; SUBC> chisquare. MTB > let k = 1 - k1 MTB > print k Data Display K 0.55437 MTB > Nível descritivo 13
Exemplo : Deseja-se verificar se o número de acidentes em uma estrada muda conforme o dia da semana. O número de acidentes observado para cada dia de uma semana escolhida aleatoriamente foram: Dia da semana Seg Ter Qua Qui Sex Sab Dom No. de acidentes 0 10 10 15 30 0 35 O que pode ser dito? 14
Hipóteses a serem testadas: H: O número de acidentes não muda conforme o dia da semana; A: Pelo menos um dos dias tem número diferente dos demais. Se p i representa a probabilidade de ocorrência de acidentes no i-ésimo dia da semana, H: p i = 1/7 para todo i = 1,, 7 A: p i 1/7 para pelo menos um valor de i. de acidentes na semana: n =140. Logo, se H for verdadeira, E i = 140 x 1/7 = 0, i = 1,,7, ou seja, esperamos 0 acidentes por dia. 15
Dia da semana Seg Ter Qua Qui Sex Sab Dom N o. de acidentes observados (O i ) 0 10 10 15 30 0 35 N o. esperado de acidentes (E i ) 0 0 0 0 0 0 0 χ Cálculo da estatística de qui-quadrado: obs 7 = 1 ( O i E E i i ) (0 0) = 0 (10 0) + 0 (30 0) 0 (0 0) + 0 (10 0) + 0 (35 0) + 0 (15 0) + 0 = 7,50 16 +
Neste caso, temos χ ~ χ 6, aproximadamente. O nível descritivo é dado por P = P( χ 7,50) e pode ser obtido no MINITAB por: MTB > cdf 7.50 k1; SUBC> chisquare 6. MTB > let k = 1 - k1 MTB > print k 6 Data Display K 0.000116680 Logo, para α = 0,05, segue que P = 0,0001 < α e, assim, rejeitamos H, e concluímos que o número de acidentes não é o mesmo em todos os dias da semana. 17
. Testes de Independência Objetivo: Verificar se existe independência entre duas variáveis medidas nas mesmas unidades experimentais. Exemplo 3: 3 Deseja-se verificar se existe dependência entre a renda e o número de filhos em famílias de uma cidade. 50 famílias escolhidas ao acaso forneceram a tabela a seguir: Renda (R$) menos de 000 0 15 Número de filhos 1 + de 7 50 43 135 000 a 5000 5 30 1 8 75 5000 ou mais 8 13 9 10 40 48 70 71 61 50 18
Em geral, os dados referem-se a mensurações de duas características (A e B) feitas em n unidades experimentais, que são apresentadas conforme a seguinte tabela: Hipóteses a serem testadas Teste de independência: H: A e B são variáveis independentes A: As variáveis A e B não são independentes 19
Quantas observações devemos ter em cada casela, se A e B forem independentes? Se A e B forem independentes, temos que, para todos os possíveis pares (A i e B j ): P(A i B j ) = p ij = P(A i ) P(B j ), para i = 1,,, r e j = 1,,,s. Logo, o número esperado de observações com as características (A i e B j ), entre as n observações sob a hipótese de independência, é dado por ni. Eij = n pij = n pi. p.j = n n sendo p ij a proporção de observações com as características (A i e B j ). Assim, E ij = n i. n n.j O processo deve ser repetido para todas as caselas (i, j). n.j n, 0
Distância entre os valores observados e os valores esperados sob a suposição de independência: χ = s r i = 1 j = 1 ( O ij E ij ) E ij Estatística do teste de independência em que O ij = n ij representa o total de observações na casela (i, j). Supondo H verdadeira, χ ( O E ) r s = ij ij ~ χq i = 1 j = 1 Eij sendo q = ( r 1) ( s 1 ) graus de liberdade. 1
Regra de decisão: Pode ser baseada no nível descritivo P, neste caso χ obs Graficamente: P = P( χ χ ), q obs em que é o valor calculado, a partir dos dados, usando a expressão apresentada para χ. P χ obs Se, para α fixado, obtemos P α,, rejeitamos a hipótese H de independência.
Exemplo (continuação): Estudo da dependência entre renda e o número de filhos 50 famílias foram escolhidas ao acaso Hipóteses H: O número de filhos e a renda são independentes A: Existe dependência entre o número de filhos e a renda Renda (R$) menos de 000 0 15 Número de filhos 1 7 50 + de 43 135 000 a 5000 5 30 1 8 75 5000 ou mais 8 13 9 10 40 48 70 71 61 50 Exemplo do cálculo dos valores esperados sob H (independência): Número esperado de famílias sem filhos e renda menor que R$ 000: E 11 48 135 = = 5,9. 50 3
Tabela de valores observados e esperados (entre parênteses) Renda (R$) 0 1 Número de filhos + de menos de 000 15(5,9) 7(37,80) 50(38,34) 43(3,94) 135 000 a 5000 5000 ou mais 5(14,40) 8(7,68) 30(1,00) 13(11,0) 1(1,30) 9(11,36) 8(18,30) 10(9,76) 75 40 48 70 71 61 50 1 filho e renda de R$ 000 a R$ 5000: E 70 75 = = 1,00 50 E Lembre-se: ij = n ou + filhos e renda de R$ 5000 ou mais: n i j n E 34 61 40 = = 9,76 50 4
Cálculo da estatística de qui-quadrado: quadrado: Renda (R$) 0 1 Número de filhos + de menos de 000 15(5,9) 7(37,80) 50(38,34) 43(3,94) 135 000 a 5000 5(14,40) 30(1,00) 1(1,30) 8(18,30) 75 5000 ou mais 8(7,68) 13(11,0) 9(11,36) 10(9,76) 40 48 70 71 61 50 χ obs ( 15 5,9) ( 5 14,40) ( 8 7,68) ( 7 37,80 ) = + + + + 5,9 14,40 7,68 37,80 ( 30 1,00 ) ( 13 11,0 ) ( 50 38,34) ( 1 1,30 ) + + + + + 1,00 11,0 38,34 1,30 ( 1 1,30 ) ( 9 11,36 ) ( 43 3,94 ) ( 8 18,30) + + + + + 1,30 11,36 3,94 18,30 ( 10 9,76) + = 36,6. 9,76 5
Determinação do número de graus de liberdade: Categorias de renda: r = 3 Categorias de nº de filhos: s = 4 q = (r 1) (s 1) = 3 = 6 χ ~ χ 6 Logo, e, supondo α = 0,05, P = P( χ 36,6) = 0,000 6 Como P = 0,000 < α = 0,05, rejeitamos a independência entre número de filhos e renda familiar. Os cálculos podem ser feitos diretamente no MINITAB: Stat Tables Chi-Square test 6
Saída do MINITAB: Chi-Square Test Expected counts are printed below observed counts C1 C C3 C4 1 15 7 50 43 135 5,9 37,80 38,34 3,94 5 30 1 8 75 14,40 1,00 1,30 18,30 3 8 13 9 10 40 7,68 11,0 11,36 9,76 48 70 71 61 50 Chi-Sq = 4,601 + 3,086 + 3,546 + 3,07 + 7,803 + 3,857 + 4,061 + 5,797 + 0,013 + 0,89 + 0,490 + 0,006 = 36,61 DF = 6, P-Value = 0,000 7
Exemplo 4: 4 137 indivíduos adultos classificados segundo a pressão sangüínea (mm Hg) e o nível de colesterol (mg/100cm 3 ). Verificar se existe independência entre essas variáveis. Colesterol < 17 Pressão 17 a 166 >166 <00 117 168 307 00 a 60 04 418 63 685 >60 67 145 33 45 388 731 118 137 H: Pressão sangüínea e nível de colesterol são independentes; A: Nível de colesterol e pressão sangüínea são variáveis dependentes. 8
Saída do MINITAB: Chi-Square Test Expected counts are printed below observed counts C1 C C3 1 117 168 307 96,9 181,4 9,9 04 418 63 685 14,86 404,80 65,34 3 67 145 33 45 76,85 144,78 3,37 388 731 118 137 Chi-Sq = 4,45 + 0,993 + 1,81 + 0,549 + 0,431 + 0,084 + 1,6 + 0,000 + 3,967 = 13,550 DF = 4, P-Value = 0,009 Rejeitamos a independência entre pressão sangüínea e nível de colesterol (α = 0,05). 9