PROVA DE QUI-QUADRADO QUADRADO Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística - PPGEMQ / PPGEP - UFSM - 1
Objetivos Específicos Identificar as situações que requerem uma Prova de Aderência; Identificar as situações que requerem uma Prova de Independência; Calcular um Qui-Quadrado; Usar adequadamente uma Tabela de Qui-Quadrado; Eplicar o significado de Graus de Liberdade; Aplicar a Fórmula Simplificada para o cálculo de Qui- Quadrado em tabelas ; Calcular o Qui-Quadrado com a Correção de Yates;
Há momentos na vida em que é etremamente importante decidir (ou poder decidir) se os dados (valores) observados ajustam-se bem a uma determinada epectativa. Vamos supor que uma moeda tenha sido lançada 3 vezes, produzindo os seguintes resultados: 18 caras (C) e 1 coroas (K). Queremos saber, com α = 5%, se essa moeda pode ser considerada honesta. Para resolvermos esse problema, podemos adotar uma das seguintes soluções: Binomial ou Qui-Quadrado ou Normal. 3
Solução por Qui-Quadrado Qui-Quadrado (indicado por ) é uma estatística concebida por Karl Pearson em 1899 e presta-se a testar basicamente dois tipos de hipóteses: Aderência e Independência. Um Teste de Aderência* serve para ajudar o pesquisador a decidir se os dados que ele colheu se ajustam bem a uma determinada Lei. * Também chamado de Teste (ou prova) de ajustamento. 4
Solução por Qui-Quadrado A Lei é tirada da H, sob forma de Probabilidade. Então, para moedas honestas, a lei é p =,5; para dados honestos p =,1666... A lei varia de acordo com cada situação específica*. O Teste de Qui-Quadrado de aderência consiste em comparar os os dados obtidos eperimentalmente com os dados esperados de acordo com a lei. Das comparações surgem diferenças que podem ser grandes ou pequenas. Se forem grandes, a H (que pressupõe bom ajustamento) deverá ser rejeitada em favor da H a ; se forem pequenas, a H não será rejeitada e as diferenças serão atribuíveis ao acaso. *Isso quer dizer que se estivermos trabalhando com um dado honesto de 5 faces, a lei será: p =,. 5
Solução por Qui-Quadrado Como os dados eperimentais podem variar de amostra para amostra, uma maneira sensata de avaliar quão grandes ou quão pequenas são as diferenças é elevá-las ao quadrado* e, em seguida, dividi-las por um valor estável, isto é, um valor que se mantenha constante em qualquer amostra. Esse valor é dado pela lei. Em resumo, esse tal de ajuda-nos a decidir se, de fato, Muito é muito e pouco é pouco! *Ao elevar as diferenças ao quadrado, o estatístico livra-se do efeito dos sinais negativos. 6
Solução por Qui-Quadrado A soma resultante desses quocientes chama-se Qui-Quadrado Observado e nota-se assim: A decisão final resulta da comparação entre e um ( crítico ). c ( c tabelado). 7
Então: H : P(K) =,5 Lei H á : P(k),5 Observados () Valores Esperados (E) Diferenças (-E) (-E)² ( E E) (C) 18 (3)(,5) = 15 18 15 = 3 9 9/15 =,6 (K) 1 (3)(,5) = 15 1 15 = -3 9 9/15 =,6 3 3 1, Voltar p/ o slide 13 8
Uma pequena tábua de Qui-Quadrados críticos a 1% e a 5%. Graus de Liberdade α 1% 5% 1 6,635 3,841 9,1 5,991 3 4 5 1 11,345 13,77 15,86 3,9 7,815 9,488 11,7 18,37 Fonte: Levin, Jack. Estatística Aplicada a Ciências Humanas. Ed., São Paulo, Harbra, 1987. 37,566 31,41 3 5,89 43,773 9
Como consultar a tábua? Localizar o α; Determinar o número de Graus de Liberdade (GLIB). Cruzar α com GLIB e ler o valor de. c 1
Como determinar o número de graus de liberdade? Contar o número de linhas da tabela original de dados. Subtrair 1 desse número. Então, GLIB = (L-1) 11
1 Regra de Decisão rejeitada não H Se rejeitada H Se c c Conclusão rejeitada não H c ) 3,841 ( 1,) (
Obs: No quadro original mostrado no slide 8 temos duas parcelas que somadas, dão 3. Ora, se chutarmos o valor de uma das parcelas, o valor da outra estará fatalmente determinado em virtude da restrição representada por soma 3. Vejamos: 19 chute 11 determinado 3 restrição Então, se só podemos chutar 1 dado, só temos 1 Grau de Liberdade. Visualize o quadro 13
Atenção Afirmar que H foi não-rejeitada significa admitir que P(k) =,5, o que, em palavras, equivale a: A moeda pode ser considerada equilibrada (= eqüiprovável, honesta ). A certeza com que fazemos a afirmação acima é de, pelo menos, 95% *. Do ponto de vista trabalho de cálculo, a prova de qui-quadrado é mais cômoda que a binomial. E leva à mesma conclusão. * Em outras palavras: seria necessário realizar o mesmo eperimento (jogar 1 moeda 3 vezes) 1 vezes para, eventualmente, ocorrer um erro (máimo) de 5%. 14
TESTE DE INDEPENDÊNCIA Um Teste de Independência serve para ajudar o pesquisador a decidir se duas variáveis estão ou não amarradas uma à outra por uma relação de dependência. A lógica subjacente a essa prova é muito simples: quanto menor a dependência entre as duas variáveis, menor o valor de. Lembrar que o é calculado; o c é tabelado.) 15
Regra de Decisão A regra de decisão também é a mesma: para um dado valor de α e certo número de graus de liberdade, se c H rejeitada; se c H não será rejeitada. 16
Cálculo do número n de Graus de Liberdade Para uma Prova de Se, na tabela original (dupla entrada), fizermos c = número de colunas e L = número de linhas, então: GLIB = (c-1) (L-1) de independência usa-se uma tabela especial denominada Tabela de Dupla Entrada. Nessa tabela há linhas e colunas e de seu cruzamento resultam caselas. Fala-se em tabela de L linhas e c colunas e indica-se por Lc. Os valores que figuram nas caselas são mutuamente ecludentes: não podem pertencer ao mesmo tempo a mais de uma casela. 17
Cálculo da Lei Para cada casela, vale a relação: ( total delinha)( total decoluna) ( total geral) 18
Eemplo prático Suponhamos que certo pesquisador tenha colhido uma amostra de fumantes (homens e mulheres) e que os tenha classificado em função de três marcas de cigarro: A, B e C. A pesquisa tinha por objetivo verificar se as variáveis marca (do cigarro) e seo (do fumante) eram dependentes (α = 5%). 19
Eemplo prático Seo Marca A B C Masc. (M) 7 3 1 Fem. (F) 4 15 5 8 6 85 55 Nesta tabela há L = linhas e c = 3 colunas. Leitura da Tabela Leitura da Tabela: Eemplos: 15 mulheres fumam marca B; 3 homens fumam marca C. No total há 1 homens e 8 mulheres. A marca A é consumida por 6 pessoas (homens e mulheres).
Observemos agora que os valores 6, 1 são fios porque saíram diretamente do eperimento. (A amostra de tamanho foi decidida pelo pesquisador e a partir desse momento torna-se também um valor fio.) Ora, mantidos os totais marginais (linhas e colunas), o valor poderia variar em sucessivas réplicas do eperimento. Então a pergunta: que valor razoável poderia ser posto nessa casela para substituir o? Vamos pensar em termos de proporção: estará para 6 assim como 1 está para. 1
Então: E como sabemos que o pode variar e vamos substituí-lo por D (=desconhecido) e tirar o seu valor: D 6 1 D() (1)(6) D (1)(6) 36 Observemos que isso é o mesmo que calcular: (1) (6) ( total de linha)( total de coluna) ( total geral) () e, no lugar de 15 (dado eperimental) podemos pôr 34 (que sai da lei), e assim por diante.
Agora é construir as hipóteses estatísticas, montar a tabela nos mesmos moldes do que já foi visto, fazer os cálculos e tirar a conclusão final. H : P(M/A) = P(M/B) = P(M/C) * ou H a : P(F/A) = P(F/B) = P(F/C) H a : algum = * ou, H : As variáveis seo e marca são independentes. 3
4,491 9 3 5 1,6176 361-19 34 15 1,6667 56 16 4 4,77 9-3 33 3 7,784 361 19 51 7 7,1111 56-16 36 (-E) (-E) E E E ) ( 36,156,1556 36
AGORA: GLIB = (L 1) (C 1) ( 36,156) ( c 5,991) GLIB = ( 1) (3 1) = = (1) () = H REJEITADA Dizer que a H foi rejeitada é o mesmo que dizer que marca e seo são variáveis dependentes. 5
IMPORTANTE Quando as variáveis são independentes, o tende a zero. Por eemplo, eaminaremos, com α = 5%, o que ocorre com 1 dado e 1 moeda (honestos) jogados simultaneamente 5 vezes. MOEDA C K DADO FACE ÍMPAR 14 13 7 FACE PAR 1 13 3 4 6 5 6
( E) E (-E) (-E) E 14 1,96 1,4 1,816,834567 13 14,4-1,4 1,816,7737 1 11,4-1,4 1,816,97971 13 11,96 1,4 1,816,94347 5 5,,349 7
CUIDADO! Os valores das caselas (na tabela de dupla entrada original) devem ser inteiros e resultar de contagens. Em nenhuma casela o valor esperado (resultante da lei) poderá ser menor que 5. A amostra não poderá ser menor que 3. 8
Em tabelas é possível ganhar PRECISÃO e TEMPO usando a seguinte fórmula: ( A n( AD BC) B)( C D)( AC)( B D) 9
CRITÉRIO: RIO: Nesta fórmula facilitada, as letras devem ser substituídas por freqüências observadas, isto é, por dados eperimentais, de acordo com o seguinte critério: A C A+C B D B+D A+B C+D A+B+C+D = n 3
APLICAÇÃO: Refazendo o problema do slide 6, vem: MOEDA C K DADO FACE ÍMPAR 14 13 7 FACE PAR 1 13 3 4 6 5 Então: 5[(14)(13) (13)(1)] (7)(3)(4)(6),349 31
QUI-QUADRADO QUADRADO INFLACIONADO Em tabelas, quando as freqüências esperadas (E) estão entre 5 e 1, é comum o surgimento de um inflacionado, isto é, um pouco maior do que o razoável. Por esta razão, algumas vezes somente por c influência dessa inflação e a H vai ser rejeitada sem necessidade. Para contornar esse obstáculo, Yates criou um procedimento, também conhecido pelo nome correção de continuidade, que consiste em subtrair,5 do valor absoluto* das diferenças (-E) antes de elevá-las ao quadrado. *Isto é, sem levar em conta o sinal algébrico + ou -. 3
EXEMPLO Seja (α = 5%) e a seguinte tabela: Y Y 1 Y X X 1 16 4 H : X e Y são independentes. H a : X e Y são dependentes. X 7 9 16 3 13 36 Voltar para o slide 36 33
16 E 1,78 (-E) 3, (-E) -,5 3, -,5=,7 { (-E) -,5} 7,3984 ( E),5 E,5789 4 7, -3, -3, -,5=,7 7,3984 1,47 7 1, -3, -3, -,5=,7 7,3984,739 9 5,78 3, 3, -,5=,7 7,3984 1,8 36 36, 3,675 Como( corrig. 3,68) ( c 3,841) H não-rejeitada. corrig. 34
Os estatísticos desenvolveram uma fórmula que economiza tempo e espaço sempre que a correção de Yates se faça necessária: corrig. ( A n ( AD B)( C BC) n D)( AC)( B D) 35
Vejamos (tabela do slide 33) Ver tabela corrigido 36 (16)(9) (7)(4) ()(16)(3)(13) 36 36 144 8 18 95.68 3,614 Este resultado é praticamente o mesmo que obtivemos no cálculo anterior. A pequena diferença observada deve-se a erros de arredondamento. 36
Só tem sentido fazer a correção de Yates se a H tiver sido rejeitada. 37