Teste Qui-Quadrado para Independência Texto criado na data 7 de novembro de 2018
Exemplo 1. Um exemplo típico do tema Teste de Independência. Os resultados da classificação de pessoas segundo a cor dos olhos e a cor do cabelo foram os seguintes: Cor do Cor dos olhos cabelo Castanhos Azuis Cinza Claro 13 18 9 Escuro 37 12 11 Deseja-se verificar, com o nível de significância de 2,5%, se cor de olhos e cor de cabelos são atributos independentes.
Exemplo 1; formalismo. O objetivo do exemplo formula-se assim: deseja-se escolher entre as hipóteses H: os atributos cor de olhos e cor de cabelos são independentes ; A: os atributos cor de olhos e cor de cabelos não são independentes (são dependentes, em outras palavras). Os valores 13, 18, 9, 37, 12, 11 chamam-se frequencias observadas. A notação genérica para estes é o 11, o 12, o 13, o 21, o 22, o 23 (a indexação segue a regra usada em matrizes: o primeiro índice corresponde à linha da posição do valor, e o segundo número correpsonde à coluna).
Exemplo 1; o primeiro passo da solução. No primeiro passo, calcula-se os Totais por linhas e por colunas e o Total Global que fica no canto direito de baixo: Cor do Cor dos olhos Total por cabelo Castanhos Azuis Cinza linha Claro 13 18 9 40 Escuro 37 12 11 60 Total por coluna 50 30 20
Exemplo 1; o segundo passo da solução. No segundo passo, as frequencias observadas são substituidas por frequencias esperadas; a notação genérica para estes é e 11, e 12, e 13, e 21, e 22, e 23. Estas são os valores hipotéticos que seriam observados caso H fosse válida, seriam observados se não hovesse aleatoriedade, dariam os mesmo Totais que as frequencias observadas. Cor do Cor dos olhos Total por cabelo Castanhos Azuis Cinza linha Claro e 11 e 12 e 13 40 Escuro e 21 e 22 e 23 60 Total por coluna 50 30 20
Exemplo 1; o segundo passo da solução. Eis a idéia central: Se Cor dos Olhos nã dependesse da Cor dos Cabelos, então as 50 pessoas com olhos castanhos seriam dividas em loiras e morenas nas mesmas proprções que as 30 pessoas com olhos azuis seriam dividas em loiras e morenas, e na mesmas proporções que as 20 pessoas com olhos cinza seriam dividas em loiras e morenas. Estas três proporções (iguais) seriam obrigadas a coincidir também com as proporções totais de loiras e morenas. Já que no total, as loiras e as morenas estão em proporções como 40 60 para, então entre as 50 pessoas com olhos castanhos, deve ter 50 40 loiras e 50 60 morenas; entre as 30 pessoas com olhos azuis, deve ter 30 40 60 loiras e 30 olhos cinza, deve ter 20 40 morenas; e entre as 20 pessoas com 60 loiras e 20 morenas.
Exemplo 1; o segundo passo da solução. Cor do Cor dos olhos Total por cabelo Castanhos Azuis Cinza linha Claro 40 50 Escuro 60 50 40 30 60 30 40 20 40 60 20 60 Total por coluna 50 30 20 Observação: As frequencias esperadas não são obrigadas a serem números interios; na verdade, na maioria dos casos práticos, estes não serão inteiros.
Exemplo 1: o terceiro passo da solução. No terceiro passo, calcula-se a distância entre as frequencias observadas e frequencias esperadas via a fórmula No caso do exemplo, ( χ 2 ) obs = (o ij e ij ) 2 i,j e ij ( χ 2 ) obs 40 50 (13 ) 2 = 40 50 + 40 30 (18 ) 2 40 30 + 40 20 (9 ) 2 40 20 + + 60 50 (37 ) 2 60 50 + 60 30 (12 ) 2 60 30 + (11 60 20 ) 2 60 20 = 9, 288
Exemplo 1: o terceiro passo da solução. O valor ( χ 2) = 9, 288 compara-se com o limiar l que recorta a obs cauda da área α = 2, 5% da distribuição Qui-Quadrado com 2 graus de liberdade. Pela tabela das distribuições Qui-Quadrado, l = 7, 378. Como ( χ 2) = 9, 288 > 7, 378 = l, então a hipótese nula (que obs alega a independência) é rejeitada. Conclusão: O Teste de Independência, sendo aplicado aos dados do Exemplo 1 e com o nível de significância 2,5%, naõ confirmou a independência dos atributos cor de olhos e cor de cabelos.
Notações e linguagem. H chama-se hipótese nula, e A hipótese alternativa. O semi-eixo [l, + ) chama-se Região Crítica. (χ 2 ) obs chama-se a observação ou o valor observado da Estatítsica Qui-Quadrado, onde a palavra estatística possui seu sentido exato na Teoria Estatística, mas para nos, essa deve ser interpretada como variável aleatória. A regra de decisão pode ser reformulada assim: se (χ 2 ) obs não pertencer à Região Crítica aceitar H, se (χ 2 ) obs pertencer à Região Crítica rejeitar H. A regra pode errar em dois sentidos: rejeitar H quando esta está válida (chama-se Erro do Tipo I), e rejeitar A quando esta está válida (chama-se Erro do Tipo II). A probabilidade do Erro do Tipo I é exatamente (e pela própria contrução da regra, alias) o nível de significância. A probabilidade do Erro do Tipo II não pode ser expressa por um número só, pois a hipótese A não especifica a forma da dependência: para cada forma de dependência, haveria seu valor da probabilidade do Erro do Tipo II.
Teoria geral. Ao denotar por X 11, X 12,..., X 21, X 22,... as frequencias a serem vistas caso H for válida, tem-se que a variável aleatória χ 2 = (X ij e ij ) 2 e ij i,j tem (aproximadamente) a distribuição Qui-Quadrado com o número de Graus de Liberdade igual a (número das linhas da tabela 1) (número das colunas da tabela 1) Isto leva (via o raciocínio parecido com aquele que desenvolvemos no Teste de Aderência) à seguinte Regra de Decisão: para dado α, nível de significância do teste, achar a limiar l que recorta a cauda direita com o peso α da distribuição Qui-Quadrado com o número apropreado de graus de liberdade; em posse de l e ( χ 2) obs, aceitar H caso (χ2 ) obs < l, e aceitar A caso (χ 2 ) obs l.
Outros exemplos. Em um estudo para verificar a relação entre asma e incidência de gripe no outono, 150 crianças foram escolhidas ao acaso, dentre aquelas acompanhadas pelo Posto de Saúde de um bairro. Os dados referentes a uma semana são apresentados na tabela a seguir. asma gripe total sim não sim 27 34 61 não 42 47 89 total 69 81 150 Existem evidências, ao nível de significância de 4%, de que a ocorrência de gripe é influenciada pela presença de asma nesta população?
Outros exemplos. A tabela abaixo mostra o aproveitamento em Física e Matemática para uma amostra de alunos de uma escola de ensino médio. Matemática Física Notas altas Notas regulares Notas baixas Notas altas 46 71 22 Notas regulares 47 143 58 Notas baixas 29 72 40 Com o objetivo de verificar se os aproveitamentos em Física e Matemática estão relacionados, construa as hipóteses H e A. Calcule o valor observado da estatística χ 2 para o teste de hipóteses em questão. Conclua sobre a presença do relacionamento, usando a nível de significância 2%.
Outros exemplos. Oitenta artefatos foram classificados de acordo com o período da provável confecção (A, B e C) e de acordo com o sítio arqueológico (Sítio 1 e 2) em que foram encontrados. Obteve-se a seguinte distribuição: Sítio 1: A B B B C C B A B C C B A A A B B B C C A A A A A B B B A C C B B B A A A A Sítio 2: C C C C A A B B C C A A B C C C C C B B A B A C B C B C C C C B A B C B C C C C B C Verifique se há associação entre o período de confecção de artefatos e o sítio arqueológico em que os mesmos são encontrados usando Teste de Independência com a nível de significânica de 5%.
Outros exemplos. Estamos interessados em saber se a preferência por certo tipo de filme está associada com o estado civil ou se a preferência e o estado civil são fatores independentes. Responda aplcando o Teste de Independência aos dados apresentados na tabela abaixo; use o nível de significância 4%. Estado Preferência civil Policial Comédia Romance Solteiro 40 25 30 Casado 26 31 33 Divorciado 46 33 31 Viúvo 33 38 34
Outros exemplos. Em um estudo sobre alcoolismo, foram sorteadas 500 pessoas adultas de uma certa população e observadas duas variáveis para cada uma delas: dependência de álcool (sim/não) e número de progenitores com dependência (0, 1 ou 2). Entre os 80 portadores de dependência, 10 não tinham qualquer progenitor dependente e 24 tinham 1 progenitor dependente. Das 500 pessoas pesquisadas, 60 tinham 1 progenitor dependente e 50 tinham 2 progenitores dependentes, Use os dados acima para verificar, via um teste de hipóteses com o nível de significância de 10%, se exista um componente genético que influi no alcoolismo.
Outros exemplos. Em um estudo realizado no Hospital Universitário (HU) e analisado no CEA (Centro de Estatística Aplicada) do Departamento de Estatística, estudou-se a ocorrência de bebês macrossômicos (bebês que nascem com mais de 4Kg) entre as parturientes do HU. Para verificar se o ganho do peso da mãe durante a gestação está relacionado com a ocorrência de macrossomia, uma amostra de 171 mães foi selecionada (não foram incluídas na amostra gestações múltiplas nem bebês prematuros). Destas mães, observou-se que 53 bebês eram macrossômicos, que 50 mães tiveram ganho excessivo de peso (> 25% do peso pré-gravídico), e que das 121 mães com ganho inferior a 25% do peso pré-gravídico, 90 tiveram bebês sem macrossomia. Formule o objetivo do estudo como problema de teste de hipóteses e resolva este usando 5% como o nível de significânica.