Testes não paramétricos Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais
Teste de hipótese Queremos saber se a evidência que temos em mãos significa que encontramos algo diferente daquela que suponhamos existir e se essa evidência é forte para podermos fazer afirmações. Para isso nos valemos de amostras e tentamos verificar o quando podemos dizer que estamos tratando de um evento estatisticamente raro, incomum. Problemas: Como saber que a nossa amostra não é um mero acaso? Com que critérios faremos o nosso julgamento? Que tipo de estatística pode nos ajudar a tomar uma decisão? 2
Variáveis categóricas São definidas em termos de ordem, classes ou categorias (masculino/feminino; profissão; escolaridade...). Variáveis quantitativas eventualmente podem ser classificadas em categorias (faixas salariais; anos de instrução...). Podemos verificar a freqüência das nossas observações em cada uma das categorias e comparar com uma referência usando-se tabelas de contingência. Problema: quantificar o grau de associação entre duas amostras. Como fazer? Proposta: medir o afastamento em relação a uma distribuição esperada. De que forma? verificar o desvio (distanciamento) das freqüências observadas em relação às esperadas. Como medir? Com a estatística Qui-quadrado (χ 2 ). 3
Aderência, homogeneidade e independência Comparar dados de populações visando determinar: Aderência à uma distribuição específica; Homogeneidade dessa distribuição; Independência ou associação entre 2 variáveis aleatórias. Para isso mede-se a distância entre os valores observados e aqueles que seriam esperados se eles possuíssem determinada distribuição. São chamados de testes não-paramétricos. 4
Testes Paramétricos Referem-se diretamente a uma determinada distribuição de parâmetros da população. Pressupostos: A estatística de teste deve ter uma distribuição probabilística conhecida. Os erros possuem distribuição normal. Os resíduos são aleatórios e independentes. Mais eficientes e precisos. Testes Não Paramétricos Não se baseiam diretamente em um modelo de distribuição de parâmetros da distribuição. Requerem menos pressupostos em relação à população. Não exigem normalidade. Podem ser aplicados a dados categóricos. Aplicação mais simples. Menos eficientes que os testes paramétricos. 5
Tabelas de contingência Tipo de tabela em forma de matriz que mostra a distribuição de freqüências multivariada estudada. São muito úteis para verificar a inter-relação entre as variáveis. Exemplo: Origem Uso de drogas Ocasional Frequente Total Capitais e regiões metropolitanas 43 9 52 Cidades do interior 44 4 48 Total 87 13 100 6
Estatística Qui-quadrado Usada para mensurar o afastamento dos resultados amostrais em relação à uma dada distribuição esperada das variáveis estudadas. Parâmetro necessário para determinar as probabilidades: graus de liberdade na tabela (ν). 7
Estatística Qui-quadrado (χ 2 ) 2 r s ( * nij n ) 2 ij ( f Ou * obs f i 1 j 1 n ij 2 2 fe) e Onde: n*: freqüência esperada r: total de categorias da variável X s: total de categorias da variável Y Onde fobs = freqüência observada em qualquer célula fe = freqüência esperada em qualquer célula 8
Tabela Qui-quadrado 9
Graus de liberdade na tabela Qui-quadrado São determinados pelo número de células que teriam preenchimento livre em uma tabela de contingência considerando que já sabemos as totalizações de linhas e colunas. Fórmula básica: gl = (l-1).(c-1) Preferência por tipo de programa Jovens Meia-idade Idosos Total Música 14 10 3 27 Noticiário 4 15 11 30 Esporte 7 9 5 21 Total 25 34 19 78 10
Exemplo: aderência Um dado é lançado 1.200 vezes, com os resultados expostos na tabela abaixo. Teste a hipótese de que o dado é honesto ao nível de 5% Ocorrência 1 2 3 4 5 6 Freqüência 190 179 228 183 226 194 RC = [11,070; + [ χ 2 = (200-190) 2 /200 +(200-228) 2 /200 + (200-179) 2 /200 + (200-183) 2 /200 + (200-194) 2 /200 + (200-226) 2 /200 = 11,63 RC p-valor (gl=5) =4,02% 11
Exemplo Para investigar o envolvimento de filiados a um partido político foi tomada uma amostra de 180 homens e 120 mulheres. Definiram-se duas categorias de classificação e foram considerados como ativistas 100 homens e 80 mulheres, sendo os restantes classificados como ocasionais. Ao nível de 10% os dados fornecem evidência de possíveis diferenças de grau de fidelidade partidária entre os gêneros? 12
Exemplo: homogeneidade Duas novas drogas são testadas em 160 pessoas portadoras de determinada enfermidade. Cada metade da amostra recebe uma das drogas, obtendo-se o resultado abaixo. Teste a hipótese de que as duas drogas são igualmente eficazes. Eficaz Não eficaz Droga A 55 25 Droga B 48 32 RC=[3,841; + [ χ 2 obs=1,34 RC p-valor=0,248 13
Exemplo: pequenas frequências Um pesquisador deseja saber se há alguma diferença no perfil dos assaltos ocorridos na área urbana e rural de uma região. Para isso, analisou-se uma amostra de 200 boletins de ocorrência e os classificou quanto à arma utilizada. Podemos dizer, ao nível de 5%, que há diferenças no perfil do crime nas áreas urbanas e rurais? Arma Área urbana Área rural Total De fogo 100 20 120 Faca 39 21 60 Contundente 9 3 12 Outras 2 6 8 Total 150 50 200 14
Correção de continuidade de Yates Ao aplicar o teste do χ² supõe-se que o tamanho amostral será relativamente grande, assim como cada classe amostral (célula da tabela. Se isso não ocorrer o qui-quadrado calculado pode ser superestimado. Nestes casos alguns autores recomendam o uso do fator de correção de Yates. χ 2 = (f observado f esperado 0,5) 2 f esperado Nota: a diferença entre f observado e f esperado deve ser sempre reduzida em 0,5. Como regra geral, usa-se essa correção quando o qui-quadrado observado é maior que o crítico e: O tamanho da amostra é menor que 40; ou Há pelo menos uma classe com frequência esperada menor que 5. Prof. Marcos Vinicius Pó 15
Cuidados no uso do teste Qui-quadrado É pressuposto que a amostragem seja aleatória. Deve-se usar as frequências absolutas, nunca as relativas (porcentagens). As frequências medidas e, principalmente, as esperadas não devem ser muito pequenas, pois podem distorcer os resultados do teste. Nesse caso deve-se analisar a possibilidade de agrupamento de classes e/ou o uso de correções. Sempre analise a tabela de contingência para verificar se não há dados superestimando o resultado. 16