Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais
Teste de hipótese Queremos saber se a evidência que temos em mãos significa que encontramos algo diferente daquela que suponhamos existir e se essa evidência é forte para podermos fazer afirmações. Para isso nos valemos de amostras e tentamos verificar o quando podemos dizer que estamos tratando de um evento estatisticamente raro, incomum. Problemas: Como saber que a nossa amostra não é um mero acaso? Com que critérios faremos o nosso julgamento? Que tipo de estatística pode nos ajudar a tomar uma decisão? 2
Variáveis categóricas São definidas em termos de classes ou categorias (masculino/feminino; profissão; escolaridade...). Podemos verificar a freqüência das nossas observações em cada uma das categorias e comparar com uma referência (freqüências esperadas), usando-se tabelas de contingência. Variáveis quantitativas eventualmente podem ser classificadas em categorias (faixas salariais; anos de instrução...). 3
Medindo a associação de variáveis categóricas Por que isso é interessante? Permite que trabalhemos com dados qualitativos e categóricos Problema: quantificar o grau de associação entre duas amostras categóricas. Como fazer? Proposta: medir o afastamento global em relação a uma distribuição esperada. De que forma? verificar o desvio (distanciamento) das freqüências observadas em relação às esperadas. Como medir? Com a estatística Qui-quadrado (χ 2 ). 4
Aderência, homogeneidade e independência Comparar dados de populações visando determinar: Aderência à uma distribuição específica; Homogeneidade dessa distribuição; Independência ou associação entre 2 variáveis aleatórias. Para isso mede-se a distância entre os valores observados e aqueles que seriam esperados se eles possuíssem determinada distribuição. São chamados de testes não-paramétricos. 5
Testes Paramétricos Referem-se diretamente a um ou mais parâmetros da população. Pressupostos: A estatística de teste deve ter uma distribuição probabilística conhecida. Os erros possuem distribuição normal. Os resíduos são aleatórios e independentes. Mais eficientes e precisos. Testes Não Paramétricos Não se baseiam diretamente em parâmetros da distribuição. Requerem menos pressupostos em relação à população. Não exigem normalidade. Podem ser aplicados a dados categóricos. Aplicação mais simples. Menos eficientes que os testes paramétricos. 6
Tabelas de contingência Tipo de tabela em forma de matriz que mostra a distribuição de freqüências multivariada estudada. São muito úteis para verificar a inter-relação entre as variáveis. Exemplo: Origem Uso de drogas Capitais e regiões metropolitanas Ocasional Frequente Total 43 9 52 Cidades do interior 44 4 48 Total 87 13 100 7
Estatística Qui-quadrado Usada para mensurar o afastamento dos resultados amostrais em relação à uma dada distribuição esperada das variáveis estudadas. Parâmetro necessário para determinar as probabilidades: graus de liberdade na tabela (ν). 8
Estatística Qui-quadrado (χ 2 ) 2 r s ( * nij n ) 2 ij ( f Ou * obs f i 1 j 1 n ij 2 2 fe) e Onde: n*: freqüência esperada r: total de categorias da variável X s: total de categorias da variável Y Onde fobs = freqüência observada em qualquer célula fe = freqüência esperada em qualquer célula 9
Tabela Qui-quadrado 10
Graus de liberdade na tabela Qui-quadrado São determinados pelo número de caselas em uma tabela de contingência que teriam preenchimento livre considerando que temos as totalizações de linhas e colunas. Fórmula básica: ν = (l-1).(c-1) Exemplo: Preferência por tipo de programa Jovens Meia-idade Idosos Total Música 14 10 3 27 Noticiário 4 15 11 30 Esporte 7 9 5 21 Total 25 34 19 78 11
Exemplo: aderência Um dado é lançado 1.200 vezes, com os seguintes resultados: Ocorrência 1 2 3 4 5 6 Freqüência 190 179 228 183 226 194 Teste a hipótese de que o dado é honesto, ao nível de 5% RC = [11,070; + [ χ 2 = (200-190) 2 /200 +(200-228) 2 /200 + (200-179) 2 /200 + (200-183) 2 /200 + (200-194) 2 /200 + (200-226) 2 /200 = 11,63 RC p-valor (gl=5) =4,02% 12
Exemplo: homogeneidade Duas novas drogas são testadas em 160 pessoas portadoras de determinada enfermidade. Cada metade da amostra recebe uma das drogas, obtendo-se o resultado abaixo. Teste a hipótese de que as duas drogas são igualmente eficazes. Eficaz Não eficaz Droga A 55 25 Droga B 48 32 RC=[3,841; + [ χ 2 obs=1,34 RC p-valor=0,248 13
Exemplo: pequenas frequências Um pesquisador deseja saber se há alguma diferença no perfil dos assaltos ocorridos na área urbana e rural de uma cidade do interior. Para isso, analisou-se uma amostra aleatória de 200 boletins de ocorrência. Podemos dizer, ao nível de 5%, que há diferenças no perfil do crime nas áreas urbanas e rurais? Arma Área urbana Área rural Total De fogo 100 20 120 Faca 39 21 60 Contundente 9 3 12 Outras 2 6 8 Total 150 50 200 14
Exemplo Para investigar o envolvimento de filiados a um partido político foi tomada uma amostra de 180 homens e 120 mulheres. Definiram-se duas categorias de classificação e foram considerados como ativistas plenos 100 homens e 80 mulheres, sendo os restantes classificados como participantes ocasionais. Ao nível de 10% os dados fornecem evidência de possíveis diferenças de grau de fidelidade partidária entre os gêneros? 15
Cuidados no uso do teste Qui-quadrado É pressuposto que a amostragem seja aleatória. Deve-se usar as frequências absolutas, nunca as relativas (porcentagens). As frequências medidas e, principalmente, as esperadas não devem ser muito pequenas, pois podem distorcer os resultados do teste. Sempre analise a tabela de contingência para verificar se não há dados superestimando o resultado. 16