Testes de Aderência, Homogeneidade e Independência

Testes de Aderência, Homogeneidade e Independência Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

O que é um teste de hipótese? Queremos saber se a evidência que temos em mãos significa que encontramos algo diferente daquela que suponhamos existir e se essa evidência é forte para podermos fazer afirmações. Para isso nos valemos de amostras e tentamos verificar o quando podemos dizer que estamos tratando de um evento estatisticamente raro, incomum. Problemas: Como ter certeza de que a nossa amostra não é um mero acaso? Com que critérios faremos o nosso julgamento? Que tipo de estatística pode nos ajudar a tomar uma decisão? 2

Operacionalização de um teste de hipótese Definimos claramente uma hipótese: Hipótese nula (H 0 ): a nossa amostra, ainda que um pouco diferente, não é tão diferente assim da população referência. Hipótese alternativa (H A ): podemos afirmar, com alguma certeza, que temos uma amostra que não pertence à população referência. Como o nosso resultado amostral pode ter ocorrido por acaso, estabelecemos regras de decisão com base na probabilidades de termos cometido um erro: Com base em um critério de raridade (nível de significância α ou p-valor) estabelecemos um intervalo de valores (região crítica) que, caso ocorram em nossa amostra, significa ter ocorrido um evento raro, possibilitando contestar a hipótese nula. Com os critérios definidos, apreciamos a evidência em mãos e julgamos as nossas hipóteses. 3

Como saber se duas proporções são associadas? Problema: quantificar o grau de associação (ou dependência) entre duas amostras Por que isso é interessante? Permite que trabalhemos com dados qualitativos e categóricos Como fazer isso? Proposta: medir o afastamento global em relação a uma distribuição esperada Como medir? Com a estatística Qui-quadrado (χ 2 ) 4

Aderência, homogeneidade e independência Comparar dados de populações visando determinar: Aderência à uma distribuição específica; Homogeneidade dessa distribuição; Independência ou associação entre 2 variáveis aleatórias. Para isso mede-se a distância entre os valores observados e aqueles que seriam esperados se eles possuíssem determinada distribuição. São chamados de testes não-paramétricos. 5

Testes Paramétricos Referem-se diretamente a um ou mais parâmetros da população. Pressupostos: A estatística de teste deve ter uma distribuição probabilística conhecida. Os erros possuem distribuição normal. Os resíduos são aleatórios e independentes. Mais eficientes e precisos. Testes Não Paramétricos Não se baseiam diretamente em parâmetros da distribuição. Requerem menos pressupostos em relação à população. Não exigem normalidade. Podem ser aplicados a dados categóricos. Aplicação mais simples. Menos eficientes que os testes paramétricos. 6

Variáveis categóricas São definidas em termos de classes ou categorias (masculino/feminino; profissão; escolaridade...). Podemos verificar a freqüência das nossas observações em cada uma das categorias e comparar com uma referência (freqüências esperadas), usando-se tabelas de contingência. Variáveis quantitativas eventualmente podem ser classificadas em categorias (faixas salariais; anos de instrução...). Para avaliar o desvio (distanciamento) das freqüências observadas em relação às esperadas utilizamos a estatística Qui-quadrado (χ 2 ). 7

Tabelas de contingência Tipo de tabela em forma de matriz que mostra a distribuição de freqüências multivariada das variáveis estudadas. São muito úteis para verificar a inter-relação entre as variáveis. Exemplo: Origem Uso de drogas Capitais e regiões metropolitanas Ocasional Frequente Total 43 9 52 Cidades do interior 44 4 48 Total 87 13 100 8

Estatística Qui-quadrado (χ 2 ) 2 r s ( * nij n ) 2 ij ( f Ou * obs f i 1 j 1 n ij 2 2 fe) e Onde: n*: freqüência esperada r: total de categorias da variável X s: total de categorias da variável Y Onde f obs = freqüência observada em qualquer célula f e = freqüência esperada em qualquer célula 9

Graus de liberdade na tabela Qui-quadrado São determinados pelo número de caselas em uma tabela de contingência que teriam preenchimento livre considerando que temos as totalizações de linhas e colunas. Fórmula básica: ν = (l-1).(c-1) Exemplo: Preferência por tipo de programa Jovens Meia-idade Idosos Total Música 14 10 3 27 Noticiário 4 15 11 30 Esporte 7 9 5 21 Total 25 34 19 78 10

Exemplo: aderência Um dado é lançado 1.200 vezes, com os seguintes resultados: Ocorrência 1 2 3 4 5 6 Freqüência 190 179 228 183 226 194 Teste a hipótese de que o dado é honesto, ao nível de 5% RC = [11,070; + [ χ 2 = (200-190) 2 /200 +(200-228) 2 /200 + (200-179) 2 /200 + (200-183) 2 /200 + (200-194) 2 /200 + (200-226) 2 /200 = 11,63 RC p-valor (gl=5) =4,02% 11

Exemplo: homogeneidade Duas novas drogas são testadas em 160 pessoas portadoras de determinada enfermidade. Cada metade da amostra recebe uma das drogas, obtendo-se o resultado abaixo. Teste a hipótese de que as duas drogas são igualmente eficazes. Eficaz Não eficaz Droga A 55 25 Droga B 48 32 RC=[3,841; + [ χ 2 obs=1,34 RC p-valor=0,248 12

Exemplo: independência Uma pesquisa sobre a qualidade de um serviço foi realizada enviando-se um link para responder a um questionário. Desconfiando-se que poderia haver um viés nas respostas, fezse também uma pesquisa por e-mail e outra por telefone. Os resultados estão abaixo. Há relação entre a forma de pesquisa e os seus resultados? Link E-mail Telefone Excelente 62 36 24 Satisfatório 84 42 16 Insatisfatório 24 22 20 RC=]9,488; + [ χ 2 obs=14,03 RC p-valor=0,007 13

Exemplo: pequenas frequências Um pesquisador deseja saber se há alguma diferença no perfil dos assaltos ocorridos na área urbana e rural de uma cidade do interior. Para isso, analisou-se uma amostra aleatória de 200 boletins de ocorrência. Podemos dizer, ao nível de 5%, que há diferenças no perfil do crime nas áreas urbanas e rurais? Arma Área urbana Área rural Total De fogo 100 20 120 Faca 39 21 60 Contundente 9 3 12 Outras 2 6 8 Total 150 50 200 14

Cuidados no uso do teste Qui-quadrado É pressuposto que a amostragem seja aleatória. Deve-se usar as frequências absolutas, nunca as relativas (porcentagens). As frequências medidas e, principalmente, as esperadas não devem ser muito pequenas, pois podem distorcer os resultados do teste. Sempre analise a tabela de contingência para verificar se não há dados superestimando o resultado. 15

Exemplo: Para investigar a fidelidade partidária de eleitores de um partido foi tomada uma amostra composta de 180 homens e 120 mulheres. Foram classificados como altamente fiéis 100 homens e 80 mulheres. Ao nível de 10% os dados fornecem evidência de possíveis diferenças de grau de fidelidade partidária entre os gêneros? 16