UNIVERSIDADE FEDERAL DA PARAÍBA TESTES NÃO- PARAMÉTRICOS Parte I Prof. Luiz Medeiros Departamento de Estatística Teste Qui-quadrado de independência Um dos principais objetivos de se construir uma tabela de contingência, com o objetivo de se analisar a distribuição conjunta de duas variáveis qualitativas, é descrever a associação entre elas. Ou seja, de certo modo esperamos que haja uma certa dependência entre as variáveis, por eemplo, seo e ramo de atividade. Desta forma, nosso foco será buscar evidência estatística de que duas variáveis possuem certo grau de associação. Ao fazer esse tipo de investigação em busca de evidência estatística, estamos realizando um Teste de Hipóteses. Eemplo: Suponha que desejamos verificar se eiste associação entre as variáveis tipo de cooperativa e estado, como dado na tabela a seguir. Neste caso, um teste Qui-Quadrado pode ser usado para determinar se as duas variáveis (gênero e desempenho profissional, por eemplo) são independentes. Duas variáveis são independentes se a ocorrência de uma não afeta a ocorrência da outra. 1
Teste Qui-Quadrado de independência O teste de independência Qui-Quadrado é usado para descobrir se eiste uma associação entre a variável da linha e a variável da coluna em uma tabela de contingência construído à partir de dados da amostra. Para realização do teste, se faz necessário calcular o valor esperado de cada célula. Supondo-se que as variáveis sejam independentes, o valor esperado de cada célula será: Teste Qui-quadrado de independência Utilizaremos uma medida global para verificar se eiste associação entre as variáveis. Esta medida será dada através do afastamento global entre valores observados e valores esperados. χ 2 Esta medida é chamada de de Pearson (Qui-quadrado de Pearson) e sua estatística de teste é dada pela epressão: E 1,1 =(648)(376)/1551=157,09 E 1,2 =(648)(643)/1551=268,64 Podemos calcular todos os outros valores de forma similar. em que O ij e E ij são, respectivamente, as frequências observadas e esperadas da r-ésima linha e j-ésima coluna. Se a hipótese de independência (não-associação) for verdadeira, o valor da estatística de teste será próimo de zero. Importante Para validação do teste, se faz necessário que sejam respeitados alguns critérios: Os dados serem selecionados aleatoriamente. Todas as frequências esperadas sejam maiores ou igual a 1. Não mais de 20% das frequências esperadas sejam inferiores a 5. Obs: O teste está baseado na comparação entre duas hipóteses, denominadas, respectivamente de, hipótese nula e hipótese alternativa. A hipótese nula é de que as variáveis não estão associadas, em outras palavras, eles são independentes. A hipótese alternativa é de que as variáveis estão associadas, ou dependentes. Etapas do Teste Etapa 1: Definição das hipóteses H 0 : As variáveis são independentes. H 1 : As variáveis não são independentes. Etapa 2: Estabelecer o nível de significância (α) (Definida pelo pesquisador) Etapa 3: Determinar a distribuição amostral χ 2 [1-α;(r-1)(c-1)] Etapa 4: Determinar o valor crítico (Tabela qui-quadrado) Etapa 5: Determinar a região de rejeição (Ver gráfico) Etapas do Teste Etapa 6: Calcular a estatística do teste (Valor ) Etapa 7: Tomada de decisão. Verificar se a estatística do teste cai na região de rejeição ou não. Etapa 8: Interpretação do teste 2
O teste de Mann-Whitney-Wilcoon (MWW) é um teste nãoparamétrico alternativo ao teste t-student para comparar as médias de duas amostras independentes. O único pressuposto eigido para a aplicação do teste MWW é que as duas amostras sejam independentes e aleatórias, e que as variáveis em análise sejam numéricas ou ordinais (os pressupostos para a aplicabilidade do teste t-student são mais eigentes: as populações de onde as amostras provêm têm distribuição normal; as amostras são independentes e aleatórias; as populações têm uma variância comum). 3
Se ambas as amostras em análise têm tamanhos iguais ou superiores a 10 observações, pode fazer-se a aproimação através da distribuição normal, com parâmetros: Eemplo: Num ensaio delineado com o objetivo de estimar os efeitos da inalação prolongada de óido de cádmio, 15 cobaias foram sujeitas em laboratório a um ambiente contaminado com este óido, e 10 cobaias estiveram num ambiente normal sem essa contaminação (grupo de controlo). A variável de interesse é a concentração de hemoglobina após o ensaio: Pretende-se averiguar se a inalação prolongada de óido de cádmio altera o nível de hemoglobina. Para um nível de significânciaα=5%, e 1 N =15 e 2 N =10, o quantil da distribuição U de Mann-Whitney-Wilcoon é U (0,05;15;10) =44, e como a estatística de teste U=25 é inferior a este valor crítico, deve rejeitar-se a hipótese nula de que as duas amostras têm a mesma mediana, ou seja, deve concluir-se que a eposição ao óido de cádmio afeta o nível de hemoglobina nas cobaias. 4
Usando a aproimação da distribuição normal Usando a aproimação da distribuição normal Note-se que eistem 3 grupos de números de ordem empatados, cada um com 2 empates; são nomeadamente os números de ordem 4.5, 8.5 e 10.5. Assim, a variância deve ser calculada por Eemplo no R Eemplo: Realiza-se um estudo para determinar os efeitos de pôr fim a um bloqueio renal em pacientes cuja função renal está deteriorada devido a uma metástase maligna avançada de causa não-urológica. Mede-se a pressão arterial de cada paciente antes e depois da cirurgia. Obtêm-se os seguintes resultados: Antes 150 132 130 116 107 100 101 96 90 78 Depois 90 102 80 82 90 94 84 93 89 87 Podemos concluir que a intervenção cirúrgica tende a diminuir a pressão arterial? <-rnorm(10) y<-rnorm(10) wilco.test(, y, conf.int = TRUE) e1 <- read.table(file.choose(),header=t,dec=".",sep="") # outra forma de ler o banco attach(e1) boplot(efeito ~ trat, col = "red") # gerar o boplot wilco.test(efeito ~ trat, conf.int = TRUE, data = e1) Teste de Kruskal-Wallis Teste de Kruskal-Wallis É uma etensão do teste Wilcoon-Mann-Whitney para dados não pareados. O teste de Kruskal-Wallis foi criado como um substituto ao teste F na análise de variância paramétrica. Se os valores obtidos nas diversas amostras diferem entre si, o teste proporcionará verificar se estas diferenças são devidas ao acaso ou se as amostras provém de populações (mesmo que suas formas não sejam conhecidas) diferentes. 5
Teste de Kruskal-Wallis A tabela a seguir mostra os níveis de resíduo de pesticida (PPB) em amostras de sangue de quatro grupos de pessoas. Use o teste de Kruskal-Wallis para testar, a um nível de significância de 0,05, a hipótese nula de que não eiste diferença nos níveis de PPB nos quatro grupos considerados. Níveis de PPB Grupo I 9 10 11 12 23 31 37 Grupo II 4 8 18 19 32 33 35 Grupo III 5 6 6 10 12 15 15 Grupo IV 1 2 3 5 7 8 11 Eemplo no R attach(airquality) boplot(ozone ~ Month, data = airquality) kruskal.test(ozone ~ Month, data = airquality) library(agricolae) kruskal(ozone,month, alpha = 0.05, group=true) 6