PODER E TAXAS DE ERRO TIPO I DOS TESTES SCOTT-KNOTT, TUKEY E STUDENT-NEWMAN- KEULS SOB DISTRIBUIÇÕES NORMAL E NÃO NORMAIS DOS RESÍDUOS

Documentos relacionados
ANÁLISE E TAXAS DE ERRO DE TESTES DE COMPARAÇÕES MÚLTIPLAS. Palavras-chave: Simulação Taxas de erro experimental Intervalo de confiança exato,

ERRO TIPO I E PODER DE CINCO TESTES DE COMPARAÇÃO MÚLTIPLA DE MÉDIAS

Modificação do teste de Tukey para uso sob heterocedasticidade e desbalanceamento

Teste modificado de Tukey: avaliação do poder e eficiência

COMPARAÇÃO DE DUAS APROXIMAÇÕES DO TESTE t COM VARIÂNCIAS HETEROGÊNEAS ATRAVÉS DE SIMULAÇÃO

Avaliação de testes estatísticos de comparações múltiplas de médias

Procedimento de comparações múltiplas baseado na distribuição F e sua implementação no pacote Experimental Designs

UNIVERSIDADE ESTADUAL PAULISTA CAMPUS DE BOTUCATU FACULDADE DE CIÊNCIAS AGRONÔMICAS PROGRAMA DE PÓS-GRADUAÇÃO EM AGRONOMIA - IRRIGAÇÃO E DRENAGEM

AVALIAÇÃO DOS TESTES MULTIVARIADOS DA RAZÃO DE VEROSSIMILHANÇAS E T² DE HOTELLING: Um estudo por simulação de dados

Comparação da robustez de alternativas do teste de igualdade de duas médias populacionais sob não normalidade por simulação Monte Carlo

TESTE DE COMPARAÇÃO MÚLTIPLA

Delineamento e Análise Experimental Aula 4

DELINEAMENTO INTEIRAMENTE CASUALIZADO. Profª. Sheila Regina Oro

UNIVERSIDADE FEDERAL DE ALFENAS UNIFAL-MG BRUNA DE OLIVEIRA GONÇALVES

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo. Testes de Comparações Múltiplas

UM ESTUDO DO ERRO TIPO II EM UM TESTE DE HIPÓTESES PARA A MÉDIA

DISCIPLINA. Magno Antonio Patto Ramalho

UNIVERSIDADE ESTADUAL PAULISTA CAMPUS DE BOTUCATU FACULDADE DE CIÊNCIAS AGRONÔMICAS PROGRAMA DE PÓS-GRADUAÇÃO EM AGRONOMIA AGRICULTURA

Avaliação do coeficiente de variação na experimentação com cana-de-açúcar. Introdução

UNIVERSIDADE ESTADUAL PAULISTA CAMPUS DE ILHA SOLTEIRA FACULDADE DE ENGENHARIA DE ILHA SOLTEIRA

UNIVERSIDADE ESTADUAL PAULISTA CAMPUS DE BOTUCATU PROGRAMA DE PÓS-GRADUAÇÃO EM AGRONOMIA ENERGIA NA AGRICULTURA PLANO DE ENSINO

Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação

PROGRAMA ANALÍTICO DE DISCIPLINA IDENTIFICAÇÃO. Ciências Vegetais EMENTA

(Aphis gossypii Glover) da cultura do pepino

Função R para analisar experimentos em DBC com Fatorial Duplo e um Tratamento Adicional, em uma só Rodada

3. Experimentos a um único fator: Análise de Variância (ANOVA) 3.7 Comparações entre médias de tratamento

DELINEAMENTO EM BLOCOS CASUALIZADOS COM REPETIÇÕES. Profª. Sheila Regina Oro

ERRO ADEQUADO PARA COMPARAÇÃO DE MÉDIAS EM CASOS DE HETEROGENEIDADE DAS VARIÂNCIAS ( 1 )

V Encontro Amazônico de Agrárias. 10 a 15 de junho de A Importância da Tecnologia e do Empreendedorismo no Desenvolvimento Amazônico

Distribuições Alternativas de Probabilidade Para Modelos Univariados não Gaussianos de Produtividade

Delineamento e Análise Experimental Aula 5

Análise Estatística de Experimentos

Tamanho Amostral para Detecção de Diferenças Significativas entre Tratamentos

Planejamento da pesquisa científica: incerteza e estatística. Edilson Batista de Oliveira Embrapa Florestas

MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE CAMPINA GRANDE CENTRO DE CIENCIAS E TECNOLOGIA AGROALIMENTAR UNIDADE V

EXPERIMENTAÇÃO AGRÍCOLA

H 0 : m 1 = m 2 =... = m I = 0 H a : pelo menos m u m k, para algum u k (u,k=1,2,...,i)

APLICAÇÃO CONDICIONAL DE TESTES DE COMPARAÇÃO DE MÉDIAS A UM RESULTADO SIGNIFICATIVO DO TESTE F GLOBAL NA ANÁLISE DE VARIÂNCIA

Análise de resíduos e transformação de dados em variáveis de tomateiro

ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Mario de Andrade Lira Junior

Lucas Santana da Cunha 28 de setembro de 2018 Londrina

H 0 : m 1 = m 2 =... = m I = 0 H a : pelo menos m u m k, para algum u k (u,k=1,2,...,i)

ESTABILIDADE E ADAPTABILIDADE DE RENDIMENTO DE GRÃOS DE GENÓTIPOS DE TRIGO EM DIVERSAS REGIÕES TRITÍCOLAS DO BRASIL

COMPARAÇÃO DE MODELOS MISTOS VISANDO À ESTIMAÇÃO DO COEFICIENTE DE HERDABILIDADE PARA DADOS DE PROPORÇÕES

COMPARAÇÕES MÚLTIPLAS

Tópicos Extras 1ª parte. Testes Não Paramétricos, Análise Multivariada, Outras Técnicas

Aumento amostral via arquétipos na avaliação do potencial hídrico de espécies de eucalipto

A capa não é contada Fonte: Arial ou Times

EXPERIMENTAÇÃO AGRÍCOLA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas

Lucas Santana da Cunha de outubro de 2018 Londrina

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)

Diferentes abordagens no emprego da análise de variância em experimentos com medidas repetidas no tempo

INFERÊNCIAS SOBRE PROPORÇÕES BINOMIAIS: TESTES FREQUENTISTAS E BAYESIANOS NÁDIA GIARETTA BIASE

UNIVERSIDADE ESTADUAL PAULISTA CAMPUS DE BOTUCATU FACULDADE DE CIÊNCIAS AGRONÔMICAS PROGRAMA DE PÓS-GRADUAÇÃO EM AGRONOMIA AGRICULTURA

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) EXPERIMENTOS COM DOIS FATORES E O PLANEJAMENTO FATORIAL

VARIABILIDADE GENÉTICA EM LINHAGENS S 5 DE MILHO

5. Carta de controle e homogeneidade de variância

Análise de Variância. Análise de Variância. Análise de Variância. Análise de Variância. Análise de Variância. Mestrado em Recreação e Lazer

Considerações. Planejamento. Planejamento. 3.3 Análise de Variância ANOVA. 3.3 Análise de Variância ANOVA. Estatística II

TEAZ Técnicas Experimentais Aplicadas à Zootecnia PLANO DE ENSINO

COMPORTAMENTO AGRONÔMICO DE CULTIVARES DE TRIGO NO MUNICÍPIO DE MUZAMBINHO MG

Magda Lea Bolzan Zanon 1 Lindolfo Storck 2 RESUMO. O objetivo deste trabalho foi estimar o tamanho ótimo de parcelas experimentais de

Importância daestatísticana Pesquisa Agronômica

Delineamento e Análise Experimental Aula 3

Lucas Santana da Cunha de outubro de 2018 Londrina

Éder David Borges da Silva Renato Gonçalves de Oliveira

Éder David Borges da Silva Renato Gonçalves de Oliveira

PROGRAMA DE DISCIPLINA

TESTE DE HIPÓTESE DE DEPENDÊNCIA EM DADOS DE COLHEITAS DE CHÁ PARA ANÁLISE DA VARIÂNCIA (1)

Mario de Andrade Lira Junior lira.pro.br\wordpress

Métodos Quantitativos em Biotecnologia (220124)

3ª LISTA DE EXERCÍCIOS

COMPARAÇÕES MÚLTIPLAS PARA PARÂMETROS BINOMIAIS UTILIZANDO BOOTSTRAP NÁDIA GIARETTA BIASE

4 ANÁLISE DE DESEMPENHO

COMPARAÇÕES MÚLTIPLAS MULTIVARIADAS VIA BOOTSTRAP E PERMUTAÇÃO ELISA NORBERTO FERREIRA SANTOS

Escolha dos testes INTRODUÇÃO À BIOESTATÍSTICA QUANTIFICAÇÃO DOS GRUPOS DO ESTUDO PESQUISA INFERÊNCIA ESTATÍSTICA TESTE DE HIPÓTESES E

UNIVERSIDADE DE SÃO PAULO

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Sensibilidade do método de adaptabilidade e estabilidade de Lin & Binns: um estudo via simulação

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Adaptabilidade de Cultivares de Milho (Zea mays L.), de Ciclo Super Precoce, nos Estados de Minas Gerais, São Paulo e Goiás, na Safra 1997/1998

Universidade Federal de Uberlândia Instituto de Ciências Agrárias ANEXO DO EDITAL 098/2011

Comparação de métodos para tratamento de parcelas perdidas em delineamento em blocos casualizados via simulação Monte Carlo

Métodos Estatísticos Avançados em Epidemiologia

MINISTE RIO DA EDUCAÇA O UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CIE NCIAS EXATAS

ANÁLISE DA SENSIBILIDADE DOS TESTES DE NORMALIDADE DE JARQUE-BERA E LILLIEFORS EM MODELOS DE REGRESSÃO LINEAR

EXPERIMENTAÇÃO AGRÍCOLA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

ANOVA e Estatísticas não-paramétricas

Consistência de agrupamentos de acessos de alho via análise discriminante

DELINEAMENTO EM BLOCOS CASUALIZADOS (DBC)

Testes de Hipóteses sobre a média: Várias Amostras

ANOVA - Etapas de Análise

Transcrição:

PODER E TAAS DE ERRO TIPO I DOS TESTES SCOTT-KNOTT, TUKEY E STUDENT-NEWMAN- KEULS SOB DISTRIBUIÇÕES NORMAL E NÃO NORMAIS DOS RESÍDUOS Lívia Costa BORGES 1 Daniel Furtado FERREIRA 1 RESUMO: O objetivo deste trabalho foi avaliar o poder e as taxas de erro tipo I dos testes Scott-Knott, Tukey e SNK em amplas situações experimentais, em condições de normalidade e não-normalidade dos resíduos. Foram avaliados o poder dos testes e as taxas de erro tipo I por comparação e por experimento, considerando hipóteses H 0 completa e parcial. As simulações foram feitas considerando as distribuições normal, lognormal, exponencial e weibull. O teste de Scott-Knott controlou as taxas de erro tipo I por comparação, sob H 0 completa e não controlou estas taxas de erro por experimento para todas as distribuições consideradas. Em situação de nulidade parcial, o teste de Scott-Knott não controlou as taxas de erro tipo I por comparação e por experimento, mesmo em situações de normalidade dos resíduos. O teste de Scott-Knott é mais poderoso que os demais e é robusto. Pelo fato de possuir poder elevado, taxas de erro tipo I quase sempre de acordo com os níveis nominais em todas as distribuições consideradas e por ser robusto à violação de normalidade, recomenda-se a utilização do teste de Scott-Knott. PALAVRAS-CHAVE: comparações múltiplas, robustez, análise de agrupamento. 1 Departamento de Ciências Exatas, Universidade Federal de Lavras, Caixa Postal 37, CEP 37200-000, Lavras, MG, Brasil. E-mail: borgeslc@yahoo.com.br/danielff@ufla.br Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2003 67

1 Introdução O objetivo de uma pesquisa se depara, em geral, com a necessidade de comparar e testar médias de tratamentos. A hipótese de igualdade de médias de tratamentos é testada inicialmente com o teste F. A significância desse teste em relação a um valor nominal fixado permite que se infira que pelo menos um tratamento difere dos demais. O teste F não permite ao pesquisador, no entanto, descobrir onde estão essas diferenças. Para tratamentos cujos níveis são quantitativos recomenda-se o ajuste de equações de regressão. Por outro lado, se os níveis dos tratamentos são qualitativos, recomenda-se aplicar algum tipo de procedimento de comparações múltiplas. As comparações múltiplas são largamente utilizadas devido à facilidade de aplicação por envolver operações matemáticas simples; à grande disponibilidade de recursos computacionais de fácil acesso e à grande difusão de idéias desses procedimentos pelos estatísticos, pesquisadores e professores. Os principais procedimentos de comparações múltiplas são os testes de Tukey, Student Newman-Keuls (SNK), t de Student (LSD), Duncan, entre outros. A dificuldade de utilização desses procedimentos é interpretar seus resultados. Todos eles apresentam a característica de ambigüidade nos resultados que fornecem. Essa ambigüidade é decorrente da possibilidade de dois níveis de tratamentos serem considerados iguais a um terceiro, mas diferentes entre si. O pesquisador, de uma forma geral, tem muita dificuldade na interpretação dos resultados e na recomendação do melhor tratamento. Uma alternativa é a aplicação do teste aglomerativo de Scott Knott (1974). Este teste visa a separação de médias de tratamentos em grupos distintos, através da minimização da variação dentro e maximização da variação entre grupos. Os resultados são facilmente interpretados, devido à ausência de ambigüidade. Desta forma este procedimento resulta em maior objetividade e clareza. Os procedimentos de comparações múltiplas têm sua teoria fundamentada na normalidade dos resíduos do modelo linear utilizado para ajustar os dados. Da mesma forma, o teste de Scott-Knott exige que os resíduos sejam normais. As conseqüências da violação de normalidade dos resíduos não são conhecidas. Uma característica desejável é que havendo violação dessa pressuposição, os testes apresentem controle das taxas de erros tipo I e II. Esse tipo de característica é conhecido por robustez do procedimento. 68 Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2002

O presente trabalho teve por objetivo avaliar o poder e as taxas de erro tipo I do teste proposto por Scott e Knott (1974), em amplas situações experimentais com relação à precisão, número de tratamentos, número de repetições e nível de significância adotado, por meio de simulação Monte Carlo em condições de não normalidade do resíduo. 2 Metodologia Para avaliar a taxa de erro tipo I e o poder do teste de Scott e Knott, foi utilizada simulação Monte Carlo. Os dados do experimento (y ij, i = 1, 2,..., p e j = 1, 2,...r) foram simulados utilizando um algoritmo em Pascal, implementado em Delphi 5.0, para a inversão da função de distribuição dos modelos normal, exponencial, lognormal e weibull. O delineamento inteiramente casualizado, foi escolhido por ser o mais simples de todos os delineamentos e por ser o mais utilizado na literatura para esse fim. O modelo linear geral adotado é: Y ij = µ + τ i +ε ij, com i = 1,...p e j = 1,2,...r; em que Y ij é o valor simulado na j-ésima repetição do tratamento i; µ é uma constante geral fixada para se ter o valor determinado de coeficiente de variação; τ i é o efeito paramétrico do tratamento i, estipulados de tal forma que p i = 0 e ε ij é o erro aleatório, com i=1 variância 2 gerado independentemente com distribuições normal, exponencial, lognormal e weibull. Foram gerados 2.000 experimentos para cada situação e foram avaliadas as taxas de erro tipo I por comparação e por experimento, considerando hipóteses H 0 completa e parcial. As simulações foram feitas para as combinações entre o número de tratamentos p = 5, 10, 20 e 80, para H 0 completa e p = 5, 10, 20, 40 e 96 para H 0 parcial, o número de repetições r = 4, 10 e 20, o valor nominal de significância α, igual a 5% e 1%, e os coeficientes de variação iguais a 1%, 10%, 20% e 30%, considerando as distribuições normal, lognormal, exponencial e weibull. Ao se considerar H 0 parcial, simulações adicionais foram feitas, estabelecendo-se diferenças entre grupos de médias em função do erro padrão paramétrico de uma média de tratamento ( ). Foram considerados k grupos, com k variando de 3 a 20, dependendo do número de tratamentos usados. Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2003 69

Para decidir se as taxas de erro eram semelhantes aos valores nominais estabelecidos, calculou-se um limite máximo e um limite mínimo, baseado no intervalo de confiança (IC) para as taxas empíricas do erro tipo I. Os intervalos de 99% de confiança para os valores nominais foram, em porcentagem, [0,6119; 1,5402] para o valor nominal 1% e [3,8282; 6,3914] para o valor nominal 5%. Assim, valores que não pertencem a este intervalo, não são considerados iguais aos valores nominais de significância. O poder dos testes foi avaliado, sendo as simulações feitas para as diversas combinações entre o número de tratamentos (p = 5, 10, 20, 40 e 96), o número de repetições (r = 4, 10 e 20), o nível nominal de significância α igual a 5% e 1%, e admitindo uma diferença entre grupos adjacentes igual a erro padrão da média ( x ). Foram considerados os mesmos coeficientes de variação e as mesmas distribuições utilizadas para medir a taxa de erro tipo I. Para medir o poder dos testes, os resultados significativos foram computados para os contrastes, envolvendo diferenças de = ½, 1, 2, 4, 6, 8 e 10 erros padrão da média, em todas as situações especificadas. 3 Resultados e discussão Ao se considerar a taxa de erro tipo I por comparação (TPC) e hipótese H 0 completa, todos os testes apresentam controle desta taxa de erro, sendo que o aumento do número de tratamentos, proporciona uma diminuição nesta taxa de erro. O coeficiente de variação não teve efeito nas taxas de erro tipo I por comparação e nenhum valor excedeu o limite inferior do IC (3,8282%) para α = 5%, para os testes considerados, independente das distribuições ou valor de CV considerados. Ao avaliar as TPC em função do número de repetições, verificouse que o aumento do número de repetições provocou um aumento dessas taxas de erro do teste de Scott e Knott, em todas as distribuições, sendo que estas taxas passam a ficar mais próximas do limite inferior do IC. O número de repetições não influencia as TPC dos testes de Tukey e SNK, os quais não diferem entre si, exceto na distribuição lognormal, em que o teste SNK apresentou taxas de erro superiores às do Tukey. O teste de Scott e Knott não apresentou controle das taxas de erro tipo I por experimento em todas as distribuições consideradas, ao se considerar hipótese H 0 completa. Nas situações em que a distribuição é normal ou exponencial (Figura 1), todos os testes apresentaram taxa de 70 Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2002

erro igual ao valor nominal adotado, independente do número de tratamentos considerados. Quando se considera a distribuição lognormal (Figura 2), os testes de Tukey e SNK tenderam a apresentar taxas de erro por experimento bastante altas em situações de maior número de tratamentos (em torno de 55% quando se considera 80 tratamentos). Já o teste de Scott-Knott apresenta taxa de erro muito menor para esta situação (em torno de 13%), sendo menos afetado pela mudança da distribuição. Nas distribuições weibull 1,5 e 5,0 (Figura 3), algumas TPE ultrapassaram o limite superior do IC para o teste de Scott-Knott, diferindo, portanto do valor nominal de significância préestabelecido de 5%. Os testes de Tukey e SNK quase não diferem entre si em relação as TPE em todas as distribuições consideradas. A distribuição lognormal provocou um grande efeito nestes testes, considerando grande número de tratamentos e também provocou efeito significativo no teste de Scott-Knott, mas de magnitude muito inferior. O teste de Scott e Knott apresenta uma certa robustez no controle da taxa de erro tipo I por experimento sob H 0 completa. Mesmo nas situações em que o valor nominal foi ultrapassado de forma significativa, o viés positivo na taxa de controle do erro foi muito pequeno. Taxa de erro tipo I por experimento r=20 e cv=30 6.6 6.0 Taxa de erro por experimento 5.4 4.8 4.2 3.6 5 10 20 80 Tukey (N) SNK (N) Scott Knott (N) Tukey (E) SNK (E) Scott Knott (E) Limite inferior Limite Superior Número de tratamentos FIGURA 1 Taxa de erro tipo I por experimento dos testes de Tukey, SNK e Scott- Knott, em função do número de tratamentos, considerando-se as distribuições normal e exponencial, hipótese H 0 completa, r = 20 e CV 30%, para α = 5%, sendo as linhas pontilhadas os limites superior e inferior do IC exato com 99% de confiança. Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2003 71

65 Taxa de erro tipo I por experimento r=20 e CV=30% 55 Taxa de erro por experimento 45 35 25 15 5-5 5 10 20 80 Tukey (L) SNK (L) Scott Knott (L) Tukey (W3.6) SNK (W3.6) Scott Knott (W3.6) Limite inferior Limite Superior Número de tratamentos FIGURA 2 Taxa de erro tipo I por experimento dos testes de Tukey, SNK e Scott e Knott, em função do número de tratamentos, considerando-se as distribuições lognormal e weibull 3,6, hipótese H 0 completa, r = 20 e CV 30%, para α = 5%, sendo as linhas pontilhadas os limites superior e inferior do IC exato com 99% de confiança. 7.2 Taxa de erro tipo I por experimento r=20 e CV=30% 6.6 Taxa de erro por experimento 6.0 5.4 4.8 4.2 3.6 5 10 20 80 Tukey (W1.5) SNK (W1.5) Scott Knott (W1.5) Tukey (W5.0) SNK (W5.0) Scott Knott (W5.0) Limite inferior Limite superior Número de tratamentos FIGURA 3 Taxa de erro tipo I por experimento dos testes de Tukey, SNK e Scott- Knott, em função do número de tratamentos, considerando-se a distribuição weibull com parâmetros 1,5 e 5,0, hipótese H 0 completa, r = 20 e CV 30%, para α = 5%, sendo as linhas pontilhadas os limites superior e inferior do IC exato com 99% de confiança. 72 Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2002

O coeficiente de variação teve efeito nas taxas de erro tipo I por experimento, para os diferentes testes e distribuições (Tabela 1). Verifica-se que o teste de Scott-Knott apresenta TPE igual ao valor nominal 5% (taxas de erro menores que o limite superior do IC, 6,3914%), a partir do CV=20% para a distribuição normal e CV=10% para a exponencial, considerando número de tratamentos igual a 10 e 20 repetições. Isso sugere que o teste de Scott-Knott com alta precisão e experimentos com poucos graus de liberdade para o resíduo seja muito afetado, ou seja, apresente TPE elevados (maiores que o valor nominal adotado). Se for feita uma especulação para isso, pode-se apontar a derivação assintótica do teste de Scott-Knott como causa desse efeito. Ao se considerar um número maior de tratamentos (p = 80), o teste de Scott-Knott passa a controlar essa TPE para qualquer CV, nas distribuições normal e exponencial. Na distribuição lognormal, os testes de Scott-Knott e SNK tendem a apresentar um aumento da TPE à medida que se aumenta o CV, sendo que com CV superior a 10% estas taxas já diferem do valor nominal adotado, sendo esse efeito mais pronunciado no teste SNK. Ao se considerar o efeito do número de repetições nas taxas de erro tipo I por experimento, observou-se que para um maior número de repetições (r=20), o teste de Scott-Knott apresenta TPE acima do limite superior nas distribuições normal e weibull 5,0. Na distribuição lognormal, verifica-se que os testes de Scott-Knott e SNK apresentam TPE maiores que o limite superior do IC para qualquer número de repetição, sendo que para o teste de SNK estas taxas tendem a diminuir e se tornarem mais próximas do valor nominal com o aumento do número de repetições, enquanto que para o teste de Scott-Knott estas taxas de erro permanecem em torno de 7% independente do número de repetições. Os testes de Tukey e SNK apresentam taxas de erro semelhantes ao valor nominal para a maioria das situações. Os testes de Tukey e SNK, em geral, apresentam controle da taxa de erro por comparação, sendo estas taxas muito menores do que o valor nominal e, ainda, menores do que aquelas apresentadas pelo teste de Scott-Knott. Com isso era esperado um maior controle das TPE desses testes. Com exceção do caso da distribuição lognormal, com grandes valores de p, em que os testes de Tukey e SNK apresentam elevadíssimas TPE, houve um controle desse tipo de erro. O teste de Scott- Knott, por sua vez, apresenta alguns problemas no controle da taxa de erro tipo I por experimento, exceto sob normalidade. Embora possa parecer uma grande desvantagem, os valores da TPE superestimam o valor de α em uma magnitude não muito expressiva. É esperado que o teste de Scott-Knott tenha esse tipo de comportamento devido a sua Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2003 73

própria natureza teórica que faz com que esse teste nunca apresente resultados de ambigüidade, o que não se pode dizer para os testes de Tukey ou SNK, principalmente com elevados valores de p. Se for considerado que o teste de Scott-Knott não apresenta ambigüidade e controla as taxas de erro tipo I por experimento e por comparação para a maioria das situações, este pode ser considerado robusto e deve ser indicado. Tabela 1 Taxas de erro tipo I por experimento (%), para os testes de Tukey, SNK e Scott Knott, para diferentes CV e distribuições, considerando número de tratamentos (p) igual a 10 e 20 repetições, para os níveis nominais de significância de 1% e 5% Distribuições Normal Lognormal Exponencial Weibull 3,6 CV(%) Testes Tukey SNK Scott-Knott α=1% α=5% α=1% α=5% α=1% α=5% 1 1,20 5,70 1,20 5,70 0,90 6,35 10 1,15 5,05 1,15 5,10 1,25 6,90 20 1,30 4,60 1,30 4,60 1,20 6,20 30 1,00 4,75 1,00 4,80 1,45 6,00 1 1,15 4,80 1,20 5,05 1,45 5,30 10 0,60 3,80 1,20 6,50 2,00 7,10 20 0,85 4,15 1,55 8,70 2,35 8,15 30 0,35 3,55 0,90 9,25 1,65 7,15 1 0,95 5,00 0,95 5,05 1,45 7,25 10 1,00 5,35 1,10 5,40 1,30 6,35 20 0,85 4,35 0,85 4,40 1,45 6,10 30 1,30 5,20 1,35 5,45 1,95 6,00 1 1,25 5,50 1,25 5,55 1,70 6,25 10 0,70 4,35 0,70 4,35 1,10 5,75 20 0,60 4,05 0,60 4,85 1,30 5,80 30 1,00 4,80 1,00 4,90 1,60 6,60 O teste de Scott e Knott, assim como os demais, controlou as taxas de erro tipo I por comparação, independente do CV, do número de tratamentos, do número de repetições e das distribuições consideradas, sob H 0 completa. Ao se considerar a taxa de erro tipo I por experimento, ainda sob H 0 completa, verifica-se que o teste de Scott e Knott não controlou essa taxa de 74 Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2002

erro para todas as distribuições. Na distribuição lognormal, não houve controle desta taxa de erro para maiores coeficientes de variação e maiores números de tratamentos, mas apresentou taxas de erro menores que as de Tukey e SNK, quando se considera um maior número de tratamentos. Pode se destacar que na maioria das distribuições consideradas, o CV e o número de repetições não influenciaram a taxa de erro por experimento. Isso é devido ao sistema de simulação adotado, porque os parâmetros dos tratamentos estão vinculados ao número de repetições e a diferença entre médias é sempre preservada em termos de erro padrão, o qual está relacionado com o CV e com o número de repetições. Uma outra maneira de se medir a taxa de erro tipo I, é através da etapa em que as simulações foram realizadas, levando-se em conta a situação de nulidade parcial (Tabela 2). O teste de Scott e Knott não controlou as taxas de erro tipo I por comparação e por experimento para qualquer diferença entre grupos considerada, e esse resultado foi verificado para todas as distribuições consideradas, inclusive para a distribuição normal. Estas taxas de erro tiveram uma tendência de aumentar com o aumento do número de tratamentos. O teste de Tukey, por sua vez, controla as taxas de erro tipo I por comparação e por experimento na distribuição normal, o que está de acordo com sua derivação teórica apresentada na literatura (Hochberg e Tamhane, 1987). O SNK controla somente as taxas de erro por comparação, sendo que por experimento, as taxas de erro estão acima do valor nominal quando se considera uma diferença de médias entre grupos consecutivos de 4 e estas taxas tendem a aumentar com o aumento do número de tratamentos. Nas distribuições exponencial e weibull, verifica-se a mesma tendência observada na distribuição normal. Na distribuição lognormal, o teste de Tukey passa a não controlar as taxas de erro tipo I por experimento em situações de maior número de tratamentos (p > 20). O teste SNK não controla essas taxas de erro para p maior que 10 e verifica-se um aumento nessas taxas de erro quando a diferença entre médias de grupos consecutivos passa de 0,5 para 4. Para esta distribuição, o teste de Scott-Knott continua não controlando os dois tipos de taxas de erro tipo I consideradas. Em situação de nulidade parcial, o teste de Scott e Knott não controlou as taxas de erro tipo I por comparação e por experimento, mesmo em situações de normalidade dos resíduos. Observa-se a mesma tendência para as demais distribuições consideradas. Os testes de Tukey e SNK controlaram a TPC, mas com relação a TPE, o teste de SNK passa a ter baixo controle ao se considerar um maior diferença Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2003 75

entre grupos. O teste de Tukey na distribuição lognormal passou a não controlar a TPE, tendo esse efeito mais pronunciado com o aumento do número de tratamentos. Nas Figuras 4 e 5, estão apresentadas as percentagens de decisões corretas dos testes de Tukey, SNK e Scott Knott (poder dos testes em detectar reais diferenças), em função do número de tratamentos, para o valor nominal de significância α=5%, considerando diferença real entre médias de 0,5. Ao se considerar um pequeno número de tratamentos (p=5), o teste de Scott e Knott é superior aos demais testes em todas as distribuições consideradas. O poder dos testes de Tukey e SNK é próximo de zero para pequeno número de tratamentos e tem uma tendência de ainda diminuir com o aumento do número de tratamentos. O teste de Scott-Knott, ao contrário dos demais, apresenta um aumento do poder com o aumento do número de tratamentos, sendo que para p = 96, apresenta em torno de 35% de poder para detectar pequenas diferenças, exceto na distribuição lognormal (poder em torno de 25%), enquanto os testes de Tukey e SNK apresentam poder próximo a 0% para esta situação. Tabela 2 Taxas de erro tipo I por comparação e por experimento(%), sob H 0 parcial, dos testes Tukey, SNK e Scott-Knott em função do número de tratamentos, para as distribuições normal, e lognormal considerando α = 5%, CV=10%, r=10 e diferença entre médias de grupos consecutivos de 0,5 e 4 Trat Tukey SNK Scott-Knott 0,5 4,0 0,5 4,0 0,5 4,0 CW EW CW EW CW EW CW EW CW EW CW EW Distribuição Normal 05 0,85 2,25 0,50 1,40 1,38 3,05 2,38 5,30 4,40 6,60 6,67 10,00 10 1,56 1,35 0,19 1,60 0,32 2,35 2,56 18,75 6,54 17,80 10,10 42,05 20 0,04 1,55 0,03 1,15 0,06 2,00 0,75 17,00 8,89 23,85 9,58 61,00 40 0,01 0,70 0,01 0,35 0,03 1,50 1,27 41,25 23,06 99,85 18,57 98,35 96 0,00 0,60 0,00 0,35 0,01 2,85 0,50 63,40 22,94 100,00 16,67 100,00 Distribuição Lognormal 5 0,40 1,00 0,40 1,00 2,07 4,10 2,18 4,55 7,37 11,05 3,67 5,50 10 0,24 1,70 0,34 2,25 1,52 8,10 3,77 25,05 9,32 3,76 6,38 32,55 20 0,34 6,20 0,28 4,75 1,04 14,80 2,88 39,00 10,93 46,65 7,74 61,30 40 0,54 15,70 0,64 18,15 1,24 30,35 4,15 82,25 21,37 96,65 10,26 94,35 96 0,70 44,05 0,71 43,35 1,44 63,95 2,56 98,20 13,27 99,90 6,41 99,90 76 Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2002

40 Poder dos testes para diferença de 0,5 erro padrão da média r=20 e CV=20% 35 30 % de decisões corretas 25 20 15 10 5 0 5 10 20 40 96 Tukey (N) SNK (N) Scott-Knott (N) Tukey (E) SNK (E) Scott-Knott (E) Número de tratamentos FIGURA 4 Poder dos testes de Tukey, SNK e Scott e Knott, para detectar uma diferença entre médias de 0,5, em função do número de tratamentos, considerando- se as distribuições normal e exponencial, r = 20 e CV 20%, para α = 5%. 40 Poder dos testes para diferença de 0,5 erro padrão da média r=20 e CV=20% 35 30 % de decisões corretas 25 20 15 10 5 0 5 10 20 40 96 Tukey (L) SNK (L) Scott-Knott (L) Tukey (W3.6) SNK (W3.6) Scott-Knott (W3.6) Número de tratamentos FIGURA 5 Poder dos testes de Tukey, SNK e Scott e Knott, para detectar uma diferença entre médias de 0,5, em função do número de tratamentos, considerando- se as distribuições lognormal e weibull, r = 20 e CV 20%, para α = 5%. Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2003 77

Ao se considerar uma diferença maior entre médias consecutivas a ser detectada (4 ), ocorre um aumento do poder, como já era esperado. Em situações de pequeno número de tratamentos (p = 5), o teste de Scott-Knott apresenta poder em torno de 80%, em todas as distribuições consideradas, exceto na lognormal, em que esse poder é superior (em torno de 90%), enquanto os testes SNK e Tukey apresentam poderes inferiores (em torno de 60% e 50%, respectivamente), exceto na distribuição lognormal em que estes testes apresentam poder próximo a 90%. Com o aumento do número de tratamentos, o poder do teste de Scott-Knott aumenta, sendo que para p maior que 40, para detectar uma diferença de 4, esse poder já está em torno de 95%. Os demais testes apresentam uma queda de alta magnitude no poder à medida que o valor de p aumenta. É interessante observar que o teste SNK tende a ter poder ligeiramente superior ao Tukey em todas as distribuições e números de tratamentos considerados. Como era de se esperar, à medida que a magnitude da diferença entre médias consecutivas aumenta, a percentagem de decisões corretas cresce rapidamente. Nas Figuras 6 e 7, para p=5, o teste de Scott-Knott apresenta baixo poder para detectar diferença de 0,5, mas apesar de baixo, é superior ao poder dos demais testes para esta situação. Para uma diferença de 6, o poder do teste de Scott-Knott já é próximo a 99%. Para todas as situações o teste de Scott-Knott apresenta maior poder, sendo que para detectar maiores diferenças, os poderes dos testes em questão se tornam similares, independente da distribuição considerada. O teste SNK apresenta poder ligeiramente superior ao Tukey e bem inferior ao Scott-Knott, em todas as situações consideradas. Ao se considerar um número maior de tratamentos (p = 96), observa-se uma maior magnitude na diferença entre poder do teste de Scott-Knott e o poder dos demais testes. Para detectar diferenças em torno de 2, o teste de Scott-Knott apresenta poder superior a 60% em todas as distribuições, enquanto nos demais testes o poder está próximo a 0%. À medida que aumenta a diferença a ser detectada, os poderes dos três testes tendem a ficar iguais, sendo que para detectar diferença de 10 todos os testes apresentam praticamente 100% de poder em todas as distribuições. No que se refere ao teste de Scott-Knott, pode-se dizer que se trata de um procedimento de poder elevado, pois seu poder 78 Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2002

supera os dos demais testes em todas as situações. Quando comparado ao Tukey, teste amplamente utilizado por pesquisadores nas mais diversas áreas, foi indiscutivelmente melhor. 100 Poder dos testes para t=5 CV=20% e r=20 80 % de decisões corretas 60 40 20 0 0.5 1 1.5 2 4 6 Tukey (N) SNK (N) Scott-Knott (N) Tukey (E) SNK (E) Scott-Knott (E) Diferença real entre médias FIGURA 6 Poder dos testes de Tukey, SNK e Scott e Knott, para detectar diferenças entre médias de 0,5 a 6, considerando-se as distribuições normal e exponencial, 5 tratamentos, 20 repetições e CV 20%, para α = 5%. O teste de Scott e Knott apresentou poder superior aos demais testes, em todas as situações consideradas e, além disso, apresentou poderes semelhantes nas situações de normalidade e não normalidade dos resíduos. Sob H 0 parcial esse efeito tem pouco valor, devido às elevadas taxas de erro tipo I por experimento e por comparação observadas. As elevadas taxas de erro tipo I, observadas sob H 0 parcial é uma característica desse teste que já tinha sido apontada por Silva, Ferreira e Bearzoti (1999) e por Santos (2000). É conveniente observar, que as distribuições residuais têm pouco efeito, sob H 0 parcial e completa, mostrando a robustez do teste. Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2003 79

Poder dos testes para t=5 CV=20% e r=20 100 80 % de decisões corretas 60 40 20 0 0.5 1 1.5 2 4 6 Tukey (L) SNK (L) Scott-Knott (L) Tukey (W3.6) SNK (W3.6) Scott-Knott (W3.6) Diferença real entre médias FIGURA 7 Poder dos testes de Tukey, SNK e Scott e Knott, para detectar diferenças entre médias de 0,5 a 6 weibull, 5 tratamentos, 20 repetições e CV 20%, para α = 5%., considerando-se as distribuições lognormal e Conclusões O teste de Scott-Knott controla as taxas de erro tipo I por comparação, quando são considerados os resultados obtidos na situação de nulidade completa. A taxa de erro tipo I por experimento do teste de Scott e Knott, ainda em situação de nulidade completa, esteve acima do valor nominal adotado para algumas situações. Para a distribuição lognormal, com um maior número de tratamentos, os testes de Tukey e SNK apresentaram altas taxas de erro, enquanto o teste de Scott e Knott foi mais robusto para esta situação. Quando se considerou situação de nulidade parcial, o teste de Scott-Knott não controlou as taxas de erro tipo I por experimento e por comparação, independente das distribuições. Os testes de Tukey e SNK, na distribuição lognormal, não controlaram as taxas de erro tipo I por experimento, sendo esse efeito mais pronunciado com maior número de tratamentos. O teste de Scott-Knott é mais poderoso que os demais e além disso apresenta poderes semelhantes nas distribuições normais e não 80 Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2002

normais dos resíduos. Pelo fato de possuir poder elevado, taxas de erro tipo I quase sempre de acordo com os níveis nominais em todas as distribuições consideradas e por ser robusto à violação de normalidade, recomenda-se a utilização do teste de Scott e Knott. BORGES, L. C., FERREIRA, D. F. Power and type I error rates of Scott-Knott, Tukey and Student-Newman-Keuls s tests under residual normal and non normal distributions. Rev. Mat. Estat. (São Paulo), v.21, n.1, p.67-83, 2003. ABSTRACT: This work proposed to evaluate the power and the type I error rates of the Scott-Knott, Tukey and SNK test, in a wide of experimental situations, in conditions of normality and non-normality error distribution. Power and type I comparisonwise and experimentwise error rates were evaluated, considering complete and partial null hypotheses. The simulations were made considering the normal, lognormal, exponential and weibull distributions. Scott-Knott's test controlled the comparisonwise type I error rates, under complete H 0 and it did not control the experimentwise type I error rate in all distributions. In situation of partial nullity, Scott-Knott's test did not control the type I comparisonwise and experimentwise error rates, even in normality situations. Scott-Knott's test is more powerful than the others and it is robust. Due to the high power, type I error rates almost always in agreement with the nominal levels for all distributions and for being robust to the normality violation, the Scott-Knott test is recommended. KEYWORDS: Multiple comparisons, robustness, cluster analysis. Referências BANZATO, D. A.; KRONKA, S. N. Experimentação agrícola. 3.ed. Jaboticabal: FCAV/UNESP, 1995. 247p. BERNHARDSON, C. S. Type I error rates when multiple comparison procedures follow a significant F test of ANOVA. Biometrics, v.31, p.337-340, 1975. BOARDMAN, T, J.; MOFFITT, D. R. Graphical Monte Carlo Type I error rates for multiple comparison procedures. Biometrics, v.27, p.738-744, 1971. CARMER, S. G.; SWANSON, M. R. Detection of differences between means: a Monte Carlo study of five pairwise multiple comparison procedures. Agron. J., v.63, p.940-945, 1971. Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2003 81

CARMER, S. G.; SWANSON, M. R. An evaluation of ten pairwise multiple comparison procedures by Monte Carlo methods. J. Am. Stat. Assoc., v.68, p.66-74, 1973. DACHS, J. N. Estatística computacional: uma introdução em turbo pascal. Rio de Janeiro: Livros Técnicos e Científicos, 1988. 236p. FERREIRA, D. F.; MUNIZ, J. A. D.; F.; AQUINO, L. H. Comparações múltiplas em experimentos com grande número de tratamentos utilização do teste de Scott - Knott. Ciênc. Agrotecnol., v.23, n.3, p.745-752, 1999. HOCHBERG, Y.; TAMHANE, A. C. Multiple comparison procedures. New York: John Wiley, 1987. 450p. JOHNSON, N. L.; KOTZ, S. Distributions in statistics continuous univariate distributions. New York: John Wiley, 1970. 300p. KROMREY, J. D.; LAROCCA, M. E. Power and type I error rates of new pairwise multiple comparison procedures under heterogeneous variances. J. Exp. Educ., v.63, n.4, p.343-362, 1995. MOOD A. M.; GRAYBILL, F. A; BOES D. C. Introduction to the theory of statistics. 3.ed. New York: John Wiley, 1974. 564p. PERECIN, D.; BARBOSA, J. C. Uma avaliação de seis procedimentos para comparações múltiplas. Rev. Mat. Estat., v.6, p.95-103, 1988. PERECIN, D.; MALHEIROS, E. B. Curso: procedimentos para comparações múltiplas. In: SIMPÓSIO DE ESTATÍSTICA APLICADA À EPERIMENTAÇÀO AGRONÔMICA, 3 ; REUNIÃO ANUAL DA REGIÃO BRASILEIRA DA SOCIEDADE INTERNACIONAL DE BIOMETRIA, 34, 1989, Lavras, Curso...Lavras: ESAL, 1989. 67 p. RAMALHO, M. A. P.; FERREIRA D. F.; OLIVEIRA, A. C. Experimentação em genética e melhoramento de plantas. Lavras: UFLA, 2000. 303p. SANTOS, A. C. Definição do tamanho amostral usando simulação Monte Carlo para os testes de normalidade univariado e multivariado baseados em assimetria e curtose. 2001. 71f. Dissertação (Mestrado em Estatística e Experimentação Agropecuária) Universidade Federal de Lavras, Lavras, 2001. SANTOS, C. Novas alternativas de testes de agrupamento avaliadas por meio de simulação Monte Carlo. 2000. 85f. Dissertação (Mestrado em Estatística e Experimentação Agropecuária)-Universidade Federal de Lavras, Lavras, 2000. 82 Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2002

SCOTT, A. J.; KNOTT, M. A Cluster analysis method for grouping means in the analysis of variance. Biometrics, v.30, p.507-512, 1974. SILVA, E. C.; FERREIRA, D. F.; BEARZOTI, E. Avaliação do poder e taxas de erro tipo I do teste de Scott-Knott por meio do método de Monte Carlo. Ciênc. Agrotecnol., v.23, n.3, p.687-696, 1999. STEEL, R. G.D; TORRIE, J.H.; DICKEY, D.A. Principles and procedures of statistics a biometrical approach. 3.ed. New York: McGraw-Hill, 1997. 666p. Recebido em 15.07.2002. Aprovado após revisão em 13.10.2002. Rev. Mat. Estat., São Paulo, 21(1): 67-83, 2003 83