Erros tipo I e tipo II e testes de comparação múltipla de médias. Moeses Andrigo Danner e Simone Aparecida Zolet Sasso*

Documentos relacionados

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Artigo Número 76 TESTES ESTATÍSTICOS PARA COMPARAÇÃO DE MÉDIAS. Andréia Fróes Galuci Oliveira 1

O que é a estatística?

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

7Testes de hipótese. Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno. H 0 : 2,5 peças / hora

Capítulo 7 Medidas de dispersão

Aula 04 Método de Monte Carlo aplicado a análise de incertezas. Aula 04 Prof. Valner Brusamarello

4 Segmentação Algoritmo proposto

Hipótese Estatística:

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

Introdução à Análise Química QUI 094 ERRO E TRATAMENTO DE DADOS ANALÍTICOS

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

Introdução a Química Analítica. Professora Mirian Maya Sakuno

Conceitos e Princípios Básicos da Experimentação

Cláudio Tadeu Cristino 1. Julho, 2014

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.

ANÁLISE DE VARIÂNCIA ANOVA. Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística - PPGEMQ / PPGEP - UFSM

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

2. Representação Numérica

Análise bioestatística em fumantes dinamarqueses associado

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Métodos de Síntese e Evidência: Revisão Sistemática e Metanálise

CÁLCULO DO TAMANHO DA AMOSTRA PARA UMA PESQUISA ELEITORAL. Raquel Oliveira dos Santos, Luis Felipe Dias Lopes

O modelo ANOVA a dois factores, hierarquizados

6 Construção de Cenários

CHECK - LIST - ISO 9001:2000

Unidade VI. Validação e Verificação de Software Teste de Software. Conteúdo. Técnicas de Teste. Estratégias de Teste

GUIA DE REDAÇÃO PARA TRABALHO DE EM974

MINISTE RIO DA EDUCAÇA O UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CIE NCIAS EXATAS

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

ESTATÍSTICA EXPERIMENTAL Dr. Sérgio do N. Kronka 1. INTRODUÇÃO

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Calibração de Equipamentos

Pisa 2012: O que os dados dizem sobre o Brasil

Análise de Variância com dois ou mais factores - planeamento factorial

Capítulo 4 - Gestão do Estoque Inventário Físico de Estoques

Modelagem e Simulação Material 02 Projeto de Simulação

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll

CONSULTA PÚBLICA Nº 008/2010. Revisão da Metodologia de Estabelecimento dos Limites dos Indicadores Coletivos de Continuidade

6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais.

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

Modelo Cascata ou Clássico

CAPÍTULO 5 CONCLUSÕES, RECOMENDAÇÕES E LIMITAÇÕES. 1. Conclusões e Recomendações

Epidemiologia. Profa. Heloisa Nascimento

PLANEJAMENTO DA MANUFATURA

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

Técnicas e Instrumentos Utilizados na Pesquisa Científica Cavalcanti

Teste de Hipótese para uma Amostra Única

Cálculo de amostra para monitoria de qualidade em Call Center

Utilização do SOLVER do EXCEL

Exercícios Teóricos Resolvidos

OS EFEITOS DOS CUSTOS NA INDÚSTRIA

MODIFICAÇÃO DO TESTE DE NORMALIDADE DE SHAPIRO-WILK MULTIVARIADO DO SOFTWARE ESTATÍSTICO R

Conceito de pesquisa

Simulação Transiente

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

PESQUISA QUANTITATIVA e QUALITATIVA

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 11 PESQUISA DE MERCADO

PNAD - Segurança Alimentar Insegurança alimentar diminui, mas ainda atinge 30,2% dos domicílios brasileiros

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE II

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

Tópicos Abordados. Pesquisa de Mercado. Aula 1. Contextualização

AV2 - MA (a) De quantos modos diferentes posso empilhá-los de modo que todos os CDs de rock fiquem juntos?

Escolha de Portfólio. Professor do IE-UNICAMP

COMPARAÇÃO DOS TESTES DE ADERÊNCIA À NORMALIDADE KOLMOGOROV- SMIRNOV, ANDERSON-DARLING, CRAMER VON MISES E SHAPIRO-WILK POR SIMULAÇÃO

ipea A EFETIVIDADE DO SALÁRIO MÍNIMO COMO UM INSTRUMENTO PARA REDUZIR A POBREZA NO BRASIL 1 INTRODUÇÃO 2 METODOLOGIA 2.1 Natureza das simulações

3 Qualidade de Software

Revisão de Estatística Básica:

GERAÇÃO DE VIAGENS. 1.Introdução

3 Classificação Resumo do algoritmo proposto

TÉCNICAS DE ANÁLISE DE DADOS

5 Conclusões e Recomendações

ISO/IEC 12207: Gerência de Configuração

Empresa de Pesquisa Energética (EPE) Analista de Projetos da Geração de Energia

Sistema de avaliação da tarefa 47 da fase 5

a 1 x a n x n = b,

CAPÍTULO 9 RISCO E INCERTEZA

UM CONCEITO FUNDAMENTAL: PATRIMÔNIO LÍQUIDO FINANCEIRO. Prof. Alvaro Guimarães de Oliveira Rio, 07/09/2014.

Prof. Dr. Guanis de Barros Vilela Junior

Perfil de investimentos

GASTAR MAIS COM A LOGÍSTICA PODE SIGNIFICAR, TAMBÉM, AUMENTO DE LUCRO

PERFIL EMPREENDEDOR DE ALUNOS DE GRADUAÇÃO EM DESIGN DE MODA

Correlação e Regressão Linear

Trabalhando com Pequenas Amostras: Distribuição t de Student

Espaço Amostral ( ): conjunto de todos os

FMEA - Análise do Tipo e Efeito de Falha. José Carlos de Toledo Daniel Capaldo Amaral GEPEQ Grupo de Estudos e Pesquisa em Qualidade DEP - UFSCar

NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária

ASSOCIAÇÃO ENTRE PRESENÇA DE CÂNCER DE ESÔFAGO COMPARADA COM HÁBITO DE FUMAR E IDADE EM INDIVÍDUOS DA DINAMARCA

Resumo das Interpretações Oficiais do TC 176 / ISO

Práticas de Marketing relacionadas com o sucesso no lançamento de novos produtos

INDICADORES FINANCEIROS NA TOMADA DE DECISÕES GERENCIAIS

Como aleatorizar? (Nome professor) (Universidade) Abdul Latif Jameel Poverty Action Lab.

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

ANÁLISE DE DADOS ESTATÍSTICOS COM O MICROSOFT OFFICE EXCEL 2007

Transcrição:

Erros tipo I e tipo II e testes de comparação múltipla de médias Moeses Andrigo Danner e Simone Aparecida Zolet Sasso* *Alunos de Mestrado da Universidade Tecnológica Federal do Paraná, Campus Pato Branco-PR. Resumo a maioria dos livros didáticos da área de estatística básica e experimentação agrícola não apresenta detalhadamente os erros tipo I e tipo II dos testes de hipótese e os vários aspectos dos testes de comparação múltipla de médias. Do mesmo modo, apresentam estes dois assuntos separadamente, quando na realidade eles são intrínsecos, o que dificulta a compreensão geral para a utilização destes testes. Assim, esta revisão bibliográfica tem como objetivos descrever os erros tipo I e tipo II dos testes de hipótese, relacionar formas de reduzir a probabilidade de ocorrência destes erros e apresentar alguns aspectos comparativos entre testes de comparação múltipla de médias. Observou-se que os erros podem ser reduzidos com medidas simples, as quais aumentarão a qualidade dos experimentos científicos e que o teste de Scott-Knott apresenta vantagens em relação aos demais testes de comparação múltipla de médias, a saber: poder elevado, taxas de erro tipo I quase sempre de acordo com os níveis nominais, por ser robusto à violação da normalidade e por não apresentar ambigüidade dos resultados. INTRODUÇÃO Em qualquer pesquisa na área de ciências agrárias é formulada uma hipótese inicial, a qual é a síntese do problema a ser resolvido, e é testada ao final da pesquisa. O principal teste de hipótese na área de ciências agrárias é o teste F, que testa as variâncias entre os dados. Os erros tipo I e tipo II são intrínsecos aos testes de hipótese e podem ser minimizados com alguns procedimentos simples no planejamento e execução da pesquisa. Após verificada a existência da significância do teste F para tratamentos, em experimentos onde foram testados mais de dois tratamentos qualitativos de efeito fixo, há a necessidade de definir-se entre quais tratamentos ocorrem as diferenças indicada pelo teste F. Isto pode ser realizado utilizando um teste de comparação múltipla de médias (TCMM) ou pelo uso de contrastes. Atualmente são conhecidos aproximadamente trezentos testes, dentre os mais comuns podem ser listados: t ou DMS, Tukey, Duncan, Student-Newman-Keuls (SNK), Dunnet, Scheffé e Scott-Knott. Todos estes testes apresentam vantagens e desvantagens quando comparados entre si, sendo empregados nas comparações entre todos os pares de tratamentos os testes DMS, Tukey, Duncan e SNK; entre grupos de tratamentos os testes DMS, Scheffé e Scott-Knott; ou na comparação de cada tratamento contra uma testemunha, como é o caso do teste de Dunnett. Os contrastes ortogonais são utilizados para comparar grupos de tratamentos que possuem ortogonalidade entre si, ou seja, os tratamentos são totalmente diversos, como exemplo o contraste entre capina manual e capina química. A escolha do teste a ser empregado depende única e exclusivamente do pesquisador em função do tipo de hipótese formulada. O emprego dos métodos estatísticos pode contribuir grandemente para a eficiência da pesquisa experimental e para a validade das conclusões obtidas, sendo uma ferramenta que auxilia na interpretação dos resultados, tornando-os mais nítidos. Entretanto, o desconhecimento dos fundamentos dos métodos estatísticos, especialmente no que diz respeito aos requisitos para a validade de suas aplicações, conduz, freqüentemente, ao seu mau uso. Corrobora com isto, as facilidades dos recursos de computação, pois é freqüente o uso automático de procedimentos de análise de dados disponíveis em ferramentas de análise estatística sem a verificação de sua adequabilidade e validade, principalmente no que diz respeito às inerentes pressuposições exigidas. Por isso, é necessário que o pesquisador compreenda claramente as técnicas estatísticas que utiliza. Na pesquisa agropecuária, os testes estatísticos freqüentemente são utilizados de forma inadequada. Cardellino & Siewerdt (199) e Santos et al. (1998) avaliaram como inadequada, a

maioria dos trabalhos analisados por TCMM, respectivamente na Revista da Sociedade Brasileira de Zootecnia e da Pesquisa Agropecuária Brasileira. Lúcio et al. (003), avaliando trabalhos publicados na revista Ciência Rural, consideraram 5% e 6% dos trabalhos inadequados, da área vegetal e animal, respectivamente. Torna-se evidente, então, a falta de conhecimento por parte dos pesquisadores das técnicas de TCMM e que, quando se realiza um experimento, há a necessidade de considerar além do tamanho da amostra, da parcela experimental, do número de repetições, delineamento experimental é necessário considerar a estrutura dos tratamentos para que possam ser realizadas corretamente as comparações, respeitando as hipóteses estabelecidas a priori. Também é oportuno salientar as limitações da validade de inferências estatísticas. Assim, por exemplo, o emprego de métodos estatísticos não prova que um ou mais fatores de um experimento têm efeitos particulares, apenas fornece orientações referentes à confiabilidade e validade dos resultados. Portanto, o emprego dos métodos estatísticos apropriados não permite a prova definitiva de argumentos baseados nos resultados de um experimento particular, mas permite a avaliação do erro provável de uma conclusão. Esta revisão bibliográfica tem como objetivos descrever os erros tipo I e tipo II dos testes de hipótese, relacionar formas de reduzir a probabilidade de ocorrência destes erros e apresentar alguns aspectos comparativos entre testes de comparação múltipla de médias. ERROS TIPO I E TIPO II Após a coleta e tabulação dos dados experimentais, o pesquisador deve dar um tratamento estatístico adequado aos mesmos, para verificar se as variações observadas entre os dados são ou não são significativas estatisticamente. Além disso, será possível determinar com que nível de significância uma hipótese estudada é aceita ou rejeitada. O processo utilizado para decidir se uma hipótese é verdadeira ou falsa, ou se os resultados obtidos com os diversos tratamentos são diferentes ou não, é chamado de teste de hipótese ou teste de significância. O teste de hipótese estatístico é o mais generalizado instrumento de indução estatística, tendo aplicações em vários setores das ciências sociais e naturais (Fonseca & Martins, 1978), servindo para tirar conclusões sobre parâmetros de uma população, utilizando a informação contida numa amostra desta população (Montgomery et al., 004). Se a informação obtida da amostra for consistente com a hipótese, então se conclui que a hipótese é verdadeira; no entanto, se essa informação for inconsistente com a hipótese, conclui-se que a hipótese é falsa. Porém, deve ser enfatizado que, a verdade ou falsidade de uma hipótese nunca pode ser conhecida com certeza, a menos que seja examinada a população inteira, sendo que isso é geralmente impossível em muitas situações práticas. Por isso, o teste de hipótese é desenvolvido sendo intrínseca a probabilidade de alcançar uma conclusão errada. Em geral, para aplicar um teste de significância, inicialmente são formuladas duas hipóteses estatísticas (Oliveira & Braida): a primeira, comumente chamada de hipótese de nulidade (H 0 ); a segunda é a hipótese alternativa ou complementar (H 1 ), que é aceita quando H 0 for rejeitada. H 0 é a hipótese de que não há diferença entre os tratamentos utilizados, enquanto H 1 a hipótese de que há diferenças entre os mesmos. Ao final do teste, decide-se aceitar H 0 em detrimento de H 1 ou rejeitar H 0 em favor de H 1. Existe sempre a probabilidade de que as conclusões do teste de hipótese não estejam corretas, ao tomar-se qualquer uma das duas decisões citadas, sujeitando-se incorrer em um dos seguintes erros (Pimentel-Gomes, 000): Erro Tipo I: é o erro cometido quando rejeita-se H 0 sendo H 0 verdadeira, ou seja, chegar a um resultado que tem significância estatística quando na verdade ele ocorreu por acidente. Um teste com alta especificidade terá menor probabilidade de ocorrer erros tipo I. Denominado de erro α.

Erro Tipo II: é o erro cometido quando não rejeita-se H 0 sendo H 0 falsa, denominado de erro β. Quando a probabilidade de ocorrer o erro tipo II diminui, aumenta proporcionalmente a probabilidade de ocorrer o erro tipo I. Este tipo de erro é mais freqüente que o erro α. Os quadros 1 e exemplificam teoricamente os erros tipo I e tipo II (Pimentel-Gomes, 000). Quadro 1 Erros tipo I e tipo II cometidos em função da decisão tomada no teste de hipótese. Decisão H 0 é verdadeira H 0 é falsa Não rejeita H 0 Correto Erro tipo II Rejeita H 0 Erro tipo I Correto Quadro - Probabilidade de ocorrer os erros tipo I e tipo II, complemento do quadro 1. Quando H 0 for verdadeira Quando H 0 for falsa Probabilidade de não rejeitar H 0 1 - α β Probabilidade de rejeitar H 0 α 1 - β Os erros tipo I e Tipo II são associados, sendo que ao diminuir-se a probabilidade da ocorrência de um deles, aumenta-se conseqüentemente na mesma proporção a probabilidade de ocorrência do outro. De um modo geral, controlamos apenas o erro Tipo I, através da adoção de um Nível de Significância (NS) do teste estatístico, representado por α. Este NS indica a probabilidade máxima de ocorrência do erro Tipo I. Quando utiliza-se um NS de 5% (α = 0,05), isto significa que existe 5% de probabilidade de se cometer o erro Tipo I, ou seja, errar ao rejeitar H 0, tendo conseqüentemente um grau de confiança de 95% de probabilidade de tomar uma decisão correta. Para reduzir a taxa de erro tipo I, basta por exemplo, reduzir NS α de 0,05 para 0,01. No entanto, isto aumentará automaticamente a taxa do erro tipo II. A redução do erro tipo II pode ser obtida aumentando a potência ou poder do teste estatístico, que é a probabilidade de rejeitar H 0 quando H 0 é falsa, descrita por 1 β, ou seja, é o complemento do erro tipo II. Um teste com alta sensitividade terá menos erros do tipo II. Para aumentar a potência do teste estatístico, devem-se efetuar vários procedimentos de fácil execução (Pimentel-Gomes, 000): 1. reduzir o erro experimental, controlando ao máximo fatores exógenos ao experimento;. aumentar as diferenças entre os tratamentos, para aumentar a probabilidade de diferenciação entre os mesmos, pois quanto maior a diferença em relação a média, maior o poder do teste e menor a probabilidade de ocorrer o erro tipo II; 3. empregar um delineamento experimental adequado, inteiramente casualizado quando houver homogeneidade entre todas as unidades experimentais (U.E.) e efetuar controle local quando necessário, o que reduz o erro experimental, e, principalmente; 4. aumentar o número de U.E. (n) do experimento, para aumentar os graus de liberdade do erro, o qual é, então, melhor estimado. Quanto maior o n, maior a potência do teste e maior a sensibilidade em detectar diferenças. Este último procedimento reduz simultaneamente a probabilidade de ocorrer os erros tipo I e tipo II. A potência de um teste considerada razoável seria 1 β = 1 0, = 0,8 ou 80%. Teste de uma hipótese estatística Como ilustração, considere-se o seguinte teste de hipótese (Montgomery et al., 004): H 0 : μ = 50 cm/s (hipótese nula)

H 1 : μ 50 cm/s (hipótese alternativa) Onde: μ representa a média verdadeira da população, porém é hipotética, pois na verdade não se sabe a média verdadeira. Supondo que uma amostra de n = 10 indivíduos, testa-se a média x da amostra, a qual é utilizada estatística do teste. Considerando, segundo os interesses do pesquisador em relação ao experimento, um nível crítico de ± 1,5, ou seja um intervalo de confiança em relação a média de 48,5 x 51,5, ou seja, neste intervalo, chamado de região de aceitação, H 0 não é rejeitada. Se x < 48,5 ou x > 51,5, estes valores constituirão a região crítica, rejeita-se a hipótese nula em favor da hipótese alternativa H 1. Desse modo, se a amostragem aleatória da população for feita de forma a não representar fielmente a mesma, a x pode cair na região crítica induzindo a rejeição de H 0, quando na verdade H 0 é verdadeira (Erro Tipo I) ou, a x pode cair na região de aceitação induzindo a não rejeição de H 0, quando na verdade H 0 é falsa (Erro Tipo II). Assim, os erros tipo I e tipo II, são intrínsecos ao teste de hipótese, e pode ser calculada a probabilidade dos mesmos ocorrerem. Cálculo da probabilidade de se cometer um erro tipo I Representado por: α = P(Erro Tipo I) = P(rejeitar H 0, quando H 0 é verdadeira) Onde: α é o nível de significância ou tamanho do teste. Considerando que o desvio padrão (σ) da população é de,5 cm/s. Aplica-se o teorema central do limite, assumindo que a distribuição da média da amostra pode ser considerada normal, com o desvio padrão dado por σ/ n =,5/ 10 = 0,79. A probabilidade de se cometer o erro tipo I, ou o nível de significância do teste, é: α = P( x < 48,5 quando μ = 50) + P( x > 51,5 quando μ = 50) Calculam-se as variáveis padronizadas z1 e z. z1 = (x1 μ)/ σ = (48,5 50)/0,79 = - 1,9 z = (x μ)/ σ = (51,5 50)/0,79 = 1,9 Desse modo, α = P(z < - 1,9) + P(z > 1,9), olha-se na tabela de z. α = 0,088 + 0,088 = 0,0576. Ou seja, 5,76% das amostras escolhidas aleatoriamente induziriam ao erro tipo I, rejeitar H 0 quando H 0 for verdadeira, μ = 50 cm/s. Pode-se reduzir α, alargando a região de aceitação. Por exemplo, considerar os valores críticos de 48 e 5. o valor de α será: α = P( x < 48 quando μ = 50) + P( x > 5 quando μ = 50)

Calculam-se as variáveis padronizadas z1 e z. z1 = (x1 μ)/ σ = (48 50)/0,79 = -,53 z = (x μ)/ σ = (5 50)/0,79 =,53 Desse modo, α = P(z < -,53) + P(z >,53), olha-se na tabela de z. α = 0,0057 + 0,0057 = 0,0114. Ou seja, 1,14% das amostras escolhidas aleatoriamente induziriam ao erro tipo I, rejeitar H 0 quando H 0 for verdadeira, μ = 50 cm/s. Outra forma de reduzir α é aumentando o tamanho da amostra. Se o valor de n for aumentado de 10 para 5, α será: σ/ n =,5/ 5 = 0,5. z1 = (x1 μ)/ σ = (48,5 50)/0,5 = - 3 z = (x μ)/ σ = (51,5 50)/0,5 = 3 Desse modo, α = P(z < - 3) + P(z > 3), olha-se na tabela de z. α = 0,00135 + 0,00135 = 0,007. Ou seja, 0,7% das amostras escolhidas induzirão ao erro tipo I, rejeitar H 0 quando H 0 for verdadeira. Observa-se que o aumento de n de 10 para 5 reduziu drasticamente, de 5,76% para 0,7% a probabilidade de ocorrer o erro tipo I. Cálculo da probabilidade de se cometer um erro tipo II Representado por: β = P(Erro Tipo II) = P(não rejeitar H 0, quando H 0 é falsa). Utilizando os mesmo dados do exemplo anterior, deve-se ter uma hipótese alternativa H 1 específica, por exemplo H 1 : μ = 5, tal como encontrar a probabilidade de não rejeitar a hipótese nula H 0 : μ = 50 cm/s, quando a média verdadeira for μ = 5 cm/s. β = P(48,5 x 51,5, quando μ = 5). Calculam-se as variáveis padronizadas z1 e z. z1 = (x1 μ)/ σ = (48,5 5)/0,79 = - 4,43 z = (x μ)/ σ = (51,5 5)/0,79 = - 0,63 β = P(- 4,43 z - 0,63) = P(z - 0,63) - P(z - 4,43) β = P (0,643-0,00000471) 0,643 Ou seja, 6,43% das amostras escolhidas induzirão ao erro tipo II, não rejeitar H 0 quando H 0 for falsa.

Se a média verdadeira for reduzida para μ = 50,5 cm/s. β = P(48,5 x 51,5, quando μ = 50,5 cm/s). Calculam-se as variáveis padronizadas z1 e z. z1 = (x1 μ)/ σ = (48,5 50,5)/0,79 = -,53 z = (x μ)/ σ = (51,5 50,5)/0,79 = 1,7 β = P(-,53 z 1,7) = P(z 1,7) - P(z -,53) β = P (0,8980-0,0057) = 0,893 Ou seja, 89,3% das amostras escolhidas induzirão ao erro tipo II, não rejeitar H 0 quando H 0 for falsa. Assim, a probabilidade do erro tipo II é muito maior para o caso em que a média verdadeira é 50,5 cm/s do que para o caso em que a média é 5 cm/s. A probabilidade do erro tipo II também depende do tamanho da amostra. Se o valor de n for aumentado de 10 para 5, ocorre o seguinte: σ/ n =,5/ 5 = 0,5. Calculam-se as variáveis padronizadas z1 e z. z1 = (x1 μ)/ σ = (48,5 5)/0,5 = - 7 z = (x μ)/ σ = (51,5 5)/0,5 = - 1 β = P(- 7 Z - 1) = 0,16-0,0000000000019 0,16 Ou seja, 16% das amostras escolhidas induzirão ao erro tipo II, não rejeitar H 0 quando H 0 for falsa. Observa-se que o aumento de n de 10 para 5 reduziu de 6,43% para 16% a probabilidade de ocorrer o erro tipo II. Assim, comprova-se que o aumento de n reduz simultaneamente a probabilidade de ocorrer os erros tipo I e tipo II. Desse modo, observa-se que (Montgomery et al., 004): - O tamanho da região crítica, e conseqüentemente a probabilidade do erro tipo I, pode sempre ser reduzido através da seleção apropriada dos valores críticos; - os erros tipo I e tipo II são relacionados. Se o tamanho da amostra não variar, a redução da probabilidade de um tipo de erro sempre resulta em aumento da probabilidade do outro; - quando a hipótese nula é falsa, β aumenta a medida que o valor do parâmetro se aproxima do valor usado na hipótese nula, sendo que o valor de β diminui a medida que aumenta a diferença entre a média verdadeira e o valor utilizado na hipótese; - somente o aumento do tamanho da amostra, proporciona a redução simultânea da probabilidade de ocorrer erro tipo I (α) e erro tipo II (β).

Geralmente, o pesquisador controla a probabilidade α do erro tipo I, através da fixação do nível de significância. Por outro lado, a probabilidade do erro tipo II (β) não é constante, mas depende do valor verdadeiro do parâmetro. Ele depende também do tamanho da amostra. Assim, seguindo demonstração descrita em Fonseca & Martins (1978), supondo que α = 0,05 = P(erro tipo I) = P( x C1 x x C, quando μ = 50 cm/s) Esse erro é dividido entre as duas caudas da distribuição da amostragem das médias (α/ = 0,05). Assim: z (limite 1) = valor tabelado z0,05 = -1,96 z (limite ) = valor tabelado z0,05 = 1,96 Considerando n = 10 e σ =,5, calcula-se os valores críticos (limites). ( x C1 - μ)/( σ/ n ) = - 1,96 ( x C1-50)/(,5/ 10 ) = - 1,96 x C1 = ((-1,96 * (,5/ ( x C - μ)/( σ/ n ) = 1,96 ( x C - 50)/(,5/ 10 ) = 1,96 x C = ((1,96 * (,5/ α = P( x C1 x x C) = 0,05 10 )) + 50 = 48,45 cm/s 10 )) + 50 = 51,55 cm/s α = 0,05 = P(48,45 x 51,55, quando μ = 50 cm/s) = 0,05 Desse modo, se a média da amostra cair abaixo de 48,45 ou acima de 51,55 rejeita-se H 0 ; caso contrário, se a média cair dentro dos limites, não rejeita-se H 0. Para o erro tipo II, β, deve-se especificar um valor alternativo para μ e fixar os valores críticos. Considerando o valor de média da população 49,5 cm/s para a hipótese nula, H 0 : μ = 49,5 cm/s, calcula-se o erro β. Primeiramente, calcula-se o valor de z para x C1, com μ = 49,5. ( x C1 - μ)/( σ/ n ) = (48,45-49,5)/(,5/ 10 ) = -1,33 ( x C - μ)/( σ/ n ) = 1,96 (51,55 49,5)/(,5/ 10 ) =,59 β = 1 (P(z - 1,33) + P(z,59)) = β = 1 (0,0918 + 0,0048) = 1 0,0966 = 0,9034

90,34%, esse é o erro β condicional a H 0 : μ = 49,5 cm/s, ou seja a probabilidade de concluir que μ < 15 ou μ > 15, quando μ = 49,5. TESTES DE COMPARAÇÃO MÚLTIPLA DE MÉDIAS (TCMM) Para ilustrar e definir os procedimentos de TCMM é necessário tomar por base um modelo matemático. Normalmente se usa o mais simples possível, a título de ilustração, o modelo do delineamento experimental inteiramente casualizado, que é o seguinte (Storck & Lopes, 1997): Y ij = μ + t i + e ij Onde: Y ij é o valor observado em uma unidade experimental (U.E.), da j-ésima repetição que recebeu o i-ésimo tratamento; μ é uma constante inerente ao modelo, é a média das parcelas que receberam mesmo tratamento; t i é o efeito do tratamento aplicado na unidade experimental; e ij é o efeito do erro experimental associada ao resultado de cada unidade experimental de forma individualizada, ou seja, a variação aleatória que incidiu na U.E. considerada. Algumas pressuposições são descritas como necessárias para o desenvolvimento teórico das técnicas de análise estatística de um experimento: a) Os diversos efeitos são aditivos e independentes; b) Os erros e ij são independentes; c) Os erros e ij tem a mesma variância σ ; d) Os erros e ij tem distribuição normal. A verificação se estas pressuposições do modelo matemático foram satisfeitas nos resultados observados do experimento são importantes para demonstrar e avaliar a qualidade da análise estatística do experimento, no entanto, este procedimento é pouco usado por pesquisadores das áreas de ciências agrárias. Procedimentos para verificação destas pressuposições foram desenvolvidos, como o teste de aditividade de Tukey, para verificar se os efeitos do modelo matemático são aditivos; o teste de Chorrilhos, para verificar a independência dos erros; o teste de Lilliefors, para verificar a normalidade da distribuição dos erros (a normalidade é exigida para que os testes de hipótese tenham validade); e o teste de Bartlett, para verificação da homogeneidade das variâncias dos erros e ij (Storck & Lopes, 1997). Se utilizados estes testes enriquecem um artigo científico por demonstrar a qualidade da análise do experimento. Assim, se uma ou mais pressuposições do modelo matemático não forem satisfeitas pelos dados do experimento, a análise paramétrica efetuada pelo teste F, TCMM e análise de regressão, podem levar à falsas conclusões. Desse modo, deve-se utilizar a transformação de dados (transformação raiz quadrada, logarítmica, arcoseno, etc.) de modo que os dados se aproximem das pressuposições do modelo matemático. Além disso, se as distorções forem expressivas, devem ser utilizados métodos de análise não-paramétricos, como teste de Sperman, teste de Friedman, teste de Kruskal-Wallis, etc. (Storck & Lopes, 1997). Os testes estatísticos não provam igualdade, apenas diferenças significativas a um nível α de erro, sendo que ao afirmar que duas médias não diferem, a margem de erro é desconhecida e está situada num patamar acima do que seria considerado razoável, ou seja, maior que α. Isto porque, normalmente, os resultados de um experimento nunca permitem afirmar que duas médias são iguais, pois se o experimento for repetido centenas de vezes, nunca serão encontradas duas médias que sempre são iguais, sob H 0. Desse modo, quando se fixa o nível α de erro em 1%, significa que,

se forem realizadas simulações repetindo centenas de vezes o experimento, mantendo a mesma média dos tratamentos, em média de 100 experimentos, sob H 0, as variações ao acaso farão com que, em 1 deles, a hipótese nula seja rejeitada (Pimentel-Gomes, 000). A análise e a interpretação dos resultados é uma etapa fundamental de um experimento, pois têm como finalidade chegar-se às conclusões do trabalho. Desse modo, a escolha do método e teste adequado para análise e interpretação é de extrema importância e devem ser planejadas antes da implantação do experimento. A análise estatística dos dados experimentais é efetuada em três etapas: 1ª: Análise das pressuposições do modelo matemático quando alguma das pressuposições forem violadas, deve-se utilizar a transformação de dados; ª: Análise da variância na qual se calcula as estimativas das variâncias dos diversos fatores envolvidos no experimento e, ao final, utiliza-se um teste de hipótese, comumente utiliza-se o teste F, para saber se essas variâncias são diferentes ou não; 3ª: Complementação da análise da variância na qual se aplicam testes de comparação múltipla de médias (TCMM), análise de regressão ou contrastes ortogonais, dependendo do tipo de tratamentos utilizados. A análise da variância com o teste F proporciona a verificação da existência de variações significativas estatisticamente entre os tratamentos estudados num experimento. O teste F é o mais poderoso dos testes de comparação, entretanto, quando o experimento envolve mais de dois tratamentos ou níveis de tratamentos, o teste F não determina entre quais tratamentos ou níveis estão as diferenças observadas, pois ele compara as variâncias e não as médias. Assim, quando rejeita-se H 0 para tratamentos pelo teste F, ou seja, F calculado > F tabelado, a um nível α de significância, torna-se necessário realizar uma complementação da análise da variância, que pode ser a aplicação de TCMM (para tratamentos qualitativos ou quantitativos com dois tratamentos), análise de regressão (para tratamentos quantitativos com mais de dois tratamentos) ou de contrastes ortogonais (quando houver ortogonalidade entre os tratamentos). Neste artigo será dada ênfase aos TCMM. Eles servem como complemento ao teste F, visando detectar diferenças entre os vários tratamentos estudados. Sua aplicação é obrigatória na análise de experimentos com mais de dois tratamentos qualitativos de efeito fixo que não apresentam ortogonalidade entre si, para os quais o teste F demonstrou haver diferenças significativas. Os tratamentos são denominados de qualitativos, quando não podem ser ordenados segundo um critério numérico, diferenciando-se por características qualitativas, como cultivares de soja, métodos de irrigação, tipos de adubação, etc.; e de efeito fixo quando os tratamentos podem ser repetidos em experimentos posteriores e as conclusões serão válidas apenas para os tratamentos testados. Existem vários TCMM, dentre eles pode-se citar: - Contrastes ortogonais; - Teste t ou DMS; - Bonferroni; - Student-Knewman-Keuls (SNK); - Dunnett; - Duncan; - Tukey; - Scott-Knott. Alguns deles são descritos abaixo. Teste t ou DMS (Diferença Mínima Significativa) O teste t é um TCMM não-paramétrico e seu uso apresenta algumas restrições. No entanto, alguns pesquisadores optam por utilizá-lo também para qualquer tipo de comparação múltipla de

médias. Além disso, muitos pesquisadores recomendam este teste apenas para realizar comparações planejadas inicialmente e jamais para inferências sugeridas pelos dados (Ramalho et al., 000). Segundo Oliveira & Braida (000) este teste pode ser utilizado para comparar pares de médias em experimentos com no máximo cinco tratamentos (exemplo descrito no anexo 1), ou quando forem testadas diferenças especificadas antes da realização do experimento, como é o caso de experimentos onde os tratamentos são comparados com uma testemunha ou padrão, sendo que neste caso não importa o número de tratamentos. Beiguelman (1996) cita que o teste t deve ser usado em experimentos planejados de modo que a comparação entre os tratamentos fosse feita com dados emparelhados, como exemplo, comparação entre o peso no pré e pós-parto de vacas; o nível de excreção de um metabólito antes e depois da ingestão de um determinado medicamento; etc. Neste caso, os pares de medidas devem ser mensurados preferencialmente no mesmo indivíduo, para evitar variações por fatores não controlados. De acordo com Pimentel-Gomes (000) o teste t pode mostrar que um contraste é significativo quando testes como Tukey, Duncan e Scheffé não mostram. Isto porque o teste t só se aplica justificadamente para contrastes previamente escolhidos, ortogonais e em número não superior aos graus de liberdade para tratamentos (I - 1), enquanto que os outros testes citados permitem testar qualquer contraste de interesse. Porém, o teste t pode ser tolerado para alguns contrastes, mesmo não ortogonais, desde que preencha os outros dois requisitos básicos: serem contrastes previamente escolhidos e em número a I - 1. O teste t ou DMS necessita da significância do teste F para ser aplicado, e é baseado na distribuição de t de Student (Beiguelman, 1996). Este teste possui o inconveniente de ter a maior taxa de erro por experimento em relação a todos os outros testes, quando utilizado para comparar médias duas a duas (Ramalho et al., 000). Este procedimento é de fácil aplicação e busca localizar as médias cujas diferenças são maiores que um valor calculado e declarar estas diferenças como sendo estatisticamente significativas. A Diferença Mínima Significativa (DMS) é dada por (Vieira & Hoffmann, 1989): DMS = t(α;gle) *QMe r (1) Onde: t(α;gle) = valor tabelado, encontrado em função do nível de significância α e do número de graus de liberdade do erro experimental, obtido na análise da variância; QMe = quadrado médio do erro, obtido na análise da variância; r = número de repetições. O fato de se utilizar a mesma estimativa de DMS para todas as comparações, implica que, quando o número de tratamentos é grande, o nível global de significância não é mantido, pois isto torna os testes sobre um mesmo tratamento não independentes (Ramalho et al., 000). Teste de Tukey O método de Tukey pode ser utilizado para comparar todo e qualquer contraste entre médias de tratamentos tomadas aos pares (Pimentel-Gomes, 000). Este teste não exige significância pelo teste F, no entanto, quando isso acontece não se recomenda a utilização de

nenhum TCMM. Ele necessita apenas dos dados de médias dos tratamentos e do GLe e QMe, calculados na análise da variância. Este teste requer dados balanceados, ou seja, que todos os níveis de tratamentos tenham o mesmo número de repetições, e que seja feita a comparação de todos os tratamentos, comparando todas as médias tomadas duas a duas, segundo a diferença mínima significativa (Δ) calculada, segundo a fórmula abaixo (Storck e Lopes, 1997): Δ α = q α(i;gle) V (X ) () V (X) = QMe J (3) Assim, toda diferença entre duas médias de tratamentos que seja maior que Δ é considerada significativa em nível α de erro. Este teste apresenta ambigüidade nos dados, ou seja, médias acompanhadas de mais de uma letra, o que dificulta a interpretação e conclusão a partir dos dados, principalmente com grande número de tratamentos. O método utiliza a distribuição da amplitude estudentizada ou padronizada (q). Tem o objetivo de controlar a taxa de erro por experimento, sendo bastante conservador com relação à taxa de erro por comparação, por manter constante seu erro tipo I, não importando o número de médias sendo testadas (Zimmermann, 004). Segundo o mesmo autor, Scheffé considerou o teste Tukey superior ao seu próprio teste para comparação de médias tomada duas a duas, mas inferior para outros tipos de comparações, como a de grupos. Este teste tem um baixo poder quando comparado com os demais testes e este poder é reduzido drasticamente com o aumento do número de tratamentos (Ramalho et al., 000). Um exemplo deste procedimento é detalhado no anexo. Teste de Duncan Para sua aplicação este teste exige as mesmas pressuposições que o teste de Tukey e também usa como fundamento à amplitude estudentizada. Porém, a principal diferença em relação ao teste Tukey, é que, para cada contraste, o nível de significância α é alterado em função do número de médias abrangidas pelo contraste efetuado, segundo fórmula abaixo: Du = Zu V (X ) (4) (para u = número de médias de tratamentos abrangidas no contraste,,3,4,...i; considerando 5 tratamentos são calculados D, D3, D4 e D5) V (X) = QMe J (5)

Zu = (Gle; u (numero de médias abrangidas em cada contraste)) a um nível α de significância, valor retirado da tabela de Duncan. Assim, o nível de significância pretende fornecer uma proteção separada para cada comparação par a par, ao nível nominal de significância. Por isso, este teste controla a taxa de erro por comparação, mas não controla a taxa de erro por experimento (Ramalho et al., 000). Este teste indica resultados significativos em casos em que o teste de Tukey não permite obter significação estatística, considerando o mesmo nível de significância (Pimentel-Gomes, 000). Um exemplo deste procedimento é detalhado no anexo. Teste Scheffé O teste de Sceffé pode ser utilizado para testar todo e qualquer contraste entre duas médias ou entre grupos de médias de tratamentos, sendo exigido a significância do teste de F para tratamentos, como requisito para a validade de sua aplicação. Este teste é ainda mais rigoroso que o teste de Tukey, sendo mais utilizado para testar contrastes mais complexos e desaconselhável para comparar médias duas a duas (Pimentel-Gomes, 000; Storck & Lopes, 1997). Além disso, deve ser aplicado para testar a significância de contrastes sugeridos pelos resultados do experimento, pois se os contrastes de interesse do experimento formam um conjunto ortogonal ou foram estabelecidos a priori no plano do experimento, o teste a ser utilizado deve ser o teste DMS ou de contrastes ortogonais (Silva, 1997). O procedimento do teste de Scheffé não exige ortogonalidade entre os contrastes e tem a vantagem de utilizar dados obtidos no quadro da análise da variância do experimento, segundo fórmulas abaixo: X = i C i M i = m1 + m m3 m4 (6) V(X) = QMe * i C i J (7) F = F α (GLt; GLe) (8) D = ( I 1) * V ( X ) * F (9) Quando se verifica que X > D, o contraste é significativo em nível α de probabilidade de erro. Um exemplo deste procedimento é detalhado no anexo 1. Teste de Scott-Knott Este teste, idealizado por Scott e Knott (1974), tem sua base teórica na análise de conglomerados, utilizando a razão de verossimilhança para testar a significância de que os g tratamentos podem ser divididos em dois grupos que maximizem a soma dos quadrados entre grupos e sua significância é formulada sobre o teste de χ. Este teste exige significância do teste F para tratamentos.

A grande vantagem deste teste é que, diferentemente dos demais, nenhuma média pode pertencer a mais de um agrupamento, não ocorrendo ambigüidade nos tratamentos. Desse modo, este procedimento resulta em maior objetividade e clareza. Além disso, não apresenta fórmula básica de obtenção de valores limites para comparação de médias, como os demais testes, apenas estabelece os grupos em função da variabilidade entre estes grupos de médias. O procedimento passa pelo cálculo da soma de quadrados, representado por Bo, entre os grupos de cada partição, determinando a partição que maximize a soma de quadrados, utilizando a equação (Scott & Knott, 1974; Ramalho et al., 000): B 0 = T 1 k 1 T ( T1 + T ) + (10) k ( k + k ) 1 Após, efetua-se o cálculo do estimador de máxima verossimilhança: ˆ0 σ = k ( y( i) y) + vs i= 1 (11) ( k + v) QMe s = r (1) E o cálculo da estatística λ: π B0 λ = ( π ) ˆ σ 0 (13) O valor da estatística λ é, então, comparado ao valor tabelado da estatística de χ : k χ α ; ( π ) (14) Se λ > χ rejeita-se H 0 em favor da hipótese alternativa H 1 de que os grupos diferem entre si. No caso de rejeitar H 0, os tratamentos dos dois subgrupos formados devem ser testados entre si, seguindo os passos citados acima, encerrando o teste quando H 0 não for rejeitada ou quando sobrar apenas uma média no subgrupo (Ramalho et al., 000). Um exemplo deste procedimento é detalhado no anexo 1.

A escolha do TCMM A escolha do teste a ser empregado depende única e exclusivamente do pesquisador em função do tipo de hipótese formulada. Todos os TCMM testam as hipóteses H 0 ou H 1 e, portanto, estão sujeitos aos erros tipo I e tipo II. Geralmente, o pesquisador controla a probabilidade α do erro tipo I, através da fixação do nível de significância, por exemplo em 5%. Por outro lado, a probabilidade do erro tipo II (β) não é constante, mas depende do valor verdadeiro do parâmetro. Ele depende também do tamanho da amostra. Considerando o nível de significância α do erro tipo I, Fisher (1954) citado por BUSSAB & MORETTIN (004) formulou uma escala de evidências contra a validade de H 0, a qual é classificada de marginal a fortíssima, inversamente proporcional ao nível de significância (Quadro ). As considerações do autor referiam-se ao teste de qui-quadrado (χ ). Quadro 3 Escala de significância de Fisher. Valor α 0,1 0,05 0,05 0,01 0,005 0,001 Evidência marginal moderada substancial forte muito forte fortíssima A comparação de médias só pode ser feita após a análise da variância, pois exigem o cálculo do quadrado médio do erro (QMe). A análise da variância expressa também o valor da estatística F. Para comparar as médias de tratamentos, recomenda-se que o teste F tenha demonstrado significância para tratamentos, sendo que neste caso, diz-se que o método usado para comparar as médias é protegido. A escolha do TCMM adequado exige que se leve em consideração tanto o nível de significância como o poder do teste. O nível de significância de um teste é a probabilidade de rejeitar a hipótese H 0, quando na verdade H 0 é verdadeira, ou seja, a probabilidade de cometer o erro tipo I. Já o poder do teste é a probabilidade de rejeitar H 0 quando H 0 é realmente falsa, concluindo de forma acertada. Portanto, quanto maior o poder de um teste, maior a probabilidade de ele induzir a conclusões acertadas. Assim, é claro que o pesquisador quer um teste com baixo nível de significância e poder elevado. Como nível de significância e poder do teste estatístico são proporcionais, o dilema é que diminuir o nível de significância implica diminuir o poder do teste, pois aumenta a taxa do erro β. Vieira & Hoffmann (1989) citam que, se for escolhido para comparação o teste de Tukey ou o teste de Dunnett, a 5%, o nível de significância para experimentos será 5%, mas o nível de significância para comparações de médias será menor que 5%. Por outro lado, se for escolhido para comparação de médias, o teste t ou o teste de Duncan, o nível de significância para comparação de médias será de aproximadamente 5%, mas o nível de significância para experimentos será maior que 5%, mas, em compensação, o poder do teste também será maior. Assim, se o pesquisador quer ter alta chance de rejeitar a hipótese H 0, pode optar pelo teste t ou teste de Duncan. Também, observa-se que o teste Tukey a 5% apresenta maior poder do que o teste de Tukey a 1%. A necessidade de aplicar um teste com grande poder ocorre, por exemplo, nos experimentos de competição de cultivares. Neste caso, é importante a utilização de um teste estatístico com alta probabilidade de discriminação e o erro de rejeitar H 0 quando H 0 é verdadeira, erro tipo I, tem importância menor. Por outro lado, se o pesquisador só pretende rejeitar H 0 com muita confiança, deve optar pelo teste de Tukey ou de Dunnett, com baixo nível de significância. Assim, os adeptos da taxa de erro por experimento advogam o teste de Tukey, ou mesmo o teste de Scheffé para contrastes mais gerais, como conservadores para contrastes de duas médias e rejeitam o teste DMS e Duncan. Entretanto, os que aderem a taxa de erro por comparação sustentam

que a unidade básica é a comparação, não o experimento. Estes argumentam que, por exemplo, uma decisão incorreta em um conjunto de comparações múltiplas em 40 experimentos de 10 tratamentos não afeta a utilidade das restantes 39 comparações. Ademais, num teste com 5% de nível de significância, há uma chance em 0 de uma decisão incorreta, de modo que em 40 comparações deve-se tolerar cerca de duas decisões incorretas (Silva, 1997). Além disso, em muitos experimentos, principalmente experimentos agrícolas de campo, usualmente são esperadas diferenças de médias de tratamentos o que torna a consideração do erro tipo II tão importante quanto à do erro tipo I. Por isso, a escolha entre os TCMM é feita coma escolha entre uma taxa de erro por experimento, para o qual o teste de Tukey é recomendado, ou uma taxa de erro por comparação, para a qual o teste DMS é o recomendado. O teste de Duncan é um meio termo entre essa duas alternativas, sendo que as objeções ao teste de Duncan podem ser minimizadas pela adoção de um nível de significância mais baixo, por exemplo, de 0,01 (Silva, 1997). Porém, deve-se considerar que outros TCMM são disponíveis, de modo que o pesquisador pode ampliar a base de sua escolha, sendo que não há tanta diferença entre os testes e qualquer um pode ser utilizado, de acordo com os propósitos desejados. Assim, pode-se inferir que todo TCMM possui vantagens e desvantagens e que existe uma grande margem de opção na escolha do teste e do nível de significância, que devem estar de acordo com a hipótese inicial, ou seja, os objetivos do pesquisador. Comparação entre os TCMM Os vários TCMM diferem fundamentalmente na filosofia do controle do erro tipo I. Para o erro tipo I, nos TCMM, existem duas formas de medir esse erro. O cálculo da probabilidade em todas as possíveis combinações de tratamentos tomados dois a dois, denominada de erro tipo I por comparação. A segunda forma é calcular a probabilidade de efetuar pelo menos uma inferência errada por experimento, denominada de erro tipo I por experimento (Ramalho et al., 000). O teste de Duncan e LSD não controlam a taxa de erro por experimento, mas controlam a taxa de erro por comparação (Ramalho et al, 000). Desse modo, Berhardson (1975), citado por RAMALHO et al. (000), numa simulação, observou que esse erro tem a probabilidade média de ocorrer em 36,3% para o teste de Duncan e 59,1% para o teste LSD. Por outro lado, os testes de Tukey e Scheffé controlam adequadamente as taxas de erro tipo I por experimento e por comparação, preservando o nível nominal de significância (α). Além disso, estes testes diferem quanto às pressuposições e, para um mesmo nível α de erro, podem apresentar classificações diferentes entre as médias de tratamentos. Por isso, é importante um estudo das pressuposições e das condições de cada teste, para decidir sobre a opção mais acertada, levando em consideração os objetivos do experimento. O poder ou potência de um teste estatístico é a probabilidade de rejeitar a hipótese nula H 0, quando a hipótese alternativa for verdadeira, não cometendo nenhum erro. A potência do teste é calculada por 1 - β, como exemplo do exercício citado acima, com o valor verdadeiro da média μ = 5, quando n = 10, encontrou-se β = 0,643; assim a potência do teste seria 1 - β = 1-0,643 = 0,7357. A potência é uma medida muito concisa da sensibilidade de um teste estatístico, ou seja a capacidade de ele detectar todas as diferenças reais entre tratamentos. Ainda considerando o exercício anterior, a sensibilidade do teste em detectar a diferença entre a média de 50 cm/s e 5 cm/s é 0,7357. Isto significa que, se a média verdadeira for realmente 5 cm/s, este teste rejeitará corretamente H 0 : μ = 50 e detectará esta diferença em 73,57% das vezes. Se o valor de potência do teste for considerado muito baixo, o pesquisador deve aumentar o tamanho da amostra (n). Freqüentemente os testes estatísticos são comparados quanto às suas propriedades de potência. Isto é realizado por meio de simulações, normalmente utilizando o método de Monte Carlo. Perecin e Barbosa (1988) compararam o poder de alguns testes. Os autores observaram que o

teste t-bayesiano concilia características desejáveis, pois foi o que apresentou o maior poder (33%) e baixas taxas de erro tipo I, porém estas taxas não podem ser previstas com exatidão, pois variam dependem do número de tratamentos e da magnitude de seus efeitos. O teste de Tukey apresentou o menor poder (1%), enquanto que o teste de Duncan e o teste t apresentaram poder empírico semelhante e na ordem de % e taxas de erro tipo I também semelhantes. Assim, os autores concluíram que estes três testes não devem ser utilizados indiscriminadamente. Por sua vez, o teste de Student-Knewman-Keuls (SNK) pode ser aplicado sem maiores cuidados, pois possui alto poder e taxas de erro tipo I similares ao teste Tukey. Berhardson (1975), citado por SILVA et al. (1999), numa simulação, observou que conforme aumentou-se o número de tratamentos, a taxa de erro tipo I por comparação tendeu a ficar abaixo da nominal para os testes SNK, Tukey e Scheffé e em menor escala para o teste de Duncan. O teste t permaneceu oscilando em torno do nível nominal (5%). Quanto a taxa de erro tipo I por experimento, o teste Scheffé permaneceu semelhante a taxa de erro por comparação, enquanto que os níveis dos testes SNK e Tukey permaneceram em torno do nível nominal. Quando o número de tratamentos foi igual a 10, a taxa de erro por experimento do teste de Duncan foi de 35% e o teste t foi de 60%, sendo muito superiores ao nível nominal adotado, se mostrando inadequados para controlar a taxa de erro por experimento (5%). Segundo Ramalho et al. (000) o teste de Tukey é muito afetado pelo número de tratamentos, sendo que quanto mais tratamentos avaliados menor é o poder do teste. Outro fator a ser considerado na escolha de um teste é a ambigüidade dos seus resultados, pois a ambigüidade dificulta as interpretações e conclusões de um experimento, por não apresentarem uma real separação de grupos de médias. Dos testes estatísticos, apenas o de Scott- Knott elimina esta ambigüidade. Silva et al. (1999), utilizando a simulação, observaram que, no teste de Scott-Knott, o erro tipo I por comparação, estiveram sempre abaixo do nível nominal de significância. Além disso, o poder do teste, para diferenças menores entre os tratamentos, foi praticamente o dobro do teste de Duncan, t e SNK, e de até oito vezes em relação ao teste de Tukey, sendo o poder do teste semelhante nas distribuições normais e não normais do resíduo, ou seja, o teste foi robusto à violação da normalidade. O único teste que se comportou semelhantemente ao de Scott-Knott foi o t-bayesiano, o qual, Perecin e Barbosa (1988) consideraram como o de maior poder em seu estudo. Segundo Silva (1997) de modo geral, o teste de Tukey é mais conservador que os testes DMS e de Duncan no que se refere à probabilidade de erro tipo I, ou seja, declara significâncias com menos freqüência que esses testes. Por sua vez, o teste de Duncan é mais conservador que o teste DMS. Porém, o autor salienta que a menor probabilidade do erro tipo I implica em maior probabilidade de erro tipo II e, por isso, o balanceamento apropriado entre essas duas probabilidades de erro deve ser a base para a escolha entre estes três testes. A principal diferença entre estes testes decorre das distintas taxas de erro que eles adotam. O teste DMS adota taxa de erro por comparação e o teste de Tukey, taxa de erro por experimento, enquanto o teste Duncan usa taxa de erro que não é baseada nem por experimento nem por comparação. Borges & Ferreira (1999) através da simulação, compararam dois métodos de aproximações para o teste t, avaliando a probabilidade de se cometer erro tipo I e erro tipo II, com o aumento da diferença entre as variâncias de duas populações. Os autores concluíram que o poder do teste t a 5% de significância é maior, à medida que aumenta a diferença entre médias populacionais, diminui a razão entre as variâncias das duas populações e aumenta o tamanho da amostra. E que o método de aproximação (Satterthwaite ou Cochran e Cox) não influenciou o poder do teste. O poder do teste (1 - β) é reduzido quando se tem pequenas diferenças entre médias populacionais e pequeno tamanho de amostra, pois estes dois fatores aumentam o erro tipo II (β). Quando se consideraram variâncias iguais das duas populações, o erro tipo I ficou abaixo dos níveis nominais e o teste apresentou boa confiabilidade. Neste caso, o erro tipo II foi reduzido com o aumento da diferença entre as médias populacionais. A porcentagem de erro tipo I não foi influenciada pelo tamanho maior da amostra,

enquanto que o erro tipo II foi influenciado pelo tamanho da amostra, pelo aumento da diferença entre médias populacionais e pela razão entre as variâncias populacionais. Em trabalho realizado por Santos et al. (001) utilizando o método de simulação Monte Carlo, observou-se que, sob H 0 completa, as taxas de erro tipo I do teste de Scott-Knott modificado foram baixas e iguais às do original, mas na situação de H 0 parcial, foram maiores, apesar do poder também ter sido superior. Os dois testes de Bonferroni modificados, I e II, tiveram poder alto, mas não controlaram as taxas de erro tipo I. Os métodos de Scheffé modificados, I e II, tiveram poder baixo, embora tenham controlado razoavelmente as taxas de erro tipo I. Assim, observa-se que as comparações entre TCMM feitas através de simulações tem revelado resultados contraditórios, em decorrência das diferentes condições e pressuposições consideradas e, principalmente, das distintas taxas de erro dos testes comparados. CONSIDERAÇÕES FINAIS Os níveis de probabilidade mencionados nos testes estatísticos referem-se apenas ao erro tipo I. O erro tipo I é o único que pode ser controlado pelo experimentador, por meio da fixação de um nível de significância α. Para controlar simultaneamente os erros tipo I e II, reduzindo a probabilidade de eles ocorrerem, deve-se aumentar o tamanho da amostra. Ao afirmar-se que duas médias não diferem entre si, a margem de erro é desconhecida e está situada num patamar acima do que seria considerado razoável. Os testes estatísticos não provam igualdade entre tratamentos, apenas diferenças entre os mesmos. A escolha do teste a ser empregado depende única e exclusivamente do pesquisador em função do tipo de hipótese formulada. O teste de Scott-Knott apresenta vantagens em relação aos demais testes de comparação múltipla de médias, por possuir poder elevado, taxas de erro tipo I quase sempre de acordo com os níveis nominais, por ser robusto à violação da normalidade e por não apresentar ambigüidade dos resultados. O teste t ou DMS deve ser utilizado apenas para realizar comparações planejadas inicialmente e jamais para contrastes sugeridos pelos dados. REFERÊNCIAS BEIGUELMAN, B. Curso prático de bioestatística. 4. ed. rev. Ribeirão Preto-SP: Sociedade Brasileira de Genética. 1996. 4p. BORGES, L. C. & FERREIRA, D. F. Comparação de duas aproximações do teste t com variâncias heterogêneas através de simulação. Revista Ciência e Agrotecnologia, Lavras, v.3, n., p.390-403. 1999. BUSSAB, W. de O. & MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva. 004. 56p. CARDELLINO, R. A. & SIEWERDT, F. Utilização adequada e inadequada dos teste de comparação de médias. Revista da Sociedade Brasileira de Zootecnia, Viçosa, v.1, n.6, p.985-995. 199.

FONSECA, J. S. da. & MARTINS, G. de A. Curso de estatística.. ed. São Paulo: Atlas. 1978. 173p. LÚCIO, A. D.; LOPES, S. J.; STORCK, L.; CARPES, R. H.; LIEBERKNECHT, D.; NICOLA, M. C. Características experimentais das publicações da Ciência Rural de 1971 a 000. Ciência Rural, Santa Maria, v.33, n.1, p.161-164. 003. MONTGOMERY, D. C.; RUNGER, G. C.; HUBELE, N. F. Estatística aplicada à engenharia.. ed. Rio de Janeiro: LTC editora. 004. 335p. OLIVEIRA, P. H.; BRAIDA, J. A. Experimentação agrícola: apostila didática. Pato Branco: CEFET. 000. 51p. PERECIN, D.; BARBOSA, J. C. Uma avaliação de seis procedimentos para comparações múltiplas. Revista de Matemática e Estatística, Marília-SP, v.6, p.95-103. 1988. PIMENTEL-GOMES, F. Curso de estatística experimental. 9. ed. Piracicaba: Nobel. 1981. 468p. RAMALHO et al. Experimentação em genética e melhoramento de plantas. Lavras: UFLA. 000. 36p. SANTOS, J. W.; MOREIRA, J. A. N.; BELTRÃO, N. E. M. Avaliação do emprego de testes de comparação de médias na revista Pesquisa Agropecuária Brasileira (PAB) de 1980 a 1994. Pesquisa Agropecuária Brasileira, Brasília, v.33, n.3, p.5-30. 1998. SANTOS, C. dos; FERREIRA, D. F.; BUENO FILHO, J. S. de S. Novas alternativas de testes de agrupamento avaliadas por meio de simulação Monte Carlo. Revista Ciência e Agrotecnologia, Lavras, v.5, n.6, p.138-139. 001. SCOTT, A. J.; KNOTT, M. A. A cluster analysis method for grouping means in the analysis of variance. Biometrics, Washington, v.30, n.3, p.507-51. 1974. SILVA, J. G. C. da. Estatística experimental II: Análise estatística de experimentos. Pelotas: UFPel. 1997. 65p. SILVA, E. C. da; FERREIRA, D. F.; BEARZOTI, E. Avaliação do poder e taxas de erro tipo I do teste de Scott-Knott por meio do método de Monte Carlo. Revista Ciência e Agrotecnologia, Lavras, v.3, n.3, p.687-696. 1999. STORCK, L. & LOPES, S. J. Experimentação II. Santa Maria: UFSM. 1997. 197p. VIEIRA, S. & HOFFMANN, R. Estatística experimental. São Paulo: Atlas. 1989. 179p. ZIMMERMANN, F. J. P. Estatística aplicada à pesquisa agrícola. Santo Antônio de Goiás: Embrapa Arroz e Feijão. 004. 40p.

ANEXO 1 Exemplo: Em um experimento, um pesquisador da UTFPR, Campus Pato Branco, testou quatro formas de controle de Plantas Daninhas (PD) na cultura da cana-de-açúcar (T1 - Herbicida na dose recomendada; T - Herbicida com 1/ dose recomendada; T3 - Herbicida na dose recomendada + adubação verde de crotalária; T4 - Herbicida com 1/ dose recomendada + adubação verde de crotalária). O delineamento experimental foi de blocos casualizados, com seis repetições. Os resultados médios de produção de cana-de-açúcar em função dos tratamentos são descritos abaixo (Tabela 1). Tabela 1 Rendimento de cana-de-açúcar (ton/ha), em função do controle de plantas daninhas. Bloco (repetição) Tratamentos 1 3 4 5 6 Soma (Yi.) Média T1 11 116,7 110,3 119,4 13,7 10,05 70,15 117,05 T 86,15 91,75 83,4 89,15 94,3 9,49 537,4 89,54 T3 18,3 13,8 133,9 136,9 141, 137,4 810,5 135,0833 T4 10,5 10,4 15,3 119,8 10,5 16,3 73,8 1,1333 Soma (Y.j) 446,95 461,65 45,9 465,5 479,7 476,4 Soma total (Y..) 78,69 Média geral 115,945417 Após a execução do experimento, obtenção e tabulação dos dados, deve-se primeiramente efetuar a análise da variância, conforme procedimento abaixo: Tabela - Fórmulas do quadro de análise da variância. Fontes de variação GL SQ QM Fcalc. Ftab. Bloco (b) J - 1 [( Y.j /I) (Y.. /I*J)] SQb/GLb QMb/Qme Fα (GLb;Gle) Tratamento (t) I - 1 [( Yi. /J) (Y.. /I*J)] SQt/GLt QMt/Qme Fα (GLt;Gle) Erro (e) (I -1) * (J-1) SQto (SQb + SQt) SQe/Gle Total (to) (I * J) -1 ij (Y.. /I*J) GL = Graus de liberdade; SQ = soma dos quadrados; QM = quadrado médio; Fcalc. = valor da estatística F calculado; Ftab. = valor da estatística F tabelado. Os cálculos baseados nestas fórmulas podem ser executados no programa Excel do Windows, o que foi feito neste exemplo. Tabela 3 - Quadro de análise da variância. Fontes de variação GL SQ QM Fcalc. Ftab. (5%) Bloco (b) 5 04,547708 40,850954 4,05418507*,9 Tratamento (t) 3 6617,770179 05,934 18,930* 3,9 Erro (e) 15 151,1436458 10,07643 Total (to) 3 6973,168596 Após a formação do quadro da análise da variância, deve-se concluir se houve ou não diferenças significativas pela estatística F dos tratamentos e dos blocos quando houver, como é neste caso.

Conclusões: Blocos: houve diferença significativa entre as médias de blocos, pelo teste F a 5% de probabilidade de erro. Assim, os blocos foram utilizados de forma adequada, ou seja, havia heterogeneidade entre os blocos, o que justifica seu uso para controle local. Isto demonstra que próximos experimentos realizados nas mesmas condições locais, também deverão ser em delineamento blocos casualizados, devido à heterogeneidade do local, não sendo recomendado o uso do delineamento inteiramente casualizado. Tratamentos: houve diferença significativa entre pelo menos duas médias de tratamentos, pelo teste F a 5% de probabilidade de erro. Desse modo, na seqüência deverá ser aplicado um teste de comparação de médias (TCM) para identificar quais os tratamentos que se diferenciaram entre si e qual(is) foi(ram) o(s) melhor(es) e o pior(es) tratamento(s). Neste caso como houve diferença significativa entre tratamentos e, como o teste F não permite identificar entre quais tratamentos há as diferenças, devem-se aplicar os TCMM, pois tratase de tratamentos qualitativos sem ortogonalidade. Abaixo serão exemplificados três TCMM, o teste t, o teste de Scheffé e o teste de Scott- Knott. Procedimento a) Calcular o valor comparador - DMS TESTE t ou DMS DMS = t(α;gle) *QMe r DMS = t(5%;15) * *10,077 6 DMS =,13 * 1,833 = 3,9 b) Ordenar as médias em ordem decrescente Tabela 4 Médias ordenadas em ordem Decrescente Formas de controle de PD da cana-de-açúcar Rendimento médio (ton./ha) T3 (media 1) 135,08 T4 (média ) 1,13 T1 (média 3) 117,03 T (média 4) 89,54 c) Comparar as diferenças entre médias, duas a duas, com o valor comparador (DMS), considerando que: c.1) se a diferença entre médias é ao valor DMS, as médias não diferem estatisticamente; c.) se a diferença entre médias é > que o valor DMS, as médias diferem estatisticamente entre si.