Comparação Estatística de Algoritmos Evolutivos Parte I: Planejamento Experimental Felipe Campelo fcampelo@ufmg.br Universidade Federal de Minas Gerais São Carlos 02 de Abril de 2012
Motivação Motivação Algoritmos evolutivos Metaheurísticas baseadas em processos evolutivos para a solução de problemas; Populações de soluções em potencial sujeitas às componentes básicas de um sistema evolutivo: hereditariedade, variação e pressão seletiva; Regras de transição probabilísticas - adaptação iterativa (e frequentemente implícita) da função de amostragem de um dado espaço.
Motivação Motivação Algoritmos evolutivos Natureza probabilística provável variação aleatória nos resultados. Avaliação objetiva de sistemas sujeitos a variação aleatória requer rigor estatístico Perguntas importantes: Quanto da variação observada é devida a diferenças reais entre métodos? Qual a real magnitude da diferença média entre métodos? Como quantificar o nível de confiança nos resultados?
Motivação Problemas metodológicos Experimentação descuidada To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of. - Sir Ronald Fisher Infelizmente ainda frequente na área de computação evolutiva; Mas não por muito tempo... Tende a produzir resultados fortemente enviesados em favor do algoritmo proposto
Motivação Problemas metodológicos Experimentação descuidada Algoritmo proposto Implementação cuidadosa e verificação de erros no código; Ajuste exaustivo dos parâmetros livres; Execução de diversas rodadas de experimentos; Algoritmo concorrente Implementação relativamente descuidada; Uso dos parâmetros da literatura ; Execução de uma única rodada de experimentos; Como sai no artigo: Os resultados apresentados representam a média de 30 execuções dos algoritmos.
Motivação Problemas metodológicos Experimentação descuidada Outros problemas: Falta de definição clara das perguntas que se deseja responder (hipóteses de teste); Falta de aleatorização experimental (em comparações de tempo de execução); Inversão da razão de experimentação: busca por mostrar que determinado método é melhor, ao invés de investigar se ele é melhor. Não replicabilidade;
Motivação Problemas metodológicos Análise inadequada ou descuidada Exemplo: comparação simples entre médias?
Motivação Problemas metodológicos Análise inadequada ou descuidada Exemplo: comparação simples entre médias?
Planejamento Experimental Teste de hipóteses Conceitos centrais Quantificação da confiabilidade dos resultados; Comparação da variabilidade intra-grupos com a entre-grupos; Embasamento para derivação de conclusões com confiança;
Planejamento Experimental Princípios fundamentais Planejamento de experimentos (DoE) Definição de protocolo para de coleta de dados de forma a possibilitar uma correta análise por ferramentas estatísticas, capazes de embasar conclusões válidas e objetivas. Aplicável a sistemas e processos sujeitos a ruído, erros experimentais, etc. Necessário para que as conclusões tenham significado; Evita a ocorrência de erros devidos a tendências pessoais e outros artefatos de experimentação e análise.
Planejamento Experimental Princípios fundamentais Planejamento de experimentos (DoE) Definição de protocolo para de coleta de dados de forma a possibilitar uma correta análise por ferramentas estatísticas, capazes de embasar conclusões válidas e objetivas. Replicação; Aleatorização; Blocagem; Derivação de conclusões que se referem a populações, e não apenas sobre a amostra em questão. P.ex., comparação por corrida versus planejamento experimental com blocagem;
Planejamento Experimental Hipóteses Estatísticas Hipóteses estatísticas Hipótese nula (H 0 ): Valor pontual para o parâmetro de interesse (µ = µ 0 ); Hipótese mais conservadora: ausência de efeito; Hipótese alternativa (H 1 ): Intervalo para o parâmetro de interesse: unilateral (µ < µ 0 ou µ > µ 0 ); bilateral (µ µ 0 ); Hipótese de presença de efeito observável;
Planejamento Experimental Tipos de Erros Erros em teste de hipóteses Erro tipo I (Falso positivo): rejeitar a hipótese nula quando esta é verdadeira; Erro tipo II (Falso negativo): falhar em rejeitar a hipótese nula quando esta é falsa;
Planejamento Experimental Tipos de Erros Erro tipo I Probabilidade de ocorrência α (nível de significância): α = P (erro tipo I) = P (rejeitar H 0 H 0 é verdadeira) Nível de significância região de aceitação; Nível de significância também é influenciado pelo tamanho amostral n;
Planejamento Experimental Tipos de Erros Erro tipo II Probabilidade de ocorrência β: β = P (erro tipo II) = P (não rejeitar H 0 H 0 é falsa) (1 β) - potência do teste; Requer uma especificação maior da hipótese alternativa;
Tipos de Erros Planejamento Experimental Erro tipo II
Planejamento Experimental Tipos de Erros Erro tipo II Potência do teste influenciada por diversos fatores: Controláveis: nível de significância, tamanho amostral; Não-controláveis: valor verdadeiro do parâmetro testado; Relacionado à probabilidade de erro tipo I; Se H 0 é falsa, quanto menor a amplitude da diferença (µ 0 µ 1 ), maior a probabilidade de erro tipo II (Mas menor é a importância do efeito)
Tipos de Erros Planejamento Experimental Considerações sobre erros estatísticos Erro tipo I (α) depende apenas da distribuição da hipótese nula - mais facilmente controlável; Erro tipo II (β) depende do valor verdadeiro do parâmetro - mais difícil de especificar e controlar; Rejeição de H 0 - conclusão forte; Falha em rejeitar H 0 - conclusão fraca; Falhar em rejeitar H 0 evidência em favor de H 0 ;
Planejamento Experimental Valor-p no Teste de Hipóteses Valor-p Valor-p: Menor nível de significância que levaria à rejeição de H 0 para os dados disponíveis; Probabilidade da estatística de teste assumir um valor tão ou mais extremo que o observado, se H 0 for verdadeira;
Planejamento Experimental Técnicas para Planejamento e Análise Experimental Problema-dependente Dependendo do que se deseja testar (pergunta estatística), requer-se um dado planejamento experimental; Um planejamento bem fundamentado tende a determinar de forma clara a técnica de análise utilizada; Pelo menos a forma geral dos testes Determinação da relação entre variabilidade intra-grupos e entre-grupos;
Planejamento Experimental Algumas referências de interesse DoE em Computação Evolutiva J.N. Hooker (artigos); Salvador García (artigos); Thomas Bartz-Beielstein (livro e artigos); Carrano, Takahashi, Wanner, A Multicriteria Statistical Based Comparison Methodology for Evaluating Evolutionary Algorithms, IEEE TEVC 2011. Estudo de Caso: Batista, Campelo, Guimarães, Ramírez, Pareto cone-epsilon dominance: improving convergence and diversity in multiobjective evolutionary algorithms, LNCS 2011.
Agradecimentos Planejamento Experimental CNPq - Conselho Nacional de Pesquisa e Desenvolvimento Tecnológico FAPEMIG - Funcação de Amparo a Pesquisa do Estado de Minas Gerais UFMG - Universidade Federal de Minas Gerais
Literatura recomendada Literatura recomendada 1 D.C. Montgomery, Design and Analysis of Experiments; 2 J.S. Kim, J.W. Kalb, Design of Experiments: An Overview and Application Example - http://goo.gl/ip08x 3 J. Trygg, Introduction to Statistical Experimental Design - http://goo.gl/zrscf 4 T. Brady, Reviewer s quick guide to common statistical errors in scientific papers, Elsevier - http://goo.gl/96qfk 5 F.L.H. Wolfs, APPENDIX E: Introduction to the Scientific Method - http://goo.gl/osgpu