Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 14

Combinação de modelos Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 4 Motivação Habitualmente, experimenta-se vários algoritmos (ou o mesmo com diferentes hiperparâmetros) e escolhe-se o que o exibir melhores resultados no conjunto de teste ou em validação cruzada Não existe classificador que seja sempre o melhor independentemente da aplicação (No free lunch theorem). Por que não combinar vários classificadores? 8/4/203 http://w3.ualg.pt/~jvo/ml 4 2

Motivação A combinação de classificadores pode ser vista como uma forma de estender o espaço de hipóteses, i.e., o conjunto dos classificadores forma uma hipótese num espaço formado pelo conjunto de hipóteses do espaço original. 8/4/203 http://w3.ualg.pt/~jvo/ml 4 3 Terminologia Aprendiz == Hipótese = Classificador Classificador fraco: < 50% de erro sobre qualquer distribuição Classificador forte: probababilidade de erro arbitrariamente pequena 8/4/203 http://w3.ualg.pt/~jvo/ml 4 4 2

Ideia geral Conj. Treino Dados Dados2 Dados m Aprendiz Aprendiz 2 Aprendiz m Modelo Modelo 2 Modelo m Combinador Modelo final 8/4/203 4 5 Algumas possibilidades para gerar diversidade Algoritmos diferentes; o mesmo conjunto de treino Conj. Treino Reg Logística Rede Neural SVM Modelo Modelo 2 Modelo m Combinador Modelo final 8/4/203 4 6 3

Algumas possibilidades para gerar diversidade O mesmo algoritmo; diferentes hiperparâmetros Algoritmo aprendiz Hp Hp m Modelo Modelo 2 Modelo m Combinador Modelo final 8/4/203 4 7 Algumas possibilidades para gerar diversidade O mesmo algoritmo; diferentes versões do conjunto de treino, e.g. Bagging: amostragem do conjunto de treino Boosting: Ponderação do conjunto de treino RandomSubSpace (florestas aleatórias): subconjuntos aleatórios de características 8/4/203 4 8 4

Algumas possibilidades para combinação Combinação multi-especialista Abordagem global (learner fusion) combina todos os modelos. Ex: Voting Abordagem local (learner selection) seleciona um (ou poucos) modelo(s). Ex: Mixture of Experts Combinação multi-estado usa uma abordagem série onde um modelo é treinado com exemplos de treino onde os modelos anteriores não foram suficientemente precisos. Ex: Boosting 8/4/203 http://w3.ualg.pt/~jvo/ml 4 9 Fixed combination rules: Voting For soft outputs d j soft voting: y = j L j= w d w 0 and j j L j= w j = Multi-class classification y i = L j= w d j ji 0 5

Fixed combination rules (Jain, Nandakumar, and Ross 2005) y i = L j= w d j ji Mixture of Experts (Jacobs et al., 99) L y = j= w j d j 2 6

Stacking (Wolpert, 992) 3 h h 2 h h T Bagging (Bootstrap aggregating) 7

Bagging (Brieman, 996) Original Data 2 3 4 5 6 7 8 9 0 Sample 7 8 0 8 2 5 0 0 5 9 Sample 2 4 9 2 3 2 7 3 2 Sample 3 8 5 0 5 5 9 6 3 7 Constrói um classificador sobre um subconjunto com N amostras recolhidas aleatoriamente com reposição do conjunto de treino original, X de tamanho N Cada exemplo em X tem uma probabilidade de ser selecionado, de p=/n A probabilidade de um exemplo não ser selecionado após N amostras é de p e =( /N) N /e (para N grande) Um exemplo é selecionado após N amostras com p s /e 0.632, i.e., o subconjunto contém cerca de 63% dos dados originais 8/4/203 4 5 Bagging M yˆ = å G x M m = m () 8/4/203 http://w3.ualg.pt/~jvo/ml 4 6 8

Conj. De treino Amostra pesada h h 2 h Amostra pesada h T Boosting Boosting Inicialmente atribui pesos iguais a todos os exemplos do conjunto de treino; Original Data 2 3 4 5 6 7 8 9 0 Boosting (Round ) 7 3 2 8 7 9 4 0 6 3 Boosting (Round 2) 5 4 9 4 2 5 7 4 2 Boosting (Round 3) 4 4 8 0 4 5 4 6 3 4 Em cada iteração, aprende uma nova hipótese (classificador fraco) e repesa os exemplos: os exemplos mal classificados veêm os seus pesos aumentados; os outros têm o seu peso diminuido A classificação final é baseado numa votação T pesada dos classificadoes fracos: h( x) = sign( α h ( x)) t= t t 8/4/203 4 8 9

Adaboost: Adaptive Boosting (Freund and Schapire, 996) 9 Cluster ensembles, an example of 8/4/203 http://w3.ualg.pt/~jvo/ml 4 20 0

An Ensemble-Based General Type-2 FCM-PSO Algorithm (A. Szabo, L. N. de Castro, D. G. Ferrari, M. R. Delgado, L. A. Lucas, and J. Valente de Oliveira, 203) 8/4/203 http://w3.ualg.pt/~jvo/ml 4 2 An Ensemble-Based General Type-2 FCM-PSO Algorithm (A. Szabo, L. N. de Castro, D. G. Ferrari, M. R. Delgado, L. A. Lucas, and J. Valente de Oliveira, 203) 8/4/203 http://w3.ualg.pt/~jvo/ml 4 22

Sumário Motivação Combinação em classificação e regressão Geração de diversidade Operadores de combinação Bagging Boosting Adaboost Combinação em Agrupamento 8/4/203 http://w3.ualg.pt/~jvo/ml 4 23 2