Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 14

Documentos relacionados
Aprendizado de Máquina. Combinando Classificadores

SISTEMAS BASEADOS EM ENSEMBLES DE CLASSIFICADORES

Aprendizagem de Máquina

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Método para Seleção Dinâmica de Conjunto de Classificadores

BERT: Melhorando Classificação de Texto com Árvores Extremamente Aleatórias, Bagging e Boosting

Classificação Automática de Gêneros Musicais

Aprendizado de Máquina

Descoberta de Conhecimento em Bancos de Dados - KDD

Métodos baseados em árvores

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro

Aula 3: Random Forests

1 o Teste de Aprendizagem Automática

Classificação. Eduardo Raul Hruschka

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

Face Detection. Image Processing scc moacir ICMC/USP São Carlos, SP, Brazil

Aprendizagem de Máquina

Aprendizagem a partir de observações. Capítulo 18

Aplicação de Ensembles de Classificadores na Detecção de Patologias na Coluna Vertebral

Uma introdução à Machine Learning

Uma introdução à Machine Learning

SEMINÁRIO DOS ARTIGOS:

6 Experimentos com Tarefas de Classificação de Dados

Reconhecimento de Padrões

Prevendo Desempenho dos Candidatos do ENEM Através de Dados Socioeconômicos

Uma introdução à Machine Learning

INF 1771 Inteligência Artificial

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais

Métodos para Classificação: - Naïve Bayes.

Redes Neurais (Inteligência Artificial)

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Aprendizagem de Máquina

Exame de Aprendizagem Automática

3 Técnica Baseada em Treinamento e Cascata de Classificadores

Aprendizado de Máquina

Biometria Multimodalidade Íris + Face. Luiz Antonio Zanlorensi Junior

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

6. QUADRIMESTRE IDEAL 7. NÍVEL Graduação 8. Nº. MÁXIMO DE ALUNOS POR TURMA

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

scikit-learn: Aprendizado de máquina 101 com Python

Metodologia Aplicada a Computação.

Aprendizado de Máquina

Aprendizagem de Máquina

Mineração de Dados em Biologia Molecular

Region Based CNNs. Francisco Calaça Xavier. Programa de pós-graduação em Ciências da Computação Mestrado e Doutorado. Instituto de Informática UFG

SCC5895 Análise de Agrupamento de Dados

Aprendizado de Máquina Aula 1 - Introdução

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Descritores de Imagens

Aprendizado de Máquina

Inteligência Artificial

Transcrição:

Combinação de modelos Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 4 Motivação Habitualmente, experimenta-se vários algoritmos (ou o mesmo com diferentes hiperparâmetros) e escolhe-se o que o exibir melhores resultados no conjunto de teste ou em validação cruzada Não existe classificador que seja sempre o melhor independentemente da aplicação (No free lunch theorem). Por que não combinar vários classificadores? 8/4/203 http://w3.ualg.pt/~jvo/ml 4 2

Motivação A combinação de classificadores pode ser vista como uma forma de estender o espaço de hipóteses, i.e., o conjunto dos classificadores forma uma hipótese num espaço formado pelo conjunto de hipóteses do espaço original. 8/4/203 http://w3.ualg.pt/~jvo/ml 4 3 Terminologia Aprendiz == Hipótese = Classificador Classificador fraco: < 50% de erro sobre qualquer distribuição Classificador forte: probababilidade de erro arbitrariamente pequena 8/4/203 http://w3.ualg.pt/~jvo/ml 4 4 2

Ideia geral Conj. Treino Dados Dados2 Dados m Aprendiz Aprendiz 2 Aprendiz m Modelo Modelo 2 Modelo m Combinador Modelo final 8/4/203 4 5 Algumas possibilidades para gerar diversidade Algoritmos diferentes; o mesmo conjunto de treino Conj. Treino Reg Logística Rede Neural SVM Modelo Modelo 2 Modelo m Combinador Modelo final 8/4/203 4 6 3

Algumas possibilidades para gerar diversidade O mesmo algoritmo; diferentes hiperparâmetros Algoritmo aprendiz Hp Hp m Modelo Modelo 2 Modelo m Combinador Modelo final 8/4/203 4 7 Algumas possibilidades para gerar diversidade O mesmo algoritmo; diferentes versões do conjunto de treino, e.g. Bagging: amostragem do conjunto de treino Boosting: Ponderação do conjunto de treino RandomSubSpace (florestas aleatórias): subconjuntos aleatórios de características 8/4/203 4 8 4

Algumas possibilidades para combinação Combinação multi-especialista Abordagem global (learner fusion) combina todos os modelos. Ex: Voting Abordagem local (learner selection) seleciona um (ou poucos) modelo(s). Ex: Mixture of Experts Combinação multi-estado usa uma abordagem série onde um modelo é treinado com exemplos de treino onde os modelos anteriores não foram suficientemente precisos. Ex: Boosting 8/4/203 http://w3.ualg.pt/~jvo/ml 4 9 Fixed combination rules: Voting For soft outputs d j soft voting: y = j L j= w d w 0 and j j L j= w j = Multi-class classification y i = L j= w d j ji 0 5

Fixed combination rules (Jain, Nandakumar, and Ross 2005) y i = L j= w d j ji Mixture of Experts (Jacobs et al., 99) L y = j= w j d j 2 6

Stacking (Wolpert, 992) 3 h h 2 h h T Bagging (Bootstrap aggregating) 7

Bagging (Brieman, 996) Original Data 2 3 4 5 6 7 8 9 0 Sample 7 8 0 8 2 5 0 0 5 9 Sample 2 4 9 2 3 2 7 3 2 Sample 3 8 5 0 5 5 9 6 3 7 Constrói um classificador sobre um subconjunto com N amostras recolhidas aleatoriamente com reposição do conjunto de treino original, X de tamanho N Cada exemplo em X tem uma probabilidade de ser selecionado, de p=/n A probabilidade de um exemplo não ser selecionado após N amostras é de p e =( /N) N /e (para N grande) Um exemplo é selecionado após N amostras com p s /e 0.632, i.e., o subconjunto contém cerca de 63% dos dados originais 8/4/203 4 5 Bagging M yˆ = å G x M m = m () 8/4/203 http://w3.ualg.pt/~jvo/ml 4 6 8

Conj. De treino Amostra pesada h h 2 h Amostra pesada h T Boosting Boosting Inicialmente atribui pesos iguais a todos os exemplos do conjunto de treino; Original Data 2 3 4 5 6 7 8 9 0 Boosting (Round ) 7 3 2 8 7 9 4 0 6 3 Boosting (Round 2) 5 4 9 4 2 5 7 4 2 Boosting (Round 3) 4 4 8 0 4 5 4 6 3 4 Em cada iteração, aprende uma nova hipótese (classificador fraco) e repesa os exemplos: os exemplos mal classificados veêm os seus pesos aumentados; os outros têm o seu peso diminuido A classificação final é baseado numa votação T pesada dos classificadoes fracos: h( x) = sign( α h ( x)) t= t t 8/4/203 4 8 9

Adaboost: Adaptive Boosting (Freund and Schapire, 996) 9 Cluster ensembles, an example of 8/4/203 http://w3.ualg.pt/~jvo/ml 4 20 0

An Ensemble-Based General Type-2 FCM-PSO Algorithm (A. Szabo, L. N. de Castro, D. G. Ferrari, M. R. Delgado, L. A. Lucas, and J. Valente de Oliveira, 203) 8/4/203 http://w3.ualg.pt/~jvo/ml 4 2 An Ensemble-Based General Type-2 FCM-PSO Algorithm (A. Szabo, L. N. de Castro, D. G. Ferrari, M. R. Delgado, L. A. Lucas, and J. Valente de Oliveira, 203) 8/4/203 http://w3.ualg.pt/~jvo/ml 4 22

Sumário Motivação Combinação em classificação e regressão Geração de diversidade Operadores de combinação Bagging Boosting Adaboost Combinação em Agrupamento 8/4/203 http://w3.ualg.pt/~jvo/ml 4 23 2