Combinação de Classificadores (seleção)

Transcrição

1 Combinação de Classificadores (seleção) André Tavares da Silva Livro da Kuncheva

2 Roteiro Seleção de classificadores Estimativa independente de decisão Estimativa dependente de decisão Algoritmo de seleção Estimando regiões de competência Fusão ou seleção? Mistura de especialistas Bagging Boosting

3 Seleção de classificadores A seleção de classificadores assume que exista um especialista em D = {D 1,D 2,...,D L } que melhor estima a classe de x. Suponha que R n é particionado em K > 1 regiões de competência, R 1,R 2,...,R K, tais que exista um classificador D i (j) = D i, 1 i L, 1 j K, com maior competência C(D i (j) x) para rotular x R j. A ideia é primeiro identificar a região R j que contém x e depois selecionar o classificador correspondente.

4 Seleção de classificadores A figura a seguir ilustra uma situação onde existem duas classes, w 1 e w 2, e três classificadores D 1, D 2 e D 3, tais que D 1 sempre associa x à w 1, D 2 é linear e D 3 sempre associa x à w 2. A divisão em regiões de competência R 1 de D 1, R 2 de D 2 e R 3 de D 3, faz com que a seleção seja mais exata do que a fusão por voto majoritário (onde a opinião de D 2 prevalece) e do que o uso isolado de qualquer um deles.

5 Seleção de classificadores

6 Seleção de classificadores Não é difícil mostrar que, se escolhermos o melhor classificador para cada região, a exatidão da seleção será sempre maior ou igual à exatidão de qualquer classificador isoladamente. Seja P(D i R j ) a probabilidade de acerto de D i (j) na região R j e D i o melhor classificador para R j, a probabilidade de acerto da seleção é: K P sel = j=1 P ( R j ) P (D i ( j ) R j ) onde P(R j ) é a probabilidade de x cair em R j.

7 Seleção de classificadores Sendo P(D i (j) R j ) P(D i R j ) para i=1,2,...,l, então P(D i R j ) P(D * R j ), onde D * é o melhor classificador em D para o espaço R n. Isto significa que P sel K P(R j )P(D * R j ) = P(D * ) As regiões de competência podem ou não serem encontradas explicitamente.

8 Seleção de classificadores Quando elas não são explícitas, dizemos que a estimativa de competência é local. A estimativa local pode ainda levar ou não em conta decisões corretas para outras amostras. O segundo caso é dito independente de decisão e o primeiro é dependente de decisão. Quando as regiões de competência são estimadas explicitamente, temos uma estimativa prévia de regiões de competência.

9 Estimativa independente de decisão Seja z um objeto com características x, podemos usar o conjunto Z 1 para achar qual classificador é mais exato em estimar o rótulo dos k-vizinhos z (j) Z 1, j=1,2,...,k, mais próximos de z. Este classificador é selecionado para rotular z (classe de x). A distância entre z e o vizinho z (j) Z 1 pode ser medida pela distância Euclideana d(x, x (j) ) entre os vetores de características x e x (j).

10 Estimativa independente de decisão No caso de classificadores com saídas contínuas, estas distâncias também podem ser usadas para estimar competência. Por exemplo, seja P i (l(z (j) ) z (j) ) a estimativa feita por D i sobre a probabilidade de z (j) pertencer a sua classe verdadeira em Z 1, independente de D i indicar outra classe. Então: K j=1 C (D i x)= P i (l (z ( j ) ) z ( j) )d 1 (x, x ( j ) ) K j=1 d 1 (x, x ( j ) )

11 Estimativa independente de decisão Outra estimativa de competência baseada em distâncias é C(D i x) = k ø(z,z (j) ), onde ø é uma função potencial definida como: φ( z, z ( j ) )= g ij 1+α ij d 2 ( x, x ( j) ) onde g ij =1 se D i classifica z (j) corretamente e g ij =-1 caso contrário. α ij é um peso para cada par (D i,z (j) ), mas também pode ser uma constante.

12 Estimativa dependente de decisão Seja s i Ω a saída de D i para um objeto z com (Si) características x e N k (z) o conjunto dos k-vizinhos em Z 1 mais próximos de z, para os quais o classificador D i também atribui rótulo s i, então a competência C(D i x) de D i para rotular x pode ser (Si) calculada pela proporção de elementos em N k (z) cuja classe verdadeira é s i. Da mesma forma, a competência pode levar em conta as distâncias d(x,x (j) ) entre vizinhos z e z(j) N quando o classificador tem saídas contínuas. k (Si) (z),

13 Estimativa dependente de decisão Seja P i (s i z (j) ) a estimativa de D i para a probabilidade de s i ser a classe de z (j) e N k (z) o conjunto dos k-vizinhos em Z 1 mais próximos de z, então a competência de D i para rotular x é medida levando em conta apenas os vizinhos cujo rótulo verdadeiro seja s i : C (D i x)= P (s i z ( j ) )d 1 (x, x ( j ) ) d 1 ( x, x ( j) ) quando l(z (j) )=s i

14 Algoritmo de classificação 1. Dada uma amostra x, cada classificador D i, i=1,2,...,l, atribui um rótulo para x. Se os rótulos forem iguais, o algoritmo pára. 2. Se os rótulos forem distintos, estimamos a competência C(D i x), i=1,2,...,l, de cada classificador. Se existe um único classificador mais competente, ele rotula x e o algoritmo pára. 3. Caso exista mais de um classificador com a maior competência, verifique os rótulos atribuídos a x. Se todos atribuem o mesmo rótulo, o algoritmo pára. 4. Se os rótulos atribuídos pelos mais competentes são diferentes, podemos decidir pelo rótulo mais indicado (ou qualquer outro método de fusão), com base no segundo mais competente, escolha aleatória, etc.

15 Pré-estimando regiões de competência O espaço de características pode ser particionado em regiões de competência R j, j=1,2,...,k da seguinte forma. Desconsiderando os rótulos das amostras em Z 1, usamos o algoritmo k-means para agrupar essas amostras em K clusters (K regiões R j ). Para as amostras em cada cluster R j, verificamos o classificador D i com maior exatidão (competência), visto que sabemos o rótulo verdadeiro dessas amostras. Este classificador pode ser treinado com todas as amostras em Z 1 ou com apenas as amostras em R j.

16 Pré-estimando regiões de competência Dada uma amostra x para classificação, usamos os centros dos clusters para encontrar a região R j cujo o centro é mais próximo de x. Outra ideia é calcular uma árvore geradora mínima no grafo completo das amostras de Z 1. Podemos estabelecer um número mínimo de amostras por região ao remover as arestas de maior peso, nós obtemos as regiões R j. O objetivo é encontrar o menor valor de peso, que gerará o maior número de regiões K satisfazendo o número mínimo de amostras por região.

17 Seleção ou fusão? Uma pergunta importante é quando devemos usar seleção ou fusão? A seleção assume que um classificador D i de uma coleção de classificadores D é significativamente melhor que os demais em uma dada região R j do espaço de caraterísticas. Portanto, podemos usar as amostras desta região para calcular a exatidão de cada classificador e os intervalos de 95% de confiança entre a exatidão de D i e a dos demais. Selecionamos D i se não houver superposição entre os intervalos, usamos a fusão de classificadores no caso contrário.

18 Seleção ou fusão? Outra estratégia é usar o teste-t e verificar se a significância estatística p da exatidão de D i com relação à exatidão dos demais é maior que O livro da Kuncheva mostra que em 100 amostras, por exemplo, onde D i acerta 76% e o segundo melhor classificador acerta 71%, o teste-t indica valor p = 0.438, insuficiente para escolhermos D i como o melhor classificador.

19 Mistura de especialistas Outra técnica de combinação interessante, normalmente utilizada com redes neurais, é a mistura de especialistas D i, i=1,2,...,l. Cada rede D i é treinada com um conjunto diferente de amostras. Uma L+1-ésima rede, denominada gating network, é treinada para encontrar a probabilidade (competência) p i (x) (saída da rede) de cada especialista D i, i=1,2,...,l, rotular corretamente uma amostra x (entrada da rede). Um seletor define qual classificador rotulará x com base nos valores p i (x), i=1,2,...,l.

20 Mistura de especialistas Por exemplo, o D i com maior valor p i (x) (winner-takesall) rotula x, ou os suportes d i,j (x) de cada D i para w j, j=1,2,...,c, são combinados por média ponderada, onde os pesos são p i (x), para estimar μ j (x). A combinação desses classificadores, no entanto, pode usar qualquer uma das técnicas de fusão ou seleção. Veremos a seguir dois métodos de treinamento para coleções de classificadores: bagging e boosting. Enquanto o primeiro gera apenas especialistas treinados com diferentes conjuntos de treinamento, o segundo gera um peso para cada um destes especialistas.

21 Bagging Bagging (Bootstrap AGGregatING) e boosting são técnicas de treinamento para coleções de classificadores instáveis a fim de criar uma coleção de classificadores distintos. Em bagging, esta diversidade surge por amostragem aleatória, independente e uniforme dos objetos em Z para criar um conjunto de treinamento Z1 i, com N1 i objetos, para cada classificador D i, i=1,2,...,l. Os conjuntos Z1 i podem ter um percentual de objetos em comum, mas devemos evitar objetos repetidos em um mesmo conjunto. A classificação é feita por voto majoritário.

22 Bagging Treinamento 1.Para um dado L, inicialize o conjunto de classificadores D. 2.Para i=1,2,...,l, faça: 3. Gere Z i por amostragem em Z. 4. Construa D i por treinamento com Z i. 5. Adicione D D D i. 6.Retorne D.

23 Bagging Classificação 1.Dada uma amostra x, cada classificador D i gera um rótulo s i Ω = {w 1,w 2,...,w c }, i=1,2,...,l. 2.O rótulo final é obtido por voto majoritário.

24 Bagging Em bagging, os classificadores são quase independentes. Nestas condições, a exatidão da coleção é maior que a individual. Espera-se, portanto, uma correlação ρ i,j 0 entre as saídas de quaisquer pares de classificadores D i e D j, i j, da coleção.

25 Bagging - variantes O bagging com árvores de decisão é denominado florestas aleatórias. O método pasting small votes é outro variante que busca minimizar o tamanho N1 1 dos conjuntos de treinamento. Conjuntos de treinamento com tamanho relativo pequeno são denominados bites. O bagging com bites é chamado Rvotes e apresenta péssimos resultados. A variação mais interessante é chamada Ivotes, onde a amostragem para gerar os conjuntos Z1 i, i=1,2,...,l, leva em conta a importância das amostras.

26 Bagging - Ivotes Em Ivotes, os classificadores são construídos um após o outro de forma que aproximadamente a metade das amostras em Z1 (l+1) são classificadas corretamente pela coleção D l = {D 1,D 2,...,D L }, 1 < l L 1, e a outra metade não. Seja D l uma coleção com erro e l < 0.5 em Z 3. As amostras em Z1 (l+1) são obtidas pelo seguinte algoritmo. 1. Obtenha aleatoriamente (com distribuição uniforme) um objeto z de Z1. 2.Identifique quais classificadores em D l não possuem z nos seus conjuntos de treinamento. Estes classificadores são chamados out-of-bag. Se z estiver em todos os conjuntos, ignore-o e volte para 1.

27 Bagging - Ivotes 3. Caso contrário, submeta z à classificação pelos classificadores out-of-bag e atribua-o um rótulo final por voto majoritário. 4. Se o rótulo de z estiver errado, insira z em Z1 (l+1). Caso contrário, insira ou não z em Z1 (l+1) respeitando a probabilidade e l /(1 e l ) de inserção. 5. Repita as etapas de 1 a 4 até obter N1 elementos em Z1 (l+1).

28 Bagging - Ivotes As próximas etapas são treinar o classificador D l+1 com Z1 (l+1) e estimar o erro e l +1. O processo todo se repete até l = L.

29 Boosting O método boosting foi inspirado em um algoritmo de aprendizado on-line, denominado Hedge(β). Este algoritmo atribui pesos para um conjunto de estratégias que predizem o resultado de um certo evento. As estratégias aqui são classificadores e os pesos são suas probabilidades de acerto.

30 Boosting O algoritmo assume que dispomos de um conjunto de classificadores D = {D 1,D 2,...,D L } já treinados e de um conjunto de avaliação Z 2 = {z 1,z 2,...,z N2 }. O objetivo é atualizar os pesos de forma a identificar o classificador mais adequado para o problema (o mais exato em Z 2 ).

31 Hedge(β) Seja: A taxa β [0,1] de aprendizado. j A perda l i = 1 do classificador D i quando erra o rótulo j de um objeto zj Z2 ( l i = 0 quando D i acerta). A perda λ i acumulada de D i. A perda Λ acumulada de D. O peso p i j de D i no instante que classifica z j Z 2, j=1,2,...,n 2. O peso normalizado p i j de D i quando classifica z j.

32 Hedge(β) O algoritmo hedge(β) busca minimizar Λ.

33 Adaboost O algoritmo Adaboost (ADAptive BOOSTing) está relacionado ao problema de predição exata por combinar regras mais simples e menos exatas. Os classificadores são construídos um após o outro, e seus objetos de treinamento são amostrados de Z de forma aleatória, inicialmente com distribuição uniforme e posteriormente com distribuição proporcional a sua dificuldade de classificação. A relação com hedge(β) está em que os eventos são os classificadores, as estratégias são os objetos, e as probabilidades de amostragem desses objetos são atualizadas durante o algoritmo.

34 Adaboost Considere: A probabilidade p i j do objeto z j Z, j=1,2,...,n, ser escolhido para o conjunto de treinamento Z1 i do classificador D i. O erro e i ponderado do classificador D i. O suporte ln(1/β i ) associado ao classificador D i, onde β i = e i / (1 e i ), para e (0, 0.5]. i

35 Treinamento em Adaboost 1.Para um dado L, faça p j 1 1 / N, j=1,2,...,n e D. 2.Para i=1,2,...,l faça: 3. Amostre os objetos em Z usando a distribuição de probabilidades [p 1i,p 2i,...,p Ni ] e insira esses objetos em Z1 i 4. Construa D i por treinamento com Z1 i 5. Calcule e i N j=1 p ji l ij, onde l i j = 0 se D i rotula z j corretamente e l i j = 1 caso contrário.

36 Treinamento em Adaboost 6. Se e i 0.5, ignore D i, reinicialize os pesos p j i 1/N e continue. Caso contrário, insira D D U D i, calcule β i e i / (1-e i ) e p j i+1 p ji β i (1-l j i ) para j=1,2,...,n N p i j l j=1 j i 7.Retorne D e β 1,β 2,...,β L. Obs.: o número final de classificadores pode ser menor que L.

37 Classificação em Adaboost 1. Para uma amostra x, calcule o suporte μ j (x) = D i (x)=w j ln β i, para j=1,2,...,c. 2. A classe w j com o maior suporte é escolhida como rótulo de x. O algoritmo arc-x4 é um variante do Adaboost. Nele, o peso p j é calculado como a proporção de vezes que z j foi classificado errado pelos i 1 classificadores construídos até o momento. Além disso, a decisão final é feita por voto majoritário em vez de voto majoritário ponderado.

38 arc-x4 - treinamento

39 arc-x4 - classificação A classificação é igual a do algoritmo bagging, ou seja, por voto majoritário. O desempenho é semelhante ao do adaboost.

40 Teoria das margens Uma das características interessantes do boosting é que mesmo após o erro de treinamento chegar a zero, ele continua reduzindo o erro de teste com o aumento do número de classificadores. Uma das explicações para o sucesso do método está na teoria das margens. O conceito de margens vem da teoria de aprendizado estatístico com relação à dimensão de Vapnik- Chervonenkis. Esta dimensão estabelece um limite superior para a habilidade de classificação de modelos de classificadores.

41 Teoria das margens A margem para um objeto z com características x é definida como a certeza de classificação m(x) = μ k (x) max j k {μ j (x)} onde w k é a classe verdadeira e c μ (x) = 1. j=1 j Amostras classificadas erroneamente geram margens negativas e as classificadas corretamente geram margens positivas. Esta medida pode ser usada para buscar coleções de classificadores que maximizam as margens.