Análise de Imagens. Aula 20: Sistemas com Múltiplos Classificadores. Prof. Alexandre Xavier Falcão.

A.X. Falcão p.1/17 Análise de Imagens Aula 20: Sistemas com Múltiplos Classificadores (Fusão) Prof. Alexandre Xavier Falcão afalcao@ic.unicamp.br. IC - UNICAMP

A.X. Falcão p.2/17 Roteiro da Aula Sistemas com Múltiplos Classificadores Fusão por voto majoritário Fusão por voto majoritário ponderado Ver livro da Kuncheva.

A.X. Falcão p.3/17 Sistemas com múltiplos classificadores Vimos a combinação de múltiplos descritores por programação genética para melhorar o desempenho da classificação. Agora veremos a combinação de classificadores, principalmente instáveis, tais como redes neurais e árvores de decisão. Neste contexto, existem duas abordagens principais: fusão e seleção. A fusão assume que cada classificador tem conhecimento sobre todo o espaço de características. A classificação resulta da opinião coletiva. A seleção assume que cada classificador é especialista em uma parte do espaço de características.

A.X. Falcão p.4/17 Sistemas com múltiplos classificadores Ao detectar que um objeto cai em uma região do espaço, sua classificação é feita pelo especialista desta região. Métodos híbridos ponderam a opinião de cada especialista com base na proximidade da amostra com sua região de domínio, e o resultado é a combinação ponderada das opiniões. Também veremos técnicas de treinamento para sistemas com múltiplos classificadores. Uma dica interessante, neste caso, é que não haja mais que 50% de superposição entre o(s) conjunto(s) de treinamento dos classificadores básicos e o conjunto de treinamento da coleção.

A.X. Falcão p.5/17 Sistemas com múltiplos classificadores Seja {D 1, D 2,..., D L } uma coleção com L classificadores. Existem quatro tipos de saída para esta coleção: a. Nível abstrato: Cada classificador D i, i = 1, 2,..., L, produz um rótulo s i Ω = {w 1, w 2,..., w c }. Assim, para qualquer x R n, a coleção produz um vetor s = [s 1 s 2... s L ] t Ω L. b. Nível de possibilidade: Cada D i, i = 1, 2,..., L, produz um subconjunto de possíveis rótulos para x ordenados pela possibilidade de serem corretos. Recomendado para problemas com muitas classes (e.g., reconhecimento de fala, caracter, e face).

A.X. Falcão p.6/17 Sistemas com múltiplos classificadores c. Nível de medida: Cada D i, i = 1, 2,..., L, produz um vetor [d i,1 d i,2... d i,c ] t de medidas em [0, 1] que representam o suporte para a hipótese que x vem da classe w j, j = 1, 2,..., c. A coleção produz uma matriz L c de medidas. d. Nível oráculo: Este tipo só é usado com Z 1, onde sabemos se D i produz a saída correta ou errada para x. Neste caso, a coleção produz um vetor [y 1 y 2... y L ] t de valores binários y i {0, 1}, i = 1, 2,..., L, que indicam uma classificação correta ou errada.

A.X. Falcão p.7/17 Fusão por voto majoritário Seja [d i,1 d i,2... d i,c ] t um vetor tal que d i,j {0, 1} indica a saída do classificador D i, i = 1, 2,..., L, com relação à amostra x pertencer ou não à classe w j, j = 1, 2,..., c. O voto majoritário (plurality/majority vote) escolhe a classe w k onde (1) g k (x) = L i=1 d i,k = c max j=1 {g j(x) = L i=1 d i,j } A decisão final pode ainda levar em conta uma classe extra w c+1 (nenhuma das alternativas) quando a medida acima não ultrapassa um limiar αl, 0 < α 1, para a classe w k.

A.X. Falcão p.8/17 Fusão por voto majoritário Ou seja, a decisão final é { w k, se L i=1 d i,k αl w c+1, no caso contrário. (2) Quando α = 1 2 + ɛ, 0 < ɛ < 1/L, temos a maioria simples (50% dos votos + 1). Quando α = 1, temos unanimidade. Uma justificativa para este método ser o mais usado é que sob determinadas condições, ele realmente aumenta a probabilidade de acerto na classificação. Considere L ímpar, p a probabilidade de acerto de cada classificador, e uma coleção de classificadores independentes.

A.X. Falcão p.9/17 Fusão por voto majoritário A probabilidade de acerto P maj da coleção por voto majoritário é (3) P maj = L m= L/2 +1 ( L m ) p m (1 p) L m considerando que bastam L/2 + 1 classificadores acertarem para que o resultado final esteja correto. É fácil constatar que para qualquer L = 3, 5, 7, 9,... e p > 0.5, P maj > p. No limite L, P maj 1. Se p = 0.5, então P maj = 0.5 para qualquer L. Porém, se p < 0.5, P maj 0 quando L, e a coleção pode piorar o resultado.

A.X. Falcão p.10/17 Maioria versus Unanimidade Um exemplo interessante para mostrar as vantagens do voto por maioria sobre o voto por unanimidade é o diagnóstico médico de HIV. Neste contexto, a sensibilidade u de um classificador é a probabilidade P (T \A) de um verdadeiro positivo (teste positivo dado que o indivíduo está infectado) e a especificidade v de um classificador é a probabilidade P ( T \Ā) de um verdadeiro negativo. Assim, a probabilidade de acerto do classificador é p = up (A) + v[1 P (A)], onde P (A) é a probabilidade de um indivíduo está infectado devido à prevalência da doença na sua população.

A.X. Falcão p.11/17 Maioria versus Unanimidade Considerando L = 3, por exemplo, a Eq 3 gera P maj = 3p 2 2p 3. Se usarmos unanimidade, P una = p 3. Sendo 0 < p < 1, podemos provar facilmente que p 3 < 3p 2 2p 3, e portanto, P maj > P una.

A.X. Falcão p.12/17 Voto majoritário ponderado O voto majoritário ponderado modifica a Eq 1 para (4) g k (x) = L i=1 d i,k = c max j=1 {g j(x) = L i=1 b i d i,j } onde b i é o peso do classificador D i. A motivação é dar maior importância (peso maior) para a opinião do classificador com maior exatidão. Por conveniência, L i=1 b i = 1 e b i p i, onde p i é a probabilidade de acerto do classificador D i. O voto ponderado pode não ser melhor que o voto do melhor classificador, em alguns casos, mas normalmente é mais exato que o voto majoritário.

A.X. Falcão p.13/17 Voto majoritário ponderado Suponha, por exemplo, uma coleção D 1, D 2,..., D 5 de classificadores independentes com probabilidades de acerto 0.9, 0.9, 0.6, 0.6, 0.6, onde b i = p i, i = 1, 2,..., 5. A probabilidade de acerto da coleção por voto majoritário é a soma das probabilidades de três, quatro e cinco classificadores estarem corretos, considerando as possíveis combinações. P maj = 3 0.9 0.9 0.6 0.4 0.4 + 6 0.9 0.1 0.6 0.6 0.4 + 3 0.9 0.9 0.6 0.6 0.4 + 2 0.9 0.1 0.6 0.6 0.6 + 1 0.9 0.9 0.6 0.6 0.6 + 1 0.1 0.1 0.6 0.6 0.6 = 0.877

A.X. Falcão p.14/17 Voto majoritário ponderado Considerando os pesos 1/3, 1/3, 1/9, 1/9, 1/9 para os respectivos classificadores. A coleção acerta quando os dois primeiros acertam, independente do resultado dos demais, pois a nota da classe que eles indicam será 2/3, e as demais classes dividirão os 1/3 restante. Quando eles discordam, e um está correto e o outro errado, o voto da coleção será decidido pelo voto da maioria dos demais (i.e., basta que dois deles votem na classe correta para que a coleção acerte). Considerando todas possibilidades, P b maj = 0.9 0.9 + 6 0.9 0.1 0.6 0.6 0.4 + 2 0.9 0.1 0.6 0.6 0.6 = 0.927

Voto majoritário ponderado Na verdade, o maior valor para Pmaj b b i log deve ser obtido com p i 1 p i. Isto pode ser provado da seguinte forma. Seja s = [s 1 s 2... s L ] t, s i Ω, o vetor dos rótulos de saída dos L classificadores independentes. A função discriminante ótima de Bayes para uma classe w j, j = 1, 2,..., c, é g j (x) = log P (w j )P (s\w j ) = log P (w j ) = log P (w j ) + log = log P (w j ) + log P (s i \w j ) i=1 i=1,s i =w j P (s i \w j ) i=1,s i =w j p i i=1,s i w j P (s i \w j ) i=1,s i w j (1 p i ) =... A.X. Falcão p.15/17

A.X. Falcão p.16/17 Voto majoritário ponderado g j (x) = log P (w j ) + log = log P (w j ) + log i=1,s i w j (1 p i ) = log P (w j ) + log p i (1 p i ) (1 p i=1,s i =w i ) j i=1,s i =w j i=1,s i =w j p i (1 p i ) p i (1 p i ) i=1,s i w j (1 p i ) i=1,s i =w j (1 p i ) (1 p i ) =... i=1

A.X. Falcão p.17/17 Voto majoritário ponderado g j (x) = log P (w j ) + L i=1,s i =w j log p L i (1 p i ) + i=1 log(1 p i ) Como o último termo é constante, a função discriminante fica g j (x) = log P (w j ) + = log P (w j ) + L i=1,s i =w j log L d i,j log i=1 p i (1 p i ) p i (1 p i ) Note que o erro mínimo também deve considerar log P (w j ).