Funções Discriminantes Lineares

Transcrição

1 Funções Discriminantes Lineares Revisão Cap. 2 Classificação Bayesiana: Fdp s conhecidas, w ) P e x w ) ( i p. ( i Cap. 3 Formas das fdp s conhecidas, idem No. de parâmetros. a) Máxima verossimilhança: parâmetros a determinar têm valores fixos mas desconhecidos. b) Métodos Bayesianos: parâmetros são variáveis aleatórias com distribuição a priori conhecida. Observações (vetores de atributos) convertem distribuições a priori em distribuições a posteriori. Cap. 4 Técnicas não paramétricas Consideram-se desconhecidas as formas das densidades de probabilidade, que serão estimadas diretamente a partir das amostras. a) estimar p x w ) b) estimar P( w j x) diretamente ( j 1

2 Funções discriminantes lineares Uma das formas de representar classificadores é através de um conjunto de funções discriminantes g i (x), i = 1,..., c de modo a atribuir um vetor de atributos x à classe w i se g i (x) > g j (x) para todo j diferente de i. O classificador calcula c funções discriminantes e seleciona a categoria correspondente ao maior discriminante. A forma das g(x) não é única. Estaremos representando as funções discriminantes por meio de redes. Da aula 2: Foi visto que, para o caso de taxa de erro mínima, g i (x) = P (w i x) (1) ou seja, a função discriminante máxima corresponde à máxima probabilidade a posteriori. Foi visto também que (1) é equivalente a g i (x) = p (x w i )P(w i ) ln p (x w i ) + ln P(w i ) Por meio da última expressão, podemos determinar (analiticamente) a forma da função discriminante, em casos simples, conhecendo as fdps. Nesta aula 5, veremos como obter g i (x) sem conhecer as fdps, diretamente a partir das amostras, por treinamento. 2

3 O caso de duas classes: Considerando uma função discriminante linear, g (x) = w t x + w 0, estabelecemos: Se g (x) > 0, decidir 1 Se g (x) < 0, decidir 2 Se g (x) = 0, considera-se atribuição indefinida. Implementação típica por meio de rede: Fig. 5.1 Fig. 5.1 Geometria associada à função discriminante g (x) = 0 define a superfície de decisão entre 1 e 2. Se g (x) é linear, a superfície de decisão é um hiperplano H de dimensão d-1 no espaço x d-dimensional. dimensional Sejam x 1 e x 2 pontos da sup. de decisão. Então, g (x 1 ) = g (x 2 ) = 0, ou w t (x 1 - x 2 ) = 0 Ou seja, w é normal ao hiperplano H. Pode-se mostrar que g (x) dá uma medida algébrica da distância de x à sup. de decisão, e que a distância da origem x = 0 a H é w 0 / w. Ver Fig

4 Fig. 5.2 Resumo: Uma função discriminante linear divide o espaço de atributos por um hiperplano H de decisão, cuja orientação é dada por w. A localização de H é determinada por w 0. A função discriminante g(x) é proporcional à distância de x ao hiperplano O caso de múltiplas categorias Há mais de uma forma para estender os discriminantes lineares para c classes. A Fig. 5.3 ilustra duas delas, que geram regiões de indefinição: 1) reduzir o problema de separar c classes a c problemas de separar duas classes. O i-ésimo problema é resolvido por uma função discriminante linear g i (x) que separa pontos atribuídos a i dos pontos não atribuídos a i. 2) solução mais extravagante: usar c(c - 1)/2 discriminantes lineares, um para cada par de classes. 4

5 Fig. 5.3 Uma forma de evitar as regiões de indefinição: Definir c funções discriminantes lineares g i (x) = w i x + w i0 i = 1,..., c e atribuir x a i se g i (x) > g j (x) j i. Hiperplano de separação: g i (x) = g j (x). Quando x verifica esta igualdade, a classificação é considerada indefinida. (g i (x) - g j (x))/ w i - w j dá a distância algébrica de x a H ij. Há c(c - 1)/2 pares de regiões, que não precisam ser contíguas. O número total de segmentos de hiperplanos nas superfícies de decisão freqüentemente é menor do que c(c - 1)/2, como na Fig

6 Fig. 5.4 As regiões de decisão no discriminante linear são convexas, como pode ser mostrado. Este fato limita a flexibilidade e a precisão do classificador. Funções discriminantes lineares generalizadas Função discriminante linear: g(x) = w 0 + Função discriminante quadrática: d i 1 g(x) w w i x i 0 w ix i w ijx ix i 1 i 1 j 1 Como x i x j = x j x i, podemos assumir que w i w j = w j w i, sem perda de generalidade. Assim, a função discriminante quadrática possui d(d+1)/2 coeficientes adicionais, produzindo superfícies de separação mais complicadas. As superfícies de separação g(x) = 0 são superfícies de segundo grau ou hiperquádricas (hiper-esferas, hiper-elipsóides ou hiper-parabolóides - ver Duda). d d d j 6

7 Função discriminante linear generalizada g(x) = d i 1 a y (x) i i ou g(x) = a t y onde a = vetor de pesos d^-dimensional As y i (x) (ou funções (x)) são funções arbitrárias de x que mapeiam o espaço d- dimensional x no espaço d^-dimensional y. A função discriminante resultante da expansão é não linear em x, mas linear em y. O discriminante homogêneo a t y separa pontos no espaço transformado por um hiperplano que passa pela origem. A solução do problema de classificação é então uma função discriminante linear homogênea. Exemplo: g(x) = a 1 + a 2 x + a 3 x 2 Neste caso, o vetor tridimensional y = (y1 y2 y3) t é dado por y = (1 x x 2 ) t Ver Fig Fig Comentários: 1) Se d^ > d, dados x, com fdp p(x), p^(y) será degenerada. Ex. Fig ) Regiões de decisão convexas em y serão não convexas em x. Ver ex. da Fig. 5.5 e também o da Fig

8 No caso da Fig. 5.6, o espaço de entrada bi-dimensional x = (x1 x2) t, será mapeado em y = (y1 y2 y3) t, tridimensional, dado por y1 = x1, y2 = x2 e y3 = x1x2. A região R1 no espaço x não é simplesmente conexa, o que dá flexibilidade de classificação. Fig ) A praga da dimensionalidade pode tornar difícil tirar partido da flexibilidade, por exigir complexidade computacional e grande número de dados. Ex.: uma função discriminante quadrática completa envolve d^ = (d + 1)(d +2)/2 termos. Polinômios de ordem k, levam a O(d^k) termos. Considerando que as d^ componente do vetor de pesos a devem ser determinadas a partir de exemplos de treinamento, então, o número destes deve ser no mínimo d^. 4) Conveniência de escrever g(x) na forma homogênea a t y: 8

9 d g(x) w com x 0 = 1 0 w ix i w ix i 1 d i 0 i Deste modo, o problema de encontrar um classificador reduz-se a encontrar um vetor de pesos a no espaço y. Ver Fig Fig. 5.7 O caso de duas classes linearmente separáveis Problema: Dadas n amostras y1,..., yn, divididas entre duas classes 1 e 2, determinar o vetor de pesos a de uma função discriminante linear g(x) = a t y. Se tal vetor existir, as amostras dizem-se linearmente separáveis. Pode-se procurar um vetor a t.q. a t y > 0 para todas as amostras, simplificando o problema. Geometria e terminologia (Fig. 5.8) a t y = 0 hiperplano pela origem do espaço de pesos. região de solução no espaço de pesos. região de decisão no espaço de atributos. 9

10 Fig. 5.8 A escolha do vetor solução não é única. Critérios: 1) maximizar distância mínima das amostras ao plano separador. 2) a t y b, onde b = margem. Ver Fig Fig

11 Técnicas de descida por gradiente Enfoque para solução a a t y > 0: definir uma função critério J(a) que é minimizada se a for um vetor solução. Portanto, o problema reduz-se ao de minimizar i i uma função escalar, que pode ser resolvido por descida por gradiente. A solução é dada por: a(k + 1) = a(k) - (k) J(a(k)) onde = taxa de aprendizagem. O algoritmo correspondente é: cuja convergência depende de (k). Método para determinar a taxa de aprendizagem Aproximando J(a) até segunda ordem, tem-se: onde H éamatrizhessiana Hessiana. Substituindo a(k+1) obtém-se: J(a(k+1)) pode se minimizado escolhendo-se onde H depende de a, e portanto de k. Se J(a) é quadrático, H e são constantes. 11

12 Método de Newton Escolhendo-se a(k+1) para minimizar a expansão de 2a. ordem de de J(a), resulta no método de Newton de otimização, com e o seguinte algoritmo: A aplicação do algoritmo de Newton exige matriz H não singular. Em geral é mais rápido que o método do gradiente, mas a complexidade da inversão matricial pode anular essa vantagem. A Fig compara os caminhos de otimização dos dois algoritmos. Fig

13 A função critério do Perceptron Trata-se da função onde é o conjunto de amos- amostras classificadas erradamente por a. Notar que não pode ser negativa. Significado geométrico: é proporcional à soma das distâncias das amostras classificadas com erro ao limiar de decisão. O gradiente de é e a regra de atualização de pesos é: onde é o conjunto das amostras classificadas com erro. O algoritmo Perceptron é dado a seguir. Ver Fig para uma ilustração do para um exemplo bidimensional, e a Fig. 5.12, para o uso do algoritmo num ex. bi-dim. com a(1)=0 (k)=1. 13

14 Fig Fig

15 Caso particular: correção a cada amostra Notação: y 1 y 2,..., y k, onde cada y k é uma amostra mal classificada.num cj. de n amostras y1,..., yn. Para (k) = constante = 1, a regra de atualização então fica: e o algoritmo é: a(1) arbitrário a(k+1) = a(k) + y k k 1, Obs.: Este algoritmo termina SSE as amostras forem linearmente separáveis (teorema da convergência do.perceptron). A Fig ilustra aplicação do algoritmo. Fig Convergência do Perceptron: Se as amostras de treinamento forem linearmente separáveis, a seqüência de vetores peso dada pelo algoritmo 4 termina em um vetor a solução. Demonstração: ver livro (Duda) p

16 Técnicas de relaxação São procedimentos que generalizam a minimização do critério Perceptron, incluindo outros critérios de minimização. Um desses critérios é: onde é o conjunto de amostras classificadas erradamente por a. O gradiente de J q é contínuo, contrariamente ao de J p. Na prática utiliza-se: quais a t y b. O gradiente de J r (a) é onde Y(a) é o cj. de amostras para as e a regra de correção para uma amostra por vez é: onde a t y b k. O algoritmo correspondente é: A qtd. é a distância de a(k) ao hiperplano a t y k = b. Como y k / y k é o vetor unitário normal ao hiperplano, a eq. de correção representa mover a(k) de uma fração da dist. r(k) de a(k) ao hiperplano. Se = 1, a(k) é movido exatamente ao hiperplano, relaxando a tensão criada por a t (k)y k b. Ver Figs e Fig

17 Fig Comportamento não separável Tanto o método Perceptron quanto o de relaxação são procedimentos de correção de erro para encontrar um vetor de separação quando as amostras são linearmente separáveis. Um vetor que separa as amostras de treinamento pode não funcionar bem com amostras de teste. Na prática, grandes problemas de separação são quase certamente não separáveis linearmente. Neste caso, como os vetores de peso não podem classificar corretamente cada amostra, as atualizações num processo de correção de erro não têm fim. Verifica-se, entretanto, que o comprimento dos vetores a produzidos por constante é limitado. Assim, a parada dos processos de correção baseia-se empiricamente nesta tendência do comprimento dos vetores flutuar em torno de algum valor limite. Utiliza-se tb. tomar a média dos vetores de peso p/ evitar poder escolher sol. infeliz. 17

18 Técnicas de erro quadrático mínimo As funções critério até agora utilizadas baseiam-se em amostras classificadas erradamente. Além disso, o vetor a deveria proporcionar a t y> 0. Agora, vamos introduzir um critério que leva em conta todas as amostras, e t.q. a t y= b i. Teremos assim um cj. de eqs. lineares. Em forma matricial: Se Y não singular, a = Y -1 b. Mas Y é retangular, com mais linhas que colunas. A solução consiste em procurar a que minimize alguma função do erro e = Ya - b. A função proposta é: A solução analítica é obtida da seguinte forma: onde a matriz é chamada pseudo-inversa de Y. Definindo-se pode-se mostrar que sempre existirá a solução Exemplo: Ver livro (Duda) p

19 Algoritmo LMS O critério de erro quadrático mínimo pode ser minimizado por um procedimento de descida de gradiente. Dessa forma, em relação à solução analítica evitam-se dois problemas: 1) Os decorrentes de Y t Y singular. 2) A necessidade de lidar com matrizes grandes. Como, a regra de correção de pesos é: Pode-se mostrar que se (k) = (1)/k, onde (1) é qq. constante positiva, este algoritmo sempre produz uma solução, independentemente de Y t Y ser singukar ou não. Quando este algoritmo é aplicado seqüencialmente, é conhecido por algoritmo LMS (least-mean-squared), ou de Widrow-Hoff, cuja regra de atualização é: E o algoritmo é: Diferença com o método de relaxação: Neste último trata-se de uma regra de correção de erro, onde as correções prolongamse indefinidamente. No caso do LMS, a seqüência de pesos tende a convergir para u- ma solução, razoável, embora possa não ser um hiperplano de separação, mesmo se existir um (Fig. 5.17). Fig Leituras recomendadas: Seções e do livro (Duda). 19