Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function

Algoritmos de Aprendizado Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function Formas de Aprendizado Existe dois métodos básicos de aplicação do algoritmo Back Propagation: Aprendizado em Batch ( Batch Learning, por ciclo, etc) Aprendizado Incremental ( on-line, pattern-mode, por padrão, etc) 1

Aprendizado Batch x Incremental Aprendizado em Batch (por ciclo) Somente ajusta os pesos após a apresentação de TODOS os padrões Cada padrão é avaliado com a MESMA configuração de pesos obtém-se os termos derivativos δe p /δw e depois obtém-se a soma total do algoritmo: E E p = w w p cálculo correto do gradiente. Aprendizado Batch x Incremental Aprendizado em Batch (por ciclo) Melhor aproximação do verdadeiro gradiente descendente 2

Aprendizado Incremental Aprendizado Incremental (por padrão) Atualiza os pesos a cada apresentação de um novo padrão os pesos são atualizados usando o gradiente do erro de um único padrão não é mais uma aproximação simples do gradiente descendente mais atualizações ocorrem em um mesmo período de tempo tende a aprender melhor o último padrão apresentado sequência aleatória Aprendizado Incremental Verdadeiro gradiente x Gradiente de um padrão O gradiente de um único padrão pode ser visto como uma estimativa ruidosa do verdadeiro gradiente; Ele pode ter proj eções negativas sobre o verdadeiro gradiente; Na média, ele se move downhill ; Quando η << 1, os dois métodos se aproximam. 3

Aprendizado Incremental Aprendizado Incremental Na apresentação randômica dos padrões, a descida não é mais suave; Na média diminui o erro mas pode, eventualmente, aumentá-lo; No final do treinamento η deve ser pequeno para evitar oscilações. Batch X Incremental O modo Batch necessita de menos atualizações de pesos Tende a ser mais rápido Batch fornece uma medida mais precisa da mudança necessária dos pesos Batch necessita de mais memória Incremental tem menos chance de ficar preso em um mínimo local devido à apresentação aleatória dos padrões natureza estocástica stica de busca no espaço de pesos Tende a ser mais rápido se o conjunto de treinamento for grande e ruidoso. A eficiência dos dois métodos depende do problema em questão 4

Avaliação do Algoritmo Apesar do grande sucesso do Back Propagation, existem alguns problemas: definição do tamanho da rede; problema de paralisia da Rede Neural; problema de ficar preso em um mínimo local. Tamanho da Rede Neural Define o número de camadas escondidas e o número de processadores em cada uma dessas camadas. Compromisso entre Convergência e Generalização. Também conhecido como bias and variance dilemma. 5

Convergência É a capacidade da Rede Neural de aprender todos os padrões do conjunto de treinamento. Se a rede neural for pequena, não será capaz de armazenar todos os padrões necessários. Isto é, a rede não deve ser rígida a ponto de não modelar fielmente os dados. Generalização Se a rede for muito grande (muitos parâmetros = pesos), não responderá corretamente aos padrões nunca vistos. Isto é, a rede não deve ser excessivamente flexível a ponto de modelar também o ruído 6

Generalização Se a rede for muito grande (muitos parâmetros = pesos), não responderá corretamente aos padrões nunca vistos. Isto é, a rede não deve ser excessivamente flexível a ponto de modelar também o ruído f(x) generalização Mapeamento Suave x 1 x 2 x 3 x novo x 4 x 5 x i pontos do conjunt o de treinament o x novo novo pont o para generalizaç ão x Generalização Se a rede for muito grande (muitos parâmetros = pesos), não responderá corretamente aos padrões nunca vistos. Isto é, a rede não deve ser excessivamente flexível a ponto de modelar também o ruído f(x) generalizações Rede com muitos parâmetros Boa interpolação x 1 x 2 x 3 x novo x 4 x 5 x i pontos do conjunt o de treinament o x novo novo ponto para generalização x 7

Generalização Influenciada por três fatores: tamanho e eficiência do conjunto de treinamento; arquitetura da rede (número de processadores); complexidade do problema. Não se tem controle Duas formas de atacar o problema: arquitetura fixa e deve-se achar o tamanho do conjunto de treinamento tamanho do conjunto de treinamento é fixo e deve-se achar a melhor arquitetura da Rede Neural Métricas: Generalização Usou Kolmogorov Theorem: qualquer função de n variáveis Hecht-Nielsen pode ser representada por 2n+1 funções de uma variável número de PEs na camada escondida N hidden 2N in + 1 número de entradas 8

Generalização Métricas: Upadhyaya & Eryurek número de pesos O número de parâmetros necessários para codificar P padrões binários é log 2 P W N in. log 2 P número de entradas número de padrões Generalização Métricas: Baum-Haussler número de padrões N w ε número de sinapses 0 < ε 1/8 Erro desejado no teste (erro trein = ε /2) (generalização x precisão) N hidden = w N in + N out 9

Generalização Métricas: número de padrões Erro desejado no teste Baum-Haussler N Nhidden N ε test N in + N output número de PEs na camada escondida número de entradas número de PEs na camada de saída GENERALIZAÇÃO Resumo sobre número de Processadores Escondidos Nunca escolha h > 2i; Pode-se armazenar p padrões de i elementos em i log 2 p processadores escondidos nunca utilize mais do que esse limite para uma boa generalização utilize um número consideravelmente menor Assegure-se que se tem pelo menos 1/ε vezes mais padrões do que w Número de pesos = 10 x número de padrões 10

GENERALIZAÇÃO Resumo sobre número de Processadores Escondidos Feature Extraction requer menos elementos na camada escondida do que na entrada Classificação h aumenta conforme o número de classes aumenta Existe um compromisso entre generalização (h menor) e precisão (h maior) Redes maiores maior tempo de treinamento GENERALIZAÇÃO Técnicas para Reduzir a complexidade da rede: Weight Decay Análise de Sensibilidade 11

Weight Decay Adiciona um termo denominado weight decay Usado para ajustar a complexidade da rede à dificuldade do problema; Se a estrutura da rede for muito complexa, pode-se remover alguns pesos sem aumentar o erro significativamente; o método fornece aos pesos uma tendência de se dirigir ao valor zero, reduzindo a sua magnitude um pouco a cada iteração. Weight Decay Adiciona um termo denominado weight decay E w( t) = η ( t) ρw( t) w onde 0 ρ<<1 Se δe/δw i =0 w i irá diminuir até zero; caso contrário, os dois termos irão se equilibrar em um certo ponto, evitando que w i 0 12

Weight Decay Adiciona um termo denominado weight decay E w( t) = η ( t) ρw( t) w onde 0 ρ<<1 Equivale a modificar a definição de E incluindo um termo de penalidade correspondente à magnitude dos pesos da rede. 1 E = 2 1 k 2 ( di yi) + i= 1 2 λ w 2 GENERALIZAÇÃO Análise de Sensibilidade da Saída: Retira-se uma variável de entrada ou elementos processadores; Treina-se novamente a rede; Verifica-se e variação do erro de saída. Se a retirada do elemento não causar grande variação a rede é pouco sensível a este elemento, podendo ser retirado sem perda da capacidade de modelar os dados. 13

Avaliação do Algoritmo Apesar do grande sucesso do Back Propagation, existem alguns problemas: definição do tamanho da rede; problema de paralisia da Rede Neural; problema de ficar preso em um mínimo local. Problema de Paralisia Com o treinamento, os pesos podem alcançar valores muito grandes (w ij ) F(net j ) A soma ponderada de cada processador torna-se também muito grande (net j = Σ x i.w ij + θ j ) F (net ) ~ 0 j w ijij ~ 0 A Rede Neural não consegue aprender net j Regiões de derivada aproximadamente zero 14

Problema de Paralisia Como evitar paralisia da Rede? Deve-se escolher valores de pesos e bias uniformemente distribuídos dentro de um intervalo pequeno; Os neurônios devem, inicialmente, operar na sua região linear; O número de processadores na(s) camada(s) escondida(s) deve ser pequeno. Avaliação do Algoritmo Apesar do grande sucesso do Back Propagation, existem alguns problemas: definição do tamanho da rede; problema de paralisia da Rede Neural; problema de ficar preso em um mínimo local. 15

Problema do Local De acordo com o método do gradiente Descendente, tem-se: w ji = η.s i.e j Taxa de aprendizado 0.05 η 0.75 A taxa de aprendizado não deve ser nem muito pequena treinamento lento, nem muito grande oscilações Problema do Local Erro (w) Partindo da posição inicial 1: η pequeno Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Posição Inicial 1 Erro mínimo Global Local w L1 Pesos 16

Problema do Local Erro (w) Partindo da posição inicial 1: η pequeno Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Posição Inicial 1 Posição 2 Erro mínimo Global Local w w L2 w L1 Pesos Problema do Local Erro (w) Partindo da posição inicial 1: η pequeno Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Posição j Erro mínimo Global w Lj Pesos 17

Problema do Local Erro (w) Partindo da posição inicial 1: η pequeno Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Qualquer pequena mudança faz o erro aumentar não consegue sair do vale Posição j Erro mínimo Global w Lj Pesos Problema do Local Com η pequeno, não é possível calcular um w que faça a a Rede Neural sair do Local. A Rede Neural não consegue aprender com a precisão especificada (Erro )! 18

Problema do Local Erro (w) Partindo da posição inicial 2: η grande Posição Inicial 2 Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G1 Global Pesos Problema do Local Erro (w) Partindo da posição inicial 2: η grande Pelo método do Gradiente Descendente Posição Inicial 2 Erro tende a diminuir com a atualização dos pesos Posição 2 Erro mínimo w w G1 w G2 Global Pesos 19

Problema do Local Erro (w) Partindo da posição inicial 2: η grande Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G2 Posição 2 w Posição 3 w G3 Global Pesos Problema do Local Erro (w) Partindo da posição inicial 2: η grande Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G3 Posição 3 w Posição 4 w G4 Pesos 20

Problema do Local Erro (w) Partindo da posição inicial 2: η grande Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo Posição 4 w Posição 5 w G4 w G5 As mudança não são suficientemente pequenas para levar a uma configuração de erro mínimo Global. Pesos Problema do Local Erro (w) Partindo da posição inicial 2: η adequado Posição Inicial 2 Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G1 Global Pesos 21

Problema do Local Erro (w) Partindo da posição inicial 2: η adequado Posição Inicial 2 Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Posição 2 Erro mínimo w w G1 w G2 Global Pesos Problema do Local Erro (w) Partindo da posição inicial 2: η adequado Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G2 Posição 2 w Posição 3 w G3 Global Pesos 22

Problema do Local Erro (w) Partindo da posição inicial 2: η adequado Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G3 Posição 3 w Gk Posição k Pesos Problema do Local Conclusões: Quando η é pequeno e dependendo da inicialização dos pesos (feita de forma aleatória), a Rede Neural pode ficar presa em um Local. Solução: Utilizar taxa de aprendizado (η ) adaptativa. 23

Problema do Local Conclusões: Quando η é grande, a Rede Neural pode nunca conseguir chegar ao Global pois os valores de w são grandes. Oscilações. Solução: Utilização do termo de Momento (α ). Termo de Momento (α ) Uma forma de diminuir a possibilidade de oscilações com valores de η maiores é incluir o Termo de Momento na atualização dos pesos sinápticos w ji (t+1) = η.s i.e j + α. w ji (t) Termo proporcional ao valor anterior de atualização do peso 0 < α < 0.9 24

Termo de Momento (α ) w ji (t+1) = η.s i.e j + α. w ji (t) Termo de Momento (α ) w ji (t+1) = η.s i.e j + α. w ji (t) 25

Termo de Momento (α ) w ji (t+1) = η.s i.e j + α. w ji (t) Termo de Momento (α ) w ji (t+1) = η.s i.e j + α. w ji (t) 26

Termo de Momento (α ) w 2 Situação 1: Ponto Inicial - A Global Corte na Superfície de Erro w 1 Termo de Momento (α ) w 2 Ponto Inicial - A A w(t) Global w 1 27

Termo de Momento (α ) w 2 A A Ponto Inicial - A w(t) -η E(t+1) + α w(t) Global w 1 Termo de Momento (α ) w 2 A A Ponto Inicial - A w(t) -η E(t+1) + α w(t) Global A e A estão na mesma direção α acelera o aprendizado w 1 28

Termo de Momento (α ) w 2 Situação 2: Ponto Inicial - B Global w 1 Termo de Momento (α ) w 2 Ponto Inicial - B w(t) B Global w 1 29

Termo de Momento (α ) w 2 Ponto Inicial - B α w(t) B -η E(t+1) B Global w 1 Termo de Momento (α ) w 2 Ponto Inicial - B α w(t) B -η E(t+1) B Global B e B estão em direções opostas α evita oscilações w 1 30

Termo de Momento (α ) Aprendizado em Batch sem Termo de Momento Termo de Momento (α ) Aprendizado em Batch com Term o de Momento 31

Termo de Momento (α ) Aprendizado em Batch com Term o de Momento Sim ulações com a mesm a configuração inicial de pesos Conforme α aumenta converge mais rápido (para valores pequenos) Conforme α aumenta mais pode oscilar Exemplo - Paridade 4 bits Rede 4/4/1, com treinamento em batch e tanh; Entradas ±1, target ±0.9 e pesos iniciais distribuídos [-0.5, +0.5]; η fixa de 0.001 a 10.0 (37 valores) e α de 0 a 0.99 (14 valores); 100 simulações para cada configuração; treinamento por no máximo 5000 iterações; convergência quando E MSE <0.001 ou se todos padrões erro < 0.2; paralisia se, entre epochs, E MSE < 10-12 ou se gradiente < 10-10 ; tempo de convergência Ti i Tavg = N convergiram Probabilidade de convergência N convergiram /100 32

Exemplo - Paridade 4 bits # epochs probabilidade de convergência Batch X Incremental Apresentação aleatória dos padrões Oscilações comuns. 33

Batch X Incremental Aprendizado Incremental 4-bits paridade, η=0.3 e α=0 mesm os pesos iniciais única rede que convergiu ICADEMO Formato de Entrada: 34

ICADEMO Formato de Saída: Vetor de 10 elementos binários dígito 1 dígito 2 dígito 0 Topologia: ICADEMO 1 0 0 0 35

Aplicação Prática Reconhecimento de Dígitos ICADEMO 36