Algoritmos de Aprendizado. CONTEÚDO Introdução Motivação, Objetivo, Definição, Características Básicas e Histórico. Regra de HEBB.

CONTEÚDO Introdução Motivação, Objetivo, Definição, Características Básicas e Histórico Conceitos Básicos Neurônio Artificial, Modos de Interconexão Processamento Neural Recall e Learning Regras de Aprendizado Regra de Hebb, Perceptron, Back Propagation, Hopfield, Competitive Learning, RBF, etc. Algoritmos de Aprendizado Regra de Hebb Perceptron Delta Rule (Least Mean Square) Back Propagation Radial Basis Functions (RBFs) Competitive Learning Hopfield Declaração de Hebb: Quando um axônio de uma célula A está próximo o suficiente de excitar a célula B e repetidamente ou persistentemente participa da ativação desta, um processo de crescimento ou mudança metabólica ocorre em uma ou ambas as células, de tal forma que a eficiência de A em ativar B é aumentada Declaração de Hebb: Quando um axônio de uma célula A está próximo o suficiente de excitar a célula B e repetidamente ou persistentemente participa da ativação desta, um processo de crescimento ou mudança metabólica ocorre em uma ou ambas as células, de tal forma que a eficiência de A em ativar B é aumentada Portanto, a cada apresentação do padrão a saída fica mais reforçada. 1

Em termos práticos: Se dois neurônios em cada lado de uma sinápse (conexão) são ativados simultaneamente (sincronamente), então a força daquela sinápse deve ser aumentada. Se dois neurônios em cada lado de uma sinápse são ativados assincronamente, então aquela sinápse dever ser enfraquecida. Conclusão: A modificação na sinápse tem relação com a correlação entre as atividades pré-sinápticas e pós-sinápticas sinápticas. correlação + o valor do peso aumenta correlação - o valor do peso diminui A saída é reforçada a cada apresentação do padrão padrões freqüentes entes terão maior influência no vetor de pesos do neurônio. Algoritmos de Aprendizado atividade pré-sináptica atividade pós-sináptica PE i w ji s i PE j s j Os algoritmos podem ser definidos através das seguintes características: w ji = η s i.s j Hebbian Learning Rule 0 < η< 1 taxa de aprendizado Mecanismo dependente do tempo A informação está disponível localmente Regra de Propagação Função de Ativação Topologia Regra de Aprendizado - w 2

Algoritmos de Aprendizado Regra de Hebb Perceptron Delta Rule (Least Mean Square) Back Propagation Radial Basis Functions (RBFs) Competitive Learning Hopfield Padrão de Entrada: vetor X Perceptron Na sua forma mais simples o modelo do processador consiste de: x i +1 w j1 w j2 w ji Bias = θ j net j s j Perceptron Análise Geométrica Características Básicas: Regra de Propagação net j = Σ x i.w ji + θ j Função de Ativação Degrau Topologia Uma única camada de processadores. Algoritmo de Aprendizado Supervisionado: (geralmente) w ji = η.x i.(t j -s j ) Valores de Entrada/Saída Binários {-1,1} w x u j = net j = x. w = x w cos θ Hiperplano definido por w Projeção de x sobre w todas as entradas x com a mesma projeção sobre w produzem a mesma saída y j A saída y j é uma função da distância de x ao hiperplano definido por w 3

Análise Geométrica Análise Geométrica Logo, superfícies de saída constante são hiperplanos perpendiculares a w Σ i w i x i = 0 define um hiperplano passando pela origem Incluindo o bias Σ i w i x i + θ j desloca-se o hiperplano da origem Análise Geométrica Função de Ativação controla como a saída y varia com a distância de x ao hiperplano definido por w Algoritmo de Aprendizado Iniciar os pesos sinápticos com valores randômicos e pequenos; Aplicar um padrão de entrada, com seu respectivo valor desejado de saída (t j ), e verificar a saída da rede (s j ); Calcular o erro na saída: e j = t j -s j (geralmente) Se e j = 0, voltar ao passo 2; Função Degrau divide o espaço de entrada com um hiperplano Função Sigmoid transição suave δy/δx = f (net) w Se e j 0, atualizar os pesos: w ji = η.x i.e j Voltar ao passo 2. 4

Algoritmo de Aprendizado Outras regras simples de aprendizado: (como t,y {-1, +1}, todas são equivalentes) w ji = 2.η.t j.x i se t j y j 0 caso contrário w ji =η.(1 - t j.y j ). t j.x i Algoritmo de Aprendizado IMPORTANTE: não ocorre variação no peso se a saída estiver correta; caso contrário, cada peso é incrementado de 2η quando a saída é menor que o target e decrementado de 2η quando a saída é maior que o target. w ji =η.(t j. - y j ).x i Rosenblatt (1962) provou que: Uma rede Perceptron é capaz de Aprender tudo que puder Representar. Representação refere-se à habilidade do sistema neural de representar (simular) uma função específica. Aprendizado refere-se à existência de um procedimento sistemático de aquisição de conhecimento (ajuste dos pesos), de forma a produzir a função desejada Minsky & Papert provaram (Perceptrons 1969) que existem sérias restrições sobre o que as redes Perceptron são capazes de Representar. Por exemplo, as redes Perceptron NÃO são capazes de Representar a função OU-Exclusivo 5

-w 1 w 2 PONTO X 1 X 2 Saída A 0 0 0 0 A 1 0 1 1 1 0 1 1 1 0 -θ Região de s = 0 Região de s = 1 w 1 w 2 F(net) saída: s De acordo com a definição do neurônio: s = F( w 1 + w 2 + θ ) net = w 1 + w 2 + θ Função Degrau A rede Perceptron divide o plano X 1 x X 2 em duas regiões (através da reta net) Se net 0 s = 1 Se net < 0 s = 0 Conclusão: mudando-se os valores de w 1, w 2 e θ, muda-se a inclinação e a posição da reta. Entretanto, é impossível achar uma reta que divida o plano de forma a separar os pontos A 1 e de um lado e A 0 e de outro. Redes de 1 única camada só representam funções linearmente separáveis! Função AND Função OR Minsky & Papert provaram que este problema pode ser solucionado adicionando-se uma outra camada intermediária de processadores. Multi-Layer Perceptrons Função OU-Exclusivo 6

Exemplo: +1 Observação: -1.5 +1 w 1 w j1 = -2 θ j = -0.5 1 s w 1 21 w -0.5 s 12 j w s 2 w j2 =+1 22 w 11 = w 12 = w 21 = w 22 = +1 s j = 1 s 1 w j1 + s 2 w j2 + θ j 0-2s 1 + s 2-0.5 0-2s 1 + s 2 0.5 s 1 é inibitório s 2 é excitatório s 2 Região de s 1 = 1 s1 Região de s 2 = 0 Região de s j = 1 Redes Neurais de múltiplas camadas só oferecem vantagens sobre as de uma única camada se existir uma função de ativação não-linear entre as camadas! Em termos vetoriais: Camada Escondida NET 1 = S I. W 1 S 1 = k 1 NET 1 Camada de Saída S 2 = k 2 NET 2 = k 2 (S 1.W 2 ) S 2 = k 2 [(k 1 NET 1 ) W 2 ] S 2 = k 2 [(k 1 S I W 1 ) W 2 ] S 2 = k 2 k 1 (S i W 1 ) W 2 S 2 = K. S I. (W 1.W 2 ) S 2 = K. S I. W Equivalente a uma única camada 7