3. REDES DE CAMADA ÚNICA Perceptron Forma mais simples de RN Utilizado para classificação de padrões (linearmente separáveis) Consiste em um único neurônio, com pesos sinápticos ajustáveis e bias 3.1 Funções Discriminantes Lineares a) Para Duas Classes de Padrões Função discriminante: y(x) = w T x + w 0 Onde: w T = Vetor de pesos w 0 = Bias Se: y(x) > 0, então x pertence a C 1 y(x) < 0, então x pertence a C 2 A fronteira entre as duas classes é chamada de hiperplano. Saída y w 0 w 1 w m Bias... x 0 x 1 x m 22
x 2 Classe C 1 Classe C 2 0 x 1 Fronteira de decisão (hiperplano) b) Para diversas classes: A equação anterior pode ser facilmente adaptada para a divisão dos padrões em k classes: ou, y k (x) = w T x + w k0 y k (x) = Σ w ki. x i + w k0 onde x pertence à classe C k se y k (x) > y j (x) para todo j k. y 1 Saídas... y c Bias x 0 x 1... x m 23
c) Discriminante Logístico: Neste caso: y= g(a) = 1/(1 + exp(-a)) Onde: a = w T x + w 0 Pode-se adotar: g(a) = 0, quando a<0 1, quando a>= 0 3.2 Separabilidade Linear Até o momento fronteiras de decisão separadas por retas ou hiperplanos Limitação das redes de apenas uma camada 24
Caso do OU exclusivo (XOR): Seja o vetor de entradas X: 0 0 0 1 X = 1 0 1 1 sendo que para: x = (0,0) ou (1,1) pertence C 1 x = (0,1) ou (1,0) pertence C 2 x 2 C 2 C 1 C 1 C 2 Não há como dividir as classes com hiperplanos (retas). x 1 3.3 Algoritmo do Mínimo Quadrado Médio (LMS) Treinamento das redes de camada única Minimização da função de custo, ou seja, da soma dos erros quadráticos (instantâneos!) 25
E(w) = ½. e 2 (n) onde e(n) é o sinal de erro medido no tempo n. Tendo-se como sinal de erro: e(n) = d(n) x T (n) w(n) Pode-se chegar então aos valores de estimativa dos pesos sinápticos: w(n+1) = w(n) + η. x(n). e(n) onde η é a taxa de aprendizado. Geralmente, o algoritmo LMS converge com valores de taxa de aprendizado: 0< η < 2/tr[R x ] onde tr[r x ] é o traço da matriz de correlação. Obs: Traço é a soma dos elementos da diagonal principal de uma matriz. Assim, tr[r x ] será igual à soma dos valores médios quadráticos das entradas sensoriais. 26
Vantagens deste algoritmo: - Simples; - Independente de modelo; - Robusto (suporta pequenas perturbações) Limitações: - Taxa de convergência lenta; - Sensibilidade a variações na auto-estrutura da entrada (auto-valores da matriz de correlação R). Ao invés de manter η constante ao longo de todo o processo de treinamento, pode-se fazer: a) η(n) = c/n, onde c é uma constante. Mas, cuidado: η pode disparar para n pequeno! b) η(n) = η 0 /[1+(n/τ)], onde η 0 e τ são constantes definidas pelo usuário. 3.4 O Perceptron (ou Perceptron de Rosenblatt) Construído em torno de um neurônio não linear. x 1 x 2 w 2 w 1 Bias, b v ϕ(v) Saída y Limitador abrupto x m w m 27
v = Σ w i.x i + b y = ϕ (v) = +1, se o ponto pertencer à classe C 1 = -1, se o ponto pertencer à classe C 2 Através do Teorema de Convergência do Perceptron, chega-se aos ajustes dos pesos sinápticos: w(n+1) = w(n) + η [ d(n) y(n)]. x(n) onde: η é a taxa de aprendizado (0<η<=1) d(n) y(n) pode ser considerado o sinal de erro. 28
3.5 Perceptron x Algoritmo LMS Diferenças entre Filtro com Algoritmo LMS e Perceptron de camada única baseado em aprendizado por correção de erro: - Algoritmo LMS Utiliza neurônio linear Ocorre aprendizagem contínua (acontece enquanto o processamento do sinal está sendo realizado, ou seja, nunca acaba) - Perceptron Usa modelo formal de um neurônio de McCulloch-Pitts; Processo de aprendizado com um número finito de iterações. 29