3. REDES DE CAMADA ÚNICA

3. REDES DE CAMADA ÚNICA Perceptron Forma mais simples de RN Utilizado para classificação de padrões (linearmente separáveis) Consiste em um único neurônio, com pesos sinápticos ajustáveis e bias 3.1 Funções Discriminantes Lineares a) Para Duas Classes de Padrões Função discriminante: y(x) = w T x + w 0 Onde: w T = Vetor de pesos w 0 = Bias Se: y(x) > 0, então x pertence a C 1 y(x) < 0, então x pertence a C 2 A fronteira entre as duas classes é chamada de hiperplano. Saída y w 0 w 1 w m Bias... x 0 x 1 x m 22

x 2 Classe C 1 Classe C 2 0 x 1 Fronteira de decisão (hiperplano) b) Para diversas classes: A equação anterior pode ser facilmente adaptada para a divisão dos padrões em k classes: ou, y k (x) = w T x + w k0 y k (x) = Σ w ki. x i + w k0 onde x pertence à classe C k se y k (x) > y j (x) para todo j k. y 1 Saídas... y c Bias x 0 x 1... x m 23

c) Discriminante Logístico: Neste caso: y= g(a) = 1/(1 + exp(-a)) Onde: a = w T x + w 0 Pode-se adotar: g(a) = 0, quando a<0 1, quando a>= 0 3.2 Separabilidade Linear Até o momento fronteiras de decisão separadas por retas ou hiperplanos Limitação das redes de apenas uma camada 24

Caso do OU exclusivo (XOR): Seja o vetor de entradas X: 0 0 0 1 X = 1 0 1 1 sendo que para: x = (0,0) ou (1,1) pertence C 1 x = (0,1) ou (1,0) pertence C 2 x 2 C 2 C 1 C 1 C 2 Não há como dividir as classes com hiperplanos (retas). x 1 3.3 Algoritmo do Mínimo Quadrado Médio (LMS) Treinamento das redes de camada única Minimização da função de custo, ou seja, da soma dos erros quadráticos (instantâneos!) 25

E(w) = ½. e 2 (n) onde e(n) é o sinal de erro medido no tempo n. Tendo-se como sinal de erro: e(n) = d(n) x T (n) w(n) Pode-se chegar então aos valores de estimativa dos pesos sinápticos: w(n+1) = w(n) + η. x(n). e(n) onde η é a taxa de aprendizado. Geralmente, o algoritmo LMS converge com valores de taxa de aprendizado: 0< η < 2/tr[R x ] onde tr[r x ] é o traço da matriz de correlação. Obs: Traço é a soma dos elementos da diagonal principal de uma matriz. Assim, tr[r x ] será igual à soma dos valores médios quadráticos das entradas sensoriais. 26

Vantagens deste algoritmo: - Simples; - Independente de modelo; - Robusto (suporta pequenas perturbações) Limitações: - Taxa de convergência lenta; - Sensibilidade a variações na auto-estrutura da entrada (auto-valores da matriz de correlação R). Ao invés de manter η constante ao longo de todo o processo de treinamento, pode-se fazer: a) η(n) = c/n, onde c é uma constante. Mas, cuidado: η pode disparar para n pequeno! b) η(n) = η 0 /[1+(n/τ)], onde η 0 e τ são constantes definidas pelo usuário. 3.4 O Perceptron (ou Perceptron de Rosenblatt) Construído em torno de um neurônio não linear. x 1 x 2 w 2 w 1 Bias, b v ϕ(v) Saída y Limitador abrupto x m w m 27

v = Σ w i.x i + b y = ϕ (v) = +1, se o ponto pertencer à classe C 1 = -1, se o ponto pertencer à classe C 2 Através do Teorema de Convergência do Perceptron, chega-se aos ajustes dos pesos sinápticos: w(n+1) = w(n) + η [ d(n) y(n)]. x(n) onde: η é a taxa de aprendizado (0<η<=1) d(n) y(n) pode ser considerado o sinal de erro. 28

3.5 Perceptron x Algoritmo LMS Diferenças entre Filtro com Algoritmo LMS e Perceptron de camada única baseado em aprendizado por correção de erro: - Algoritmo LMS Utiliza neurônio linear Ocorre aprendizagem contínua (acontece enquanto o processamento do sinal está sendo realizado, ou seja, nunca acaba) - Perceptron Usa modelo formal de um neurônio de McCulloch-Pitts; Processo de aprendizado com um número finito de iterações. 29