Aprendizagem de Máquina

Transcrição

1 Aprendizagem de Máquina Modelos de classificação por Redes Neurais Artificiais Prof. Paulo Martins Engel Motivação Classificadores baseados em representação simbólica (AD, RD,...) estão limitados a particionar o domínio utilizando retas (planos) alinhadas com os eixos do espaço de características. Entretanto, se utilizarmos representação não-simbólica, podemos relaxar esta limitação. A Redes Neurais Artificiais paticionam o espaço com linhas (superfícies) de qualquer formato. Categorias de problemas: lógicos linearmente separáveis não-linearmente separáveis

2 Problema Lógico com ruído Problema LS Problema NLS Solução por MLP Conceitos básicos de Redes Neurais As Redes Neurais Artificiais (RN) são sistemas físicos celulares que podem adquirir, armazenar e utilizar conhecimento extraído da experiência, por meio de algoritmos de aprendizagem. O conhecimento está na forma de mapeamentos incorporados numa rede de processadores simples, os neurônios artificiais, interligados por elos que possuem parâmetros ajustáveis, os pesos sinápticos, que controlam a intensidade das conexões. A computação por RN é realizada por uma densa malha de nós processadores e conexões. O elemento processador básico é o neurônio artificial.

3 Conceitos Topologia da rede: grafo direcionado rotulado, determina a conectividade da rede. Neurônio: função elementar (nó). Calcula um valor de saída, função dos valores de entrada do nó e dos pesos sinápticos correspondentes. Conexão: determina um caminho para o fluxo de informação entre dois nós (elo). Peso sináptico: determina a força de conexão entre dois nós da rede (rótulo). Funcionalidade da rede: composição das funções elementares determinada pela conectividade da rede. Topologia da Rede Uma rede com apenas uma única camada de neurônios só consegue resolver problemas linearmente separáveis. w 0 x 0 w y x 0 x w w w 0 y x x i i i 0 3 y x w x 0 Pode-se provar que uma rede neural multicamadas, com pelo menos uma camada oculta de neurônios, além da camada de saída, é um classificador universal, ou seja, pode resolver problemas não-linearmente separáveis. Na verdade, a prova é mais genérica, mostrando que uma rede multicamadas pode aproximar qualquer função (de valor discreto ou contínuo), ou seja, é um aproximador universal de funções.

4 Exemplo de uma rede multicamadas peso sináptico sinal intermediário sinal de entrada neurônio x x conexão x x camada de entrada w o w o w o w o w o 3 w o 3 w o 4 w o i i i 3 i 4 camada oculta w s w s w s 3 w s 4 w s w s w s 3 w s 4 camada de saída y y sinal de saída Fluxo do processamento (propagação) Funcionalidade: [y y ] T = F(x, x ) Funcionalidade de uma RN sinal de entrada x y x y sinal de saída sinal de entrada x F y x y Funcionalidade: [y y ] T = F(x, x ) Mapeamento sinal de saída

5 Mais conceitos A topologia da rede determina uma funcionalidade genérica adequada para uma certa classe de aplicações. A funcionalidade específica (mapeamento) de uma RN depende dos valores dos seus pesos sinápticos. Os valores dos pesos sinápticos são ajustados ao problema específico através de procedimentos iterativos de treinamento (processo de aprendizagem indutiva). Para o processo de aprendizagem é necessário se dispor de um conjunto de exemplos do mapeamento desejado (aprendizagem supervisionada). Alternativamente, uma RN pode ser treinada para extrair o modelo de um conjunto de dados de forma autônoma (aprendizagem não-supervisionada). Computação realizada por uma RN O mapeamento que uma rede neural implementa pode envolver valores binários de saída, ou então valores contínuos. No primeiro caso, normalmente o conjunto de saídas binárias da rede é interpretado como rótulo de classe e a RN desempenha o papel de um classificador. No segundo caso, a rede atua como um regressor, fornecendo estimativas de valores do mapeamento aprendido (os valores de saída correspondentes a valores apresentados na entrada). Normalmente, os valores de entrada para a rede devem pertencer a um intervalo numérico adequado previamente definido, o que usualmente exige algum tipo de pré-processamento dos valores do domínio da aplicação.

6 Conceitos básicos da lógica de limiar A funcionalidade básica de um neurônio artificial é a de uma porta lógica genérica da lógica de limiar (LTU, Logic Threshold Unit ou perceptron). Considere o elemento computacional abaixo (neurônio artificial binário) cujo valor de saída depende do valor (u) da soma ponderada entre as entradas do neurônio e os seus pesos (sinápticos). No modelo binário, o valor de saída corresponde ao resultado da comparação de u com um limiar z. A operação de comparação é modelada por uma função de ativação, (u). Em geral, cada neurônio artificial tem uma entrada extra utilizada para ajustar o seu limiar. O valor default do limiar de um neurônio é zero. x x : x m w w : w m u z u > z y y = m u = w j x j j = se u > z 0 se u z Implementação de funções booleanas por perceptrons Um neurônio artificial é uma porta lógica universal que pode implementar as diversas funções booleanas elementares, que formam a base da lógica booleana, apenas alterando o seu conjunto de pesos e limiar: A B + + u 0 u > z y A B u y A B AB A B + + u + u > z y A B u y + A B AB

7 A superfície de decisão do perceptron A funcionalidade do perceptron equivale a uma tomada de decisão segundo uma superfície de decisão linear no espaço de entrada. Isto se deve ao fato de que a soma ponderada na entrada do perceptron representa uma reta, no espaço bidimensional, um plano no espaço 3-D, e um hiperplano em espaços de alta dimensionalidade. x() x() x(3) x(4) x x z OU (0,+) (0, 0) x (+,+) (+, 0) x x x w w u u > z y y = se u > z 0 se u z w x + w x z = 0 Classificação de padrões por um perceptron A classificação é uma tarefa de previsão, que consiste em mapear (classificar) um determinado item, representado por um vetor de características (de entrada), para uma entre várias classes pré-definidas. Inicialmente, é necessário construir o classificador que implementa a função de mapeamento dos vetores de entrada para os rótulos numéricos de saída. No caso de um problema de classificação linear, o classificador pode ser implementado por um perceptron elementar. Neste caso, o mapeamento desejado se dá por aprendizado a partir de um conjunto de treinamento, com itens previamente classificados. Para problemas de classificação não linear o modelo de rede neural mais indicado é o perceptron de múltiplas camadas (MLP), que implementa um classificador universal. Quando o valor de saída do perceptron é contínuo, a sua funcionalidade é de um aproximador universal de funções.

8 Resolução gráfica do problema de classificação Dada a solução geométrica abaixo, determine os pesos do perceptron que implementa esta solução Mau Bom Renda z Renda w Dívida w u u > z y y = se u > z 0 se u z O treinamento de um perceptron Uma das formas mais eficientes de se ajustar os pesos de um perceptron é através do algoritmo do mínimo quadrado médio, ou least mean square (LMS). O algoritmo LMS é um processo iterativo no qual, a cada instante discreto de tempo n, um dos vetores de treinamento, representado por x(n), é propagado através do neurônio gerando a saída correspondente y(n). O erro quadrado instantâneo na saída é então calculado, correspondente à diferença entre o valor desejado d e a saída obtida y(n), representado por: e (n) = ((d(n) -y(n)) O vetor de pesos é então ajustado de modo a diminuir e (n): w(n + ) = w(n) + e(n).x(n) O processo é repetido para todos os vetores de treinamento. A apresentação do conjunto completo de treinamento é denominada de época. O processo de apresentação de vetores de treinamento e ajuste de pesos é repetido por várias épocas até que o erro médio quadrado se torne suficientemente pequeno ou então que ele não se modifique mais.

9 O método da decida mais íngreme O algoritmo LMS se baseia na minimização de uma função de custo E(w), proporcional ao erro quadrático instantâneo: E(w) = e (n) E(w) representa uma superfície de erro no espaço dos pesos. Os pesos são ajustados de modo que o erro quadrático instantâneo e (n) diminua. Isto é feito ajustando-se os pesos na direção oposta ao vetor gradiente E(w). O gradiente E(w) é um vetor composto pelas derivadas parciais da função de erro (quadrático) em relação a cada peso. Para um determinado valor de w, E(w) aponta na direção de máximo crescimento do erro. E(w) E(n) w(n) Ajustando-se os pesos na direção de E(w) nós estaremos nos deslocando na direção da descida mais íngreme da superfície de erro. O método da descida mais íngreme é um processo iterativo que, a partir de um ponto inicial sobre a superfície de erro, procura o mínimo global, modificando os pesos a cada iteração na direção do gradiente descendente, E(w). E(w) E(w) min E() E(n) E(w) E(n+) w w * w * w Com base neste método, o ajuste de pesos é feito pela expressão: w(n + ) = w(n) E(w) onde é o parâmetro da taxa de aprendizagem, que determina o passo da descida.

10 Exemplo de cálculo do gradiente Se considerarmos o erro em relação à saída linear: E( w) n d ( n) y( n) d( n) w( n) x( ) Com isso, o gradiente é calculado como: E(w) = e(n)x(n) Assim, o ajuste de pesos é feito pela expressão: w(n + ) = w(n) E(w) = w(n) + e(n).x(n) onde é o parâmetro da taxa de aprendizagem, que determina o passo da descida. Se considerarmos o erro em relação à saída não-linear, aplicando a função de ativação (.), o cálculo do gradiente resulta na multiplicação pela derivada da função de ativação: E(w) = e(n) (u)x(n) Hipóteses LMS e ML Supomos que a tarefa seja aprender uma função desconhecida do espaço das instâncias (X) para o conjunto dos números reais (R), f : X R, considerando um espaço de hipóteses H, consistindo de funções h : X R A tarefa do algoritmo de aprendizagem L é aprender f, dado H. Para tanto, dispõe-se de um conjunto de m exemplos na forma {x i, d i } onde o valor alvo d i de cada exemplo está corrompido por um ruído aleatório, e obedecendo uma distribuição normal com desvio padrão centrada no valor alvo f(x i ), ou seja: di f ( xi ) ei d x f( ) d (x, d ) e (x 3, d 3 ) e (x 5, d 5 ) e 3 (x, d ) e5 e 4 (x 4, d 4 ) f(x) x

11 Hipóteses LMS e ML Mostraremos que uma hipótese que minimiza a soma dos erros quadráticos (h LMS ) é também uma hipótese de máxima verossimilhança (h ML ). Uma hipótese de máxima verossimilhança é aquela que maximiza a probabilidade de o conjunto de dados de treinamento (D) ter sido gerado por ela, ou seja: h ML arg max p( D h) hh Supondo que as instâncias de treinamento sejam mutuamente independentes dado h, podemos escrever P(D h) como o produto dos p(d i h) de cada instância: h ML arg max hh m i p( d i h) onde m é o tamanho do conjunto de treinamento. Hipóteses LMS e ML Como assume-se que o ruído e i é normal com média zero e variância desconhecida, cada d i deve obedecer também a uma distribuição normal com variância centrada no valor alvo f(x i ), ao invés do zero. Como p(d i h) expressa a probabilidade de d i dado que uma determinada hipótese h seja a descrição correta para a função alvo f, esta probabilidade será uma distribuição normal de média = f(x i ) = h(x i ) e variância desconhecida. Com isso, a hipótese ML pode ser escrita como: h ML arg max hh exp m i i Alternativamente, podemos maximizar o logaritmo desta expressão: d h( xi ) h ML arg max hh m i ln d i h( xi )

12 h ML Hipóteses LMS e ML arg max hh Como o primeiro termo é uma constante, independente da hipótese h, ele pode ser descartado: h ML h ML m i hh ln arg max arg min hh m i m di h( xi ) i d i h( xi ) Descartando também as constantes independentes de h, e lembrando que a maximização de uma quantidade negativa é equivalente à minimização da quantidade positiva correspondente, obtemos: d i h( xi ) Esta expressão mostra que a hipótese da máxima verossimilhança h ML é aquela que minimiza a soma dos erros quadráticos entre os valores de treinamento d i e as predições da hipótese h(x i ) Exemplo de ajuste de curva Considere o problema de ajustar os parâmetros de um polinômio de certa ordem (M) por minimização da soma do erro quadrático: h( x, w) w w x w x w 0 O ajuste dos pesos do polinômio ocorre por minimização da função de custo: N E( w) h( x n, w) t n n A figura mostra um conjunto de treinamento com N = 0 pontos constituídos da observação da variável de entrada x, e da variável alvo correspondente, t. A curva verde mostra a função sin(x) usada para gerar os dados. M x M M j0 w j x j

13 Exemplo de ajuste de curva Gráficos de polinômios de várias ordens M, em vermelho, ajustados ao conjunto de dados. Função de custo regularizada Uma forma de diminuir o sobre ajuste em funções com muitos parâmetros é adicionar um termo de regularização, que penaliza valores elevados dos parâmetros, diminuindo, na prática, o número efetivo de parâmetros do modelo. onde: N E( w) h( x n, w) t n w w n w T w w 0 w w Resultado de ajuste de um polinômio de ordem M = 9, usando função de erro regularizada com diferentes valores de. M

14 A função de ativação Como o algoritmo LMS se baseia no cálculo do gradiente do erro, isto implica que a função de ativação, (v) do neurônio deve ser contínua. Em particular, são usadas as funções contínuas em forma de S, chamadas sigmóides, que são limitadas na saída a valores nos intervalos [-, ] ou [0, ]. Exemplos de funções sigmóides são a tangente hiperbólica, tanh(v), limitada ao intervalo [-, ], e a função logística, no intervalo [0, ]. (v) a = 0 (v) a = 0 a = a = v (v) = + exp( av) v (v) = tanh(av) Função logística Regressão: o Adaline Prof. Paulo Martins Engel O Adaline, Adaptive Linear Element, é o modelo neural elementar de regressão. O Adaline é composto de um combinador linear adaptavio, CLA, e de uma função de ativação contínua (sigmóide). Como o elemento adaptativo do ADALINE é o CLA, podemos definir o erro linear instantâneo do ADALINE como sendo relativo à saída do CLA. Dadas amostras (x, d ), (x, d ),, (x k, d k ),, (x L, d L ), de alguma função que mapeie vetores de entrada x(i) para os valores desejáveis na saída d(i), desejamos determinar o melhor vetor de pesos w* para um CLA realizar este mapeamento. + x k w w 0 CLA x k w v k (.) y k Para um vetor x k particular na entrada podemos definir o erro linear instantâneo relativo à saída do CLA: e k = d k v k com : v k = w T.x k 8

15 Erro Quadrático Médio (EQM) Prof. Paulo Martins Engel O melhor vetor de pesos será aquele para o qual resulta o menor erro médio, considerando todo o conjunto de treinamento. Define-se como Erro Quadrático Médio (EQM), em um instante k, o valor médio dos erros quadráticos instantâneos de um conjunto de combinadores lineares adaptativos, CLA, todos com o mesmo vetor de pesos instantâneos w k. Cada CLA terá um vetor de entrada x k e a resposta desejada correspondente d k escolhidos ao acaso, de uma população estatisticamente estacionária. Com isso, para cada CLA pode-se definir: Erro instantâneo quadrado: e k = (d k v k ) Considerando-se que o vetor de pesos varie a cada iteração: v k = w kt.x k Com isso, e k = d k d k w kt.x k + w kt.x k x kt.w k Calculando a média sobre o conjunto, define-se o EQM no instante k ( k ): E k < e k >= <d k > < d k x kt >.w k + w kt. < x k x kt >.w k Sendo < > o operador valor esperado = L L k f k 9 Prof. Paulo Martins Engel Expressão do Erro Quadrático Médio Definindo-se o vetor p como a correlação cruzada entre a resposta desejada d (escalar) e o vetor x : p T < d k x kt > = < d k, d k x k,..., d k x nk > T e a matriz de correlação das entradas R definida em termos da média em relação aos conjuntos de ALC: R < x k x kt > R = x k... x nk x k x k x k... x k x nk x nk x nk x k... x nk x nk < > Com isso o MSE no instante k pode ser expresso como: E k < e k >= < d k > p T.w k + w kt. R.w k 30

16 Prof. Paulo Martins Engel Análise da função EQM do ADALINE A expressão do EQM como função dos pesos define uma superfície parabolóide convexa, sempre positiva, com um mínimo global: E k < e k >= < d k > p T.w k + w kt. R.w k E E min w w * w * w 3 Prof. Paulo Martins Engel Determinação do mínimo global da função EQM A posição do mínimo global do EQM pode ser determinada diretamente encontrando o valor de w* que corresponde ao gradiente nulo da função. E k = < e k > = < d k > p T.w k + w kt. R.w k O gradiente do EQM é encontrado por diferenciação, resultando em uma função linear dos pesos: k E E k w k = p + R w k O vetor de pesos ótimo w*, é encontrado igualando o gradiente a zero: Rw* p = 0 Resolvendo para w*, obtém-se a equação de Wiener-Hopf: w* = R p Substituindo esta expressão de w* na expressão do EQM encontramos a expressão do EQM mínimo: E min = < d k > p T.w* 3

17 O perceptron de múltiplas camadas (MLP) A solução para problemas não-linearmente separáveis está baseada na rede MLP (Multilayer Perceptron), ou perceptron de múltiplas camadas, que apresenta uma organização topológica em pelo menos 3 camadas: Camada de entrada: composta de neurônios sensoriais; distribui o vetor de entrada para todos os neurônios da camada oculta; Camada oculta: composta de neurônios computacionais; realiza um mapeamento intermediário do problema, gerando vetores linearmente separáveis para a camada de saída; Camada de saída: composta de neurônios computacionais; realiza rotulação das classes ou o mapeamento desejado. Alternativamente, o mapeamento intermediário do problema pode ser realizado por sucessivas camadas ocultas. Pode-se provar que qualquer problema pode ser solucionado por um MLP de 3 camadas, com um número suficiente de neurônios na camada oculta. A topologia do Perceptron de Múltiplas Camadas MLP Camada de entrada Camada oculta x 0 = i 0 = Camada de saída x (n) x (n) i (n) y (n) d (n) x(n) x i (n) i x i (n) w o j w o ji w o j0 j i j (n) w s k w s kj w s k0 k y k (n) d k (n) w o jn w s kl x N (n) N x N (n) L i L (n) M y M (n) d M (n) i j (n) : valor de saída do neurônio genérico (j) da camada oculta gerado por x(n). y k (n): valor de saída do neurônio genérico (k) da camada de saída gerado por x(n). d k (n): valor de saída desejado do neurônio k correspondente a x(n). w o ji e w s kj : pesos genéricos da camada oculta e de saída, respectivamente.

18 O processamento de informação na rede MLP O processamento de informação em MLPs acontece em duas fases: A fase de propagação, onde o sinal de entrada é propagado através de toda a rede, camada por camada. Esta fase é responsável pela atuação da rede e, portanto, ocorre on-line. A fase de adaptação, onde ocorrem os ajustes dos pesos da rede. Nesta fase, o fluxo de informação se dá da camada de saída em direção à camada de entrada. As diferenças entre os valores de saída da rede e os valores desejados causam parcelas individuais de erro para cada neurônio, que são usadas para corrigir os pesos, segundo o algoritmo backpropagation. Esta fase é utilizada apenas durante o treinamento da rede, que é realizado offline, ou seja, sem que a rede atue no ambiente. Representação da saída e regra de decisão O problema de classificar um vetor numa determinada classe C k entre M classes possíveis, para o qual a união das M classes distintas forma o espaço de entrada, requer M saídas para representar todas as possíveis decisões de classificação. y,j x j MLP y k,j Se o MLP for treinado com a função logística para os neurônios de saída e com os valores das saídas desejadas correspondendo à rotulação binária: y M,j d kj se x j C k 0 se x j C k Então, após o treinamento, quando um vetor x for propagado pela rede, o valor de um nó de saída, y k, corresponde à probabilidade a posteriori que x pertença a classe C k, isto é, P(C k x).

19 Desta forma, cada nó de saída do MLP apresentará um valor que é uma estimativa de probabilidade a posteriori que o vetor de entrada pertença à classe respectiva. Com isso, nós podemos utilizar a regra de Bayes para decidir a que classe o vetor de entrada pertence. A regra de Bayes decide a classificação de um vetor pela máxima estimativa da probabilidade a posteriori. Esta regra é utilizada nos classificadores estatístico por máxima verossimilhança. Então, considerando que um vetor x foi propagado através de um MLP treinado segundo as condições descritas anteriormente, gerando as saídas da rede y (x), y (x),, y j (x),, y M (x), a regra de classificação em uma das M classes possíveis pode ser expressa como: Classifique o vetor x como pertencente a C k se y k (x) > y j (x) para todo j k O algoritmo Backpropagation Os MLP são treinados pelo algoritmo de retropropagação de erros, que é baseado na regra delta de aprendizado por correção de erro [Paul Werbos 74]. O algoritmo Backprop pode ser visto como uma generalização do algoritmo LMS (Least Mean Square) desenvolvido para um único neurônio. Como existem vários neurônios na camada de saída, deve-se definir a soma instantânea dos quadrados dos erros em cada nó de saída da rede, E(n), quando o n-ésimo vetor de treinamento x(n) é apresentado na entrada da rede: M E(n)= e k= k(n) Com o erro quadrado instantâneo na unidade k de saída definido por: e k (n)= (d k (n) y k (n) ) e k é o erro numa unidade de saída k, quando o vetor x(n) é propagado pela rede: e k (n)= d k (n) y k (n) d k (n) é a saída desejada, correspondente a x(n), e y k (n) é a saída instantânea obtida no neurônio de saída k, pela propagação de x(n).

20 Resumo do treinamento BP. Inicializar os pesos com valores arbitrários não nulos.. Apresentar um padrão de entrada x(n) e propagá-lo até a saída da rede. 3. Calcular os erros instantâneos na saída da rede, e k (n). 4. Calcular os gradientes locais dos neurônios da camada de saída, s k(n). 5. Ajustar os pesos da camada de saída pela expressão: w s kj n w s kj n+ s k(n).i j (n) 6. Calcular os gradientes locais dos neurônios da camada oculta, o j (n). 7. Ajustar os pesos da camada oculta pela expressão: w o ji n w o ji n+ o j (n).x i (n) 8. Repetir os passos de a 7 para todos os padrões de treinamento ( época). 9. Calcular o erro médio quadrado (EMQ) para o arquivo de treinamento. 0. Se o EMQ for maior que o valor desejado, repetir o passo 8. Ajuste dos pesos da camada de saída w s kj n w s kj n+ s k(n).i j (n) s k(n) e k (n) f s v s k(n) s k(n) (d k (n) y k (n)). ( y k (n) ) s (n) (d (n) y (n)). ( y (n) ) s (n) (d (n) y (n)). ( y (n) ) x 0 = x (n) x (n) w o 0 w o i 0 = i (n) w s 0 w s s (n) y (n) d (n) w o w s x (n) x (n) w o w o w o 0 i (n) w s w s w s 0 s (n) y (n) d (n)

21 Ajuste dos pesos da camada oculta Prof. Paulo Martins Engel w o ji n w o ji n+ o j (n).x i (n) o j (n) M k= s k(n) w s kj(n) f o (v o j(n)) o (n) i (n) s (n) w s s (n) w s o (n) i (n) s (n) w s s (n) w s x 0 = x (n) x (n) o (n) w o i 0 = 0 i (n) w o w s 0 w s s (n) y (n) d (n) w o w s x (n) x (n) w o w o w o 0 o (n) i (n) w s w s w s 0 s (n) y (n) d (n) Soluções do problema do jogo de tênis por BP

22 Composição de funções de limiar Dobra : Função de saída de uma unidade de limiar Dobra : Função de saída de uma unidade de limiar para um outro conjunto de pesos Cume : unidade de limiar combinando Dobra e Dobra. Cume : unidade de limiar combinando duas dobras com outros pesos Pico: unidade de limiar combinando Cume e Cume Modos de Treinamento Prof. Paulo Martins Engel Há dois modos de treinamento para os algoritmos iterativos supervisionados:. Modo sequencial. Neste modo, também referenciado como modo incremental, ou on-line, a atualização dos pesos é realizada após a apresentação de cada exemplo de treinamento (adapt).. Modo por lote. Neste modo, o ajuste de pesos é realizado após a apresentação de todos os exemplos de treinamento, que constituem uma época (train). Do ponto de vista operacional, o modo sequencial é preferível porque requer menos armazenamento local para cada conexão sináptica. Além disso, pela aleatoriedade na apresentação dos padrões, a atualização dos pesos na base de padrão por padrão torna a busca no espaço de pesos de natureza estocástica, tornando o algoritmo menos propenso a ficar preso em mínimos locais. Por outro lado, a natureza estocástica do modo sequencial torna difícil estabelecer as condições teóricas para convergência do algoritmo. Já o modo por lote fornece, por exemplo, uma estimativa precisa do vetor gradiente, garantindo assim a convergência para um mínimo local. 44

23 Prof. Paulo Martins Engel Heurísticas para melhorar a convergência e a generalização Valores-alvo: É importante escolher os valores-alvo (resposta desejada) dentro do intervalo da função de ativação, ou seja afastados por uma quantidade do valor limite da sigmóide. Caso contrário, o algoritmo BP tende a levar os pesos para o infinito, reduzindo a velocidade do processo de treinamento, levando os neurônios ocultos à saturação. Solução: escolher d = 0,9 quando a da função de ativação for. Normalizar as entradas: Cada variável de entrada deve ser pré-processada de modo que o seu valor médio seja pequeno comparado com o desvio padrão. Isto pode ser feito em três passos: remoção da média, descorrelação e equalização das covariâncias. Com isso, os pesos sinápticos aprendem aproximadamente com a mesma velocidade. 45 Prof. Paulo Martins Engel dados originais Normalização das entradas remoção da média descorrelação equalização da covariância 46

24 Prof. Paulo Martins Engel Heurísticas para melhorar a convergência e a generalização Inicialização: Os valores dos pesos devem ser inicializados uniformemente dentro de um intervalo de valores pequenos, para reduzir a probabilidade de que os neurônios da rede saturem, produzindo gradientes pequenos. Entretanto, se os pesos forem muito pequenos, os gradientes serão também muito pequenos no início. Quando utilizamos a função de ativação especificada anteriormente, uma solução é inicializar os pesos aleatoriamente dentro do intervalo (,4/F i, +,4/F i ) onde F i é o fan-in do neurônio i da rede. Pelo método de Nguyen e Widrow, os pesos são inicializados aleatoriamente num intervalo regulado pelo número de unidades ocultas (H) e a dimensão dos padrões (N), 0,7H /N. Regra delta generalizada: Para aumentar a taxa de aprendizagem, evitando a instabilidade, introduz-se um termo de momento na expressão de correção dos pesos, correspondente a uma parcela () da correção no passo anterior: w s kj n s k(n).i j (n) + w s kj n 47