TREINAMENTO DE REDES PERCEPTRON DE MÚLTIPLAS CAMADAS UTILIZANDO O CONCEITO DE SPARSE DISTRIBUTED MEMORY

Transcrição

1 TREINAMENTO DE REDES PERCEPTRON DE MÚLTIPLAS CAMADAS UTILIZANDO O CONCEITO DE SPARSE DISTRIBUTED MEMORY Leonardo Jose Silvestre, Cristiano Leite de Castro, Antônio de Padua Braga Universidade Federal de São João del Rei São João del Rei, MG Universidade Federal de Lavras Lavras, MG Universidade Federal de Minas Gerais Belo Horizonte, MG s: lsilvestre@ufsj.edu.br, ccastro@dcc.ufla.br, apbraga@ufmg.br Abstract This paper presents an alternative approach to Multi-Layer Perceptron (MLP) neural network learning through the orthogonalization principle of Karnerva s Sparse Distributed Memory. The learning process occurs in two steps: firstly, the weights of hidden layer are updated in order to map orthogonal projections of the input patterns into a high dimension feature space; secondly, the weights of output layer are adjusted by solving a simple optimization problem. In experiments conducted on binary classification problems, our method was compared with traditional learning algorithms for MLPs: BackPropagation and Levenberg-Marquardt. The results achieved on synthetic and real (from UCI repository) data sets point out that our approach is promising. Keywords Multi-Layer Perceptrons, Training, Sparse Distributed Memory, Orthogonalization Resumo Esse artigo apresenta uma abordagem alternativa para o aprendizado de Redes Perceptron de Múltiplas-Camadas (Multi-Layer Perceptron - MLP) através do princípio de ortogonolização da Sparse Distributed Memory de Kanerva. O aprendizado ocorre em duas etapas: inicialmente, os pesos da camada escondida são atualizados para que os padrões de entrada tornem-se aproximadamente ortogonais em um espaço de caracteríticas de alta dimensão; em seguida, os pesos da camada de saída são atualizados a partir da solução de um problema de otimização mais simples. Nos experimentos conduzidos com problemas binários de classificação, nosso método foi comparado com algoritmos comumente usados para o aprendizado de redes MLP: BackPropagation e Levenberg-Marquardt. Os resultados obtidos em termos da taxa de erro de validacão para bases de dados sintéticas e reais (repositório UCI) indicam que nossa abordagem é promissora. Palavras-chave Multi-Layer Perceptrons, Treinamento, Sparse Distributed Memory, Ortogonalização 1 Introdução Desde a descrição do algoritmo Back-Propagation (Rumelhart et al., 1986), grande parte dos novos algoritmos de aprendizado para redes Perceptron de Múltiplas Camadas (MLPs) ajustam os pesos de todas as camadas da rede, a partir dos sinais de erro obtidos nas unidades de saída. O surgimento das máquinas de kernel (Cortes and Vapnik, 1995; Muller et al., 2001), no entanto, proporcionou uma nova perspectiva para o problema de aprendizado ao descrevê-lo em duas etapas: mapeamento não-linear dos padrões de entrada, através de um kernel previamente ajustado, seguido da estimação de uma separação linear no chamado espaço de características de alta dimensão (Cristianini and Shawe-Taylor, 2000). Uma vez definidos os parâmetros do kernel e o mapeamento correspondente, um problema de otimização é então resolvido. No contexto de Redes Neurais Artificiais (RNAs), abordagens que tratam o problema de aprendizado através de etapas independentes são geralmente baseadas no princípio da ortogonalização da camada escondida (intermediária). Segundo esse princípio, os pesos da camada escondida devem ser ajustados independentemente para que seus vetores de saída tornem-se ortogonais. Após essa etapa, um problema mais simples é então considerado na camada de saída. A maioria dos trabalhos conduzidos nessa linha utilizam o método de Gram-Schmidt (Hoffmann, 1989) para ortogonalização e têm como objetivo principal determinar a estrutura ótima (número de neurônios escondidos) das RNAs. Em (Chen et al., 1991), os autores propuseram o algoritmo Orthogonal Least Squares para redes RBF (Função de Base Radial). (Zhang and Morris, 1998) adotaram uma abordagem de treinamento sequencial para redes MLP, na qual a cada passo um novo neurônio da camada escondida é adicionado. Em (Romero and Alquézar, 2007), os autores avaliaram diferentes algoritmos para treinamento sequencial de redes MLP e concluíram que os baseados no princípio de ortogonalização da camada escondida superam os métodos tradicionais. Não obstante, a descrição do modelo de memória esparsamente distribuída (SDM - Sparse Distributed Memory) de Kanerva (Kanerva, 1988; Kanerva, 1993) oferece uma alternativa promissora para a ortogonalização das projeções na camada escondida. De acordo com a SDM, quando o número de neurônios da camada escondida é muito elevado (espaço de características de alta 3886

2 dimensão) e seus mapeamentos são selecionados aleatoriamente, os vetores de saída tendem a se tornar ortogonais. Essa característica possibilita que um problema de classificação de padrões não linearmente separável no espaço de entrada tornese linearmente separável no espaço de características. A abordagem adotada nesse trabalho explora esse conceito, que é muito similar à abordagem usada por máquinas de kernel. Em particular, redes MLP foram treinadas em duas etapas, através do princípio de ortogonalização das memórias SDM, e comparadas com algoritmos de treinamento tradicionais, tais como, Back-Propagation (Rumelhart et al., 1986) e Levenberg-Marquardt (Hagan and Menhaj, 1994). Experimentos foram conduzidos com problemas binários de classificação e os resultados obtidos em termos da taxa de erro de validação para bases de dados sintéticas e reais (repositório UCI) indicam que nossa abordagem é promissora. O restante do artigo é apresentado da seguinte forma: as Seções 2 e 3, a seguir, descrevem os conceitos teóricos que fundamentam nossa abordagem: redes Perceptron de Múltiplas Camadas e Sparse Distributed Memory (SDM). Em seguida, na Seção 4, nossa proposta para o treinamento de redes MLP a partir do conceito de ortogonalização da SDM é apresentada. Na Seção 5, são descritos a metodologia adotada na condução dos experimentos e os resultados obtidos. Finalmente, a Seção 6 traz as discussões e as conclusões. 2 Perceptron de Múltiplas Camadas Desde que o escopo do trabalho é limitado a problemas binários de classificação, considere uma rede Perceptron de Múltiplas Camadas (MLP) com n entradas, uma camada escondida com h unidades (neurônios) e uma camada de saída contendo uma única unidade. O valor de saída obtido na unidade escondida k da rede MLP, devido à apresentação de um padrão arbitrário x, é dado por (Haykin, 1994), z k = f ( ) w k x = f n w kj x j. (1) j=0 onde o vetor w k = {w k0, w k1,..., w kn } representa a coleção de pesos conectada ao k-ésimo neurônio da camada escondida. A coleção de todos os pesos da camada escondida é denotada por w E = {w 1, w 2,..., w h }. Similarmente, o valor obtido na unidade de saída da rede é calculado com base nos valores de saída emitidos pelas unidades escondidas (Haykin, 1994), y = f ( ( ) h ) w S z = f w k z k k=0. (2) na qual o vetor w S = {w 0, w 1,..., w h } representa os pesos da camada de saída da rede. Por questão de simplicidade, o termo bias foi considerado como uma unidade (entrada/escondida) extra com valor igual a 1. Seja T = {x(i), d(i)} N i=1, o conjunto de N padrões de treinamento, com x(i) R n e d(i) {0, 1}. A grande maioria dos algoritmos propostos para o aprendizado de redes MLP (Rumelhart et al., 1986; Hagan and Menhaj, 1994; Teixeira et al., 2000; Costa et al., 2007) realizam o ajuste de todos os pesos da rede w = {w E, w S } de uma só vez. Em geral, esse ajuste é baseado na minimização de um funcional que leva em consideração somente os sinais de erro obtidos na unidade de saída da rede, como é o caso do funcional somatório dos erros quadráticos médios, dado pela Equação 3, a seguir (Haykin, 1994), J(w) = 1 2N N (d(i) y(i)) 2. (3) i=1 3 Sparse Distributed Memory A memória esparsamente distribuída (SDM - Sparse Distributed Memory) surgiu como um modelo matemático da memória humana de longo prazo (Kanerva, 1988; Kanerva, 1993). A idéia na qual ela foi baseada foi a de que distâncias entre conceitos nas nossas mentes correspondem a distâncias entre pontos em um espaço de alta dimensão. Como qualquer ponto de interesse em um espaço de alta dimensão está relativamente distante de outros pontos de interesse nesse mesmo espaço, a representação de um ponto de interesse específico não precisa de ser exata. A SDM pode ser comparada a uma memória de acesso randômico (RAM - Random Access Memory) de grande capacidade, composta por uma matriz de endereços, uma matriz de conteúdos e registradores de endereço muito grandes (da ordem de 1000 bits). Desde que os endereços são grandes, é impossível mapear uma posição de hardware para cada endereço. Assim, na SDM, raramente um endereço do registrador vai apontar para uma posição de hardware, pois o número de endereços possíveis é muito maior do que as posições de hardware disponíveis (por isso o nome esparsa ). Um endereço, então, ativa um conjunto de posições próximas, baseadas na distância de Hamming. Além de ser representada como uma memória associativa (Haykin, 1994) - em (Bose et al., 2006), por exemplo, os autores usam SDM como parte de uma memória associativa para reconhecimento e predição online de sequências temporais-, a SDM pode ser representada como uma rede neural feedforward, síncrona e totalmente conectada, com uma camada escondida. Uma outra propriedade 3887

3 interessante da SDM é que, se o número de neurônios da camada escondida cresce, ou seja, os padrões de entrada são mapeados para um espaço de alta dimensão, e seus mapeamentos são selecionados aleatoriamente, os padrões tendem a se tornar ortogonais. 4 Algoritmo de Treinamento Proposto Como mencionado anteriormente, nossa abordagem considera uma rede MLP com somente uma camada escondida, conforme pode ser visto pela Figura 1. Com base no princípio da SDM, a camada escondida é configurada com um número h elevado de neurônios, para que os padrões de entrada sejam projetados em um espaço de alta dimensão. Uma vez selecionado o valor de h, é gerado um vetor (de dimensão h) de saídas desejadas d E (i) na camada escondida para cada padrão arbitrário x(i) do conjunto de treinamento. Cada componente do vetor d E (i) é obtido de forma aleatória, podendo assumir os valores 0 ou 1 com probabilidade 0.5. Desde que o treinamento dos neurônios das camadas escondida e de saída ocorre de forma independente, funções de ativação contínuas e diferenciáveis (do tipo sigmóide), comumente adotadas por métodos de treinamento tradicionais baseados no cálculo do gradiente, não são mais necessárias. Assim, funções de ativação heaviside (tipo degrau) foram usadas em todos os neurônios da rede. O processo de aprendizado ocorre em duas etapas: 1. A coleção de pesos w E = {w 1, w 2,..., w h } da camada escondida é ajustada com base nos vetores de saída desejada d E (i) gerados para cada padrão de treinamento x(i). Considerando o k-ésimo neurônio da camada escondida, o ajuste de um peso arbitrário w kj é baseado na regra de aprendizado do Perceptron (Haykin, 1994), w kj = w kj + η (d E k z k ) x j. (4) 2. Após o ajuste de todos os pesos da camada escondida, o vetor de pesos da camada de saída w S = {w 0, w 1,..., w h } é ajustado com base nas saídas desejadas d(i) fornecidas a partir do conjunto de treinamento T = {x(i), d(i)} N i=1. Assim, de forma similar, o ajuste de um peso arbitrário w k é também baseado na regra do Perceptron (Haykin, 1994), w k = w k + η (d k y k ) z k. (5) A etapa inicial de ajuste dos pesos da camada escondida possibilita que as projeções dos padrões de entrada tornem-se aproximadamente ortogonais em um espaço de alta dimensão. Em seguida, o ajuste dos pesos da camada de saída permite a definição um hiperplano de separação nesse espaço de características. 5 Experimentos e Resultados Nessa Seção, experimentos foram conduzidos com bases de dados sintéticas e reais extraídas do repositório UCI (Asuncion and Newman, 2007). Os resultados obtidos com nosso algoritmo (SDM) foram comparados aos algoritmos Back-Propagation com momentum e Levenberg-Marquardt. A seguinte metodologia foi adotada para cada base de dados: Número de Neurônios da Camada Escondida (h): para o algoritmo SDM foram testados os seguintes valores de h: 100, 500, 1000 e Para os demais algoritmos, foram usados 3, 5, 11 e 15. Número de Execuções: para cada valor de h, foram conduzidas 10 execuções com diferentes subconjuntos de treinamento e validação obtidos a partir do procedimento 10-fold crossvalidation (Stone, 1974). Métrica de Desempenho: foram calculados a taxa média de erro e o desvio padrão sobre as 10 execuções, em relação aos subconjuntos de treinamento e validação. As Tabelas, nas Seções a seguir, mostram somente os resultados obtidos com a melhor configuração de h (número de neurônios escondidos) para cada algoritmo. Nos casos raros em que diferentes configurações obtiveram valores iguais em relação ao valor médio do erro de validação, o desempate foi realizado pelo menor erro médio de treinamento. 5.1 Dados Sintéticos Nesse experimento, foi utilizado um conjunto de dados sintético bi-dimensional conhecido como problema dos dois espirais (vide Figura 2). Esse conjunto apresenta duas classes, sendo a primeira representada por círculos, com saída desejada d(i) = 1, e a segunda, representada por asteriscos, possui saída desejada d(i) = 0. O problema é não linearmente separável no espaço de entrada e permite comparar a eficiência do mapeamento definido na camada escondida da rede MLP pelos diferentes algoritmos de treinamento. A Tabela 1 apresenta os resultados obtidos (médias e desvios-padrão em %) com os algoritmos Sparse Distributed Memory (SDM), Back- Propagation (BackProp) e Levenberg-Marquardt (Lev-Marq). São também apresentados os melhores valores de h, número de neurônios na camada escondida. Como pode ser observado, nosso algoritmo (SDM) obteve o melhor desempenho. Os 3888

4 Figura 1: Rede MLP com n entradas, h neurônios na camada escondida e uma unidade de saída. O treinamento foi realizado em duas etapas: inicialmente, a coleção de pesos da camada escondida w E é ajustada a partir dos vetores (mapeamentos) aleatórios d E (i) e, em seguida, o vetor de pesos da camada de saída w S é ajustado com base nas saídas desejadas (rótulos) d(i) fornecidas com o conjunto de treinamento. Tabela 1: Valores médios de erro e desvios-padrão apresentados pelos algoritmos: SDM, BackProp e Lev- Marq. São também apresentados os melhores valores de h, número de neurônios na camada escondida. Erro Treinamento SDM BP LM ± ±3.43 Erro Validação (%) SDM BackProp Lev.-Marq ± ± ±13.5 Num. Neurônios Esc. SDM BackProp Lev.-Marq resultados obtidos em termos de erro de treinamento sugerem que a SDM foi capaz de obter uma representação linearmente separável para os padrões de entrada no espaço de características de alta dimensão. Em termos do erro de validação, SDM foi melhor 8.3 pontos percentuais em relação ao algoritmo Back-Propagation e 15.2 em relação ao Levenberg-Marquardt. 5.2 Bases do Repositório UCI Nesse experimento, foram usadas 7 bases de dados extraídas do Repositório UCI: Breast Cancer, Diabetes, Glass(7), Heart, Ionosphere e Segmen- Tabela 2: Melhores valores de h (número de neurônios na camada escondida) obtidos pelos algoritmos SDM, BP e LM para as bases de bados do Repositório UCI. Base de Dados SDM BP LM Breast Cancer Diabetes Glass Heart Ionosphere Segmentation tation(1) (Asuncion and Newman, 2007). Para bases contendo mais de duas classes: Glass e Segmentation, o rótulo entre parênteses representa a primeira classe com saída desejada d(i) = 1, enquanto as demais classes foram unidas para representar a segunda classe, com saída desejada d(i) = 0. A Tabela 2 apresenta, para cada base de dados, a melhor configuração em relação ao número de neurônios na camada escondida (h) obtida pelos algoritmos Sparse Distributed Memory (SDM), Back-Propagation (BP) e Levenberg-Marquardt (LM). A Tabela 3 compara, respectivamente, as taxas de erro de treinamento e validação obtidos pelos algoritmos quando aplicados às bases de dados do repositório UCI. A média e o desvio padrão, 3889

5 de ortogonalização da SDM tem a vantagem de não depender do ajuste prévio de parâmetros e, conforme observado pelos resultados obtidos em relação ao erro de treinamento, ele permite que problemas não-linearmente separáveis possam ter uma representação mais simples em um espaço de características de alta dimensão. Resultados obtidos em relação a taxa de erro de validação mostraram que nossa abordagem é promissora, principalmente para aplicações que possuem uma representação mais complexa e nãolinearmente separável no espaço de entrada como é o caso do Problema dos dois espirais. Figura 2: Problema dos dois espirais: A classe 1 representada por círculos possui rótulos d(i) = 1 e classe 2 representadas por asteriscos possui rótulos d(i) = 0. apresentados em %, foram calculados a partir de 10 execuções com diferentes subconjuntos de treinamento e validação (10-fold crossvalidation). Os melhores resultados encontram-se marcados em negrito. Analisando os resultados em termos do erro de validação e desconsiderando a base de dados Breast Cancer em que todos algoritmos obtiveram desempenhos muito próximos, pode-se observar pela Tabela 3, que o algoritmo SDM obteve melhor desempenho que o algoritmo Back- Propagation com momentum. Além disso, SDM mostrou-se competitivo em relação ao algoritmo Levenberg-Marquardt, uma vez que ambos apresentaram taxas de erro similares em relação a quase todas as bases de dados. Os resultados sugerem uma leve superioridade do algoritmo SDM em 2 das 7 bases de dados: Glass, Ionosphere. Nos casos em que SDM obteve piores desempenhos: Diabetes e Heart, a diferença parece não ser significativa. Nota-se também que SDM obteve erro de treinamento nulo para todas as bases de dados, o que novamente sugere que nosso método foi capaz de obter uma representação linearmente separável para os padrões de entrada no espaço de características. 6 Discussões e Conclusões Esse trabalho apresentou uma abordagem alternativa que permite descrever o problema do aprendizado de redes MLP em etapas independentes, de forma similar à abordagem adotada por Máquinas de Kernel. Cabe ressaltar, porém, que o princípio É importante frisar que, apesar do tamanho da topologia (número elevado de neurônios na camada escondida), os resultados obtidos em termos do erro de validação sugerem que não houve ocorrência de overfitting. Uma possível explicação para esse fato é que a esparsividade dos vetores de saída da camada escondida, obtidos a partir do princípio de ortogonalização da SDM, fazem com que os pesos da camada de saída assumam valores pequenos proporcionando superfícies de separação mais suaves no espaço de características. Essa conclusão é ainda especulativa e está sendo investigada no momento. Ela, no entanto, se alinha à abordagem utilizada pelas Máquinas de Vetor de Suporte (Cortes and Vapnik, 1995), que não sofrem da chamada maldição da dimensionalidade (Haykin, 1994), por minimizarem a norma euclidiana do hiperplano em um espaço de características de alta dimensão. Nossos esforços futuros estão focados em compreender melhor o comportamento das soluções obtidas com o algoritmo proposto, através de estudos que analisam a margem de separação obtida pelo hiperplano no espaço de características. Além disso, testes devem ser realizados com outros tipos de função de ativação nos neurônios da camada escondida da rede, tais como, sigmóides, gaussianas, entre outras. 3890

6 Tabela 3: Taxas de erro de treinamento e validação (em %) obtidos para as bases do repositório UCI. Os melhores resultados estão marcados em negrito. Base de Dados Erro Treinamento Erro Validação (%) SDM BP LM SDM BP LM Breast Cancer ± ± ± ± ±7.72 Diabetes ± ± ± ± ±5.08 Glass ± ± ± ± ±2.28 Heart ± ± ± ± ±8.68 Ionosphere ± ± ± ± ±5.79 Segmentation ± ± ± ± ±2.30 Referências Asuncion, A. and Newman, D. (2007). UCI machine learning repository. URL: rn/mlrepository.html Bose, J., Furber, S. B. and Shapiro, J. L. (2006). An associative memory for the on-line recognition and prediction of temporal sequences, CoRR abs/cs/ Chen, S., Cowan, C. F. N. and Grant, P. M. (1991). Orthogonal least squares learning algorithm for radial basis function networks, IEEE Transactions on Neural Networks 2(2): Cortes, C. and Vapnik, V. (1995). Support-vector networks, Mach. Learn. 20(3): Costa, M. A., Braga, A. P. and Menezes, B. R. (2007). Improving generalization of mlps with sliding mode control and the levenbergmarquardt algorithm, Neurocomputing 70(7-9): Cristianini, N. and Shawe-Taylor, J. (2000). An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge University Press. Muller, K. R., Mika, S., Ratsch, G., Tsuda, K. and Scholkopf, B. (2001). An introduction to kernel-based learning algorithms, IEEE Trans. on Neural Networks 12(2): Romero, E. and Alquézar, R. (2007). Heuristics for the selection of weights in sequential feedforward neural networks: An experimental study, Neurocomput. 70(16-18): Rumelhart, D., Hintont, G. and Williams, R. (1986). Learning representations by backpropagating errors, Nature 323(6088): Stone, M. (1974). Cross-validatory choice and assessment of statistical predictions, Journal of the Royal Statistical Society B 36(1): Teixeira, R., Braga, A., Takahashi, R. and Saldanha, R. (2000). Improving generalization of mlps with multi-objective optimization, Neurocomputing 35(1-4): Zhang, J. and Morris, A. J. (1998). A sequential learning approach for single hidden layer neural networks, Neural Netw. 11(1): Hagan, M. T. and Menhaj, M. B. (1994). Training feedforward networks with the marquardt algoritm, IEEE Transactions on Neural Networks 5(6) pages Haykin, S. (1994). Neural Networks: A Comprehensive Foundation, Macmillan, New York. Hoffmann, W. (1989). Iterative algorithms for gram-schmidt orthogonalization, Computing 41(4): Kanerva, P. (1988). Sparse Distributed Memory (Bradford Books), The MIT Press. Kanerva, P. (1993). Sparse Distributed Memory and Related Models, Oxford University Press, New York, chapter 3, pp