Modelagem de Superfícies Seletivas de Freqüência e Antenas de Microfita utilizando Redes Neurais Artificiais

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE Universidade Federal do Rio Grande do Norte Centro de Tecnologia Programa de Pós-Graduação em Engenharia Elétrica Modelagem de Superfícies Seletivas de Freqüência e Antenas de Microfita utilizando Redes Neurais Artificiais Patric Lacouth da Silva Orientador: Prof. Dr. Adaildo Gomes D Assunção Dissertação de Mestrado apresentada ao Programa de Pós- Graduação em Engenharia Elétrica da UFRN (área de concentração: Telecomunicações) como parte dos requisitos para obtenção do título de Mestre em Ciências. Natal, RN, junho de 2006

Livros Grátis http://www.livrosgratis.com.br Milhares de livros grátis para download.

Divisão de Serviços Técnicos Catalogação da Publicação na Fonte. UFRN / Biblioteca Central Zila Mamede Silva, Patric Lacouth. Modelagem de Superfícies Seletivas de Freqüência e Antenas de Microfita utilizando Redes Neurais Artificiais, / Patric Lacouth da Silva - Natal, RN, 2006 65 p. : il. Orientador: Adaildo Gomes D Assunção Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte. Centro de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica. 1. Dispositivos de Microondas - Dissertação. 2. Redes Neurais Artificiais - Dissertação. 3. Antenas de microfita - Dissertação. I. D Assunção, Adaildo Gomes. II. Universidade Federal do Rio Grande do Norte. III. Título. RN/UF/BCZM CDU 621.396.2

Modelagem de Superfícies Seletivas de Freqüência e Antenas de Microfita utilizando Redes Neurais Artificiais Patric Lacouth da Silva Dissertação de Mestrado aprovada em 09 de Junho de 2006 pela banca examinadora composta pelos seguintes membros: Prof. Dr. Adaildo Gomes D Assunção (orientador)... UFRN Prof. Dr. Humberto Abdalla Júnior... UNB Prof. Dr. Paulo Henrique da Fonseca Silva... CEFET-PB Prof. Dr. Fernando Rangel de Souza... UFRN

Aos meus pais e a minha irmã, pela confiança, apoio constante e paciência durante esse trabalho.

Agradecimentos Aos meus pais, Cícero Lopes e Auricléia Lacouth, por sempre acreditarem e apoiarem minhas decisões, a minha irmã, Patrícia Lacouth, que esteve sempre presente com paciência e compreensão. Ao meu orientador, Professor Adaildo Gomes D Assunção, que acreditou e tornou possível a realização deste trabalho com sua paciência e sabedoria. Aos meus três grandes amigos, Danilo Lima, Márcio Passos e Rafael Marrocos que contribuiram e estiveram sempre presentes em todo o curso de mestrado. Ao Professor Adrião Duarte pelas idéias e dúvidas respondidas. Ao Professor Ronaldo Martins que foi sempre compreensível e paciente com a parte prática do trabalho. Aos Professores do CEFET-PB que incentivaram para o início do mestrado. Ao CNPQ pelo apoio financeiro. 1

Sumário Sumário Lista de Figuras Lista de Tabelas Lista de Símbolos e Abreviaturas Resumo Abstract i iii v vi viii ix 1 Introdução 1 2 Redes Neurais Artificiais 4 2.1 Introdução................................. 4 2.2 Redes Neurais Artificiais e Eletromagnetismo.............. 4 2.3 Modelagem Neural de Dispositivos de Microondas........... 5 2.4 Geração de Dados............................. 6 2.4.1 Geração de dados a partir de medições............. 6 2.4.2 Geração de dados a partir de simulações............ 7 2.5 Neurônio Perceptron........................... 7 2.6 A Rede Perceptron de Múltiplas Camadas............... 8 2.6.1 Treinamento de Redes MLP................... 10 2.7 Redes de Função de Base Radial..................... 15 2.7.1 Treinamento utilizando seleção auto-organizada dos centros.. 17 2.7.2 Treinamento utilizando seleção supervisionada dos centros.. 18 2.8 Comparação entre redes MLP e RBF.................. 19 2.9 Overlearning e Underlearning...................... 20 i

2.10 Qualidade da aprendizagem versus Quantidade de Neurônios Ocultos 21 2.11 Conclusão................................. 21 3 Superfícies Seletivas de Freqüências 22 3.1 Introdução................................. 22 3.2 Características de FSS.......................... 22 3.3 Elementos de FSS............................. 23 3.4 Arranjos Passivos e Arranjos Ativos................... 25 3.5 Técnicas de Medição........................... 26 3.6 Técnicas de Análise............................ 26 3.7 Aplicações................................. 27 3.8 Conclusão................................. 28 4 Antenas de Microfita 30 4.1 Introdução................................. 30 4.2 Configurações de Patches......................... 32 4.3 Arranjo de Antenas............................ 34 4.4 Métodos de Alimentação......................... 35 4.5 Conclusão................................. 37 5 Resultados Experimentais 39 5.1 Introdução................................. 39 5.2 Modelagem Neural de Superfícies Seletivas de Freqüência....... 39 5.3 Modelagem Neural de Antenas de Microfita tipo E-Shaped...... 51 5.4 Modelagem Neural de Antenas de Microfita com patch afilado.... 54 5.5 Modelagem Neural de Arranjo TSA................... 58 6 Conclusões 60 Referências bibliográficas 63

Lista de Figuras 2.1 Neurônio perceptron............................ 8 2.2 Exemplo de uma função tangente hiperbólica.............. 9 2.3 Exemplo de configuração típica de uma rede perceptron de múltiplas camadas................................... 10 2.4 Exemplo de configuração típica de uma rede RBF........... 15 2.5 Exemplo de uma função de base radial do tipo sample......... 17 3.1 Exemplos de tipos de células condutoras utilizadas em superfícies seletivas de freqüência. (a) Elementos patches e (b) Elementos de abertura. 23 3.2 Exemplos de patches utilizados em FSS................. 24 3.3 Exemplo de sistema de medição de FSS................. 27 3.4 Exemplo de uma aplicação de Superfícies Seletivas de Freqüências.. 28 4.1 Antena de Microfita com patch retangular................ 30 4.2 Exemplos dos patches condutores mais comuns............. 32 4.3 Geometria de um patch E-Shaped..................... 33 4.4 Geometria de um patch afilado...................... 34 4.5 Exemplo de um arranjo TSA. Os elementos são separados por hastes metálicas e o arranjo é suportado por um plano terra em z = -t.... 35 4.6 Alimentação através de uma linha de microfita............. 36 4.7 Alimentação utilizando cabo coaxial................... 37 4.8 Alimentação utilizando acoplamento por abertura............ 37 4.9 Alimentação através de acoplamento por proximidade eletromagnética. 38 5.1 Exemplo de uma estrutura FSS...................... 40 5.2 Resposta da rede MLP para diferentes valores de h.......... 41 5.3 Evolução do erro da rede MLP para o primeiro conjunto de treinamento. 42 5.4 Erro de treinamento do segundo exemplo................ 43 iii

5.5 Resposta da rede MLP para diferentes valores de L em uma estrutura freestanding................................ 43 5.6 Resposta da rede MLP para diferentes valores de w.......... 45 5.7 Erro de treinamento do terceiro exemplo................. 45 5.8 Resposta da rede MLP para diferentes valores de ǫ r.......... 47 5.9 Erro de treinamento para exemplo da variação de ǫ r.......... 47 5.10 Saída da rede MLP para diferentes valores de L............ 48 5.11 Erro ao longo do processo de aprendizagem do quinto conjunto de treinamento................................. 49 5.12 Comparação entre dados medidos e simulados............. 50 5.13 Exemplo de um patch E-shaped...................... 51 5.14 Conjunto de treinamento utilizada na modelagem da antena E-Shaped. 52 5.15 Curva de aprendizagem para o conjunto de treinamento da antena E-Shaped.................................. 53 5.16 Generalização da rede treinada com dados da antena E-Shaped.... 54 5.17 Exemplo de um patch afilado...................... 55 5.18 Resultados da RNA para o conjunto de treinamento ( ), e comparação com MoM ( )............................ 56 5.19 Resultados da RNA para valores fora do conjunto de treinamento ( ), e comparação com MoM ( ).................... 56 5.20 Erro durante o processo de treinamento da modelagem da antena de patch afilado................................ 57 5.21 Exemplo de uma antena slot utilizada no arranjo TSA, todas as dimensões estão em cm........................... 58 5.22 Resposta da rede para o conjunto de treinamento ( ), resultados para dados não usados na fase de treinamento ( ) e a comparação com o MoM ( )............................... 59

Lista de Tabelas 2.1 Comparação entre geração de dados medidos e simulados........ 7 2.2 Funções de ativação mais utilizadas.................... 9 5.1 Dados da geometria e treinamento do 1 o conjunto de FSS....... 40 5.2 Dados da geometria e treinamento do 2 o conjunto de FSS (Freestanding).................................... 42 5.3 Dados da geometria e treinamento do 3 o conjunto de FSS....... 44 5.4 Dados da geometria e treinamento do 4 o conjunto de FSS....... 46 5.5 Dados da geometria e treinamento do 5 o conjunto de FSS....... 48 5.6 Parâmetros estruturais da antena planar com fendas paralelas.... 52 5.7 Parâmetros estruturais da antena planar com patch afilado....... 55 v

Lista de Símbolos e Abreviaturas α η Γ λ σ σ θ ϕ() BP d E() E i E r E t E med I Termo momento Valor de atualização dos pesos sinápticos Coeficiente de aprendizagem Coeficiente de reflexão Comprimento de onda Gradiente Desvio Padrão Vetor de centros das Funções de Base Radial Bias Função de base radial B ackpropagation Vetor de saídas desejadas Função Custo Onda plana incidente Onda plana refletida Onda plana transmitida Energia média do erro quadrático Vetor de entrada da rede vi

O Rprop T T r w x y y () ANN CPW EBG FDTD FEM FSS MLP MoM RBF RF RFID RNA TSA Vetor de saída da rede Resilient BackPropagation Coeficiente de transmissão Conjunto de treinamento Vetor de pesos sinápticos Vetor de parâmetros de entrada Vetor de comportamento dos dispositivos Aproximação do Modelo Neural para vetor de comportament y Artificial Neural Network Coplanar Waveguide Eletromagnetic Bandgap Finite Difference Time Domain Finite Element Method Frequency Selective Surface Multilayer Perceptron Method of Moments Radial Basis Function Rádio Freqüência Radio Frequency Identification Redes Neurais Artificiais Tapered Slot Array

Resumo Este trabalho tem como principal objetivo a aplicação de Redes Neurais Artificiais, RNA, na resolução de problemas de dispositivos de RF/microondas, como por exemplo a predição da resposta em freqüência de algumas estruturas em uma região de interesse. As Redes Neurais Artificiais se apresentam como uma alternativa aos métodos atuais de análise de estrutura de microondas, pois são capazes de aprender, e o mais importante generalizar o conhecimento adquirido, a partir de qualquer tipo de dado disponível, mantendo a precisão da técnica original utilizada e aliando o baixo custo computacional dos modelos neurais. Por esse motivo, as redes neurais artificiais são cada vez mais utilizadas para a modelagem de dispositivos de microondas. São utilizados neste trabalho os modelos Perceptron de Múltiplas Camadas e de Funções de Base Radiais. São descritas as vantagens/desvantagens de cada um desses modelos, assim como os algoritmos de treinamento referentes a cada um deles. Dispositivos planares de microondas, como Superfícies Seletivas de Freqüências e as antenas de microfita, ganham cada vez mais destaque devido às necessidades crescentes de filtragem e separação de ondas eletromagéticas e à miniaturização de dispositivos de Rádio-Freqüência. Por isso é de importância fundamental o estudo dos parâmetros estruturais desses dispositivos de forma rápida e precisa. Os resultados apresentados, demonstram as capacidades das técnicas neurais para modelagem de Superfícies Seletivas de Freqüência e antenas. Palavras-chave: Dispositivos de Microondas, Redes Neurais Artificiais, Superfícies Seletivas de Freqüência, Antenas de Microfita. viii

Abstract This work has as main objective the application of Artificial Neural Networks, ANN, in the resolution of problems of RF/microwaves devices, as for example the prediction of the frequency response of some structures in an interest region. Artificial Neural Networks, are presently a alternative to the current methods of analysis of microwaves structures. Therefore they are capable to learn, and the more important to generalize the acquired knowledge, from any type of available data, keeping the precision of the original technique and adding the low computational cost of the neural models. For this reason, artificial neural networks are being increasily used for modeling microwaves devices. Multilayer Perceptron and Radial Base Functions models are used in this work. The advantages/disadvantages of these models and the referring algorithms of training of each one are described. Microwave planar devices, as Frequency Selective Surfaces and microstrip antennas, are in evidence due the increasing necessities of filtering and separation of eletromagnetic waves and the miniaturization of RF devices. Therefore, it is of fundamental importance the study of the structural parameters of these devices in a fast and accurate way. The presented results, show to the capacities of the neural techniques for modeling both Frequency Selective Surfaces and antennas. Keywords: Microwave Devices, Artificial Neural Networks, Frequency Selective Surfaces, Microstrip Antennas. ix

Capítulo 1 Introdução O avanço tecnológico ocorrido nos últimos anos no desenvolvimento de estruturas e dispositivos com tecnologia planar decorre da necessidade crescente de se conceber circuitos, com dimensões e peso cada vez menores, para as mais diversas aplicações (na área aeroespacial, nas comunicações sem fio, em redes de sensores, no rastreio de produtos e animais - RFID, na terapia e tratamento clínico, etc) [Campos, 1999] [REDPRAIRIE, 2003]. Nas áreas aeroespaciais e de comunicações, observa-se que uma atenção especial tem sido dedicada ao estudo de superfícies seletivas de freqüência (Frequency Selective Surfaces - FSS) [Campos et al., 2002] As superfícies seletivas de freqüência são estruturas periódicas bidimensionais que se comportam como filtros eletromagnéticos passa-alta, passa-baixa ou passa-faixa, de acordo com sua configuração. As estruturas periódicas têm um grande número de aplicações e têm contribuído significativamente para melhorar o desempenho dos circuitos de comunicações com destaque especial para a sua utilização nos sistemas de antenas de missões espaciais como Voyager, Galileo e Cassini [Romeu and Ramhmat- Samii, 2000]. Antenas em tecnologia planar (microfita) são muito utilizadas devido as suas várias vantagens como tamanho, peso, facilidade de construção, conformidade e facilidade de integração com circuitos impressos, além de apresentarem bom desempenho elétrico [Yang et al., 2001]. Atualmente essas antenas estão embutidas em diversos aparelhos elétricos/eletrônicos usados na comunicação via rádio e em estações de transmissão/recepção. Devido a todas essas características esse modelo de antena tem sido utilizado em várias aplicações comerciais e militares como antenas de celulares, dispositivos Bluetooth, atividades biomédicas, aviões, satélites e mísseis [Balanis, 1997]. 1

CAPÍTULO 1. INTRODUÇÃO 2 Apesar das superfícies seletivas de freqüência e antenas de microfita serem estruturas pequenas e de simples construção, muitas configurações desses dispositivos apresentam complexidades que dificultam a análise através de métodos eletromagnéticos convencionais (Método da Linha de Transmissão, Potenciais Auxiliares, etc.), ou exigem um elevado custo computacional das técnicas numéricas (Método dos Momentos, Elementos Finitos, etc.), apresentando assim um cenário onde a utilização de redes neurais artificiais para resolução de determinados problemas torna-se uma alternativa aos métodos tradicionais [Gupta and Zhang, 2000]. As Redes Neurais, também chamadas de Redes Neurais Artificiais (RNAs), são sistemas processadores de informação inspirados na habilidade do cérebro humano de aprender de observações e generalizar por abstração. O fato das redes neurais artificiais serem capazes de aproximar relações de entrada/saída arbitrárias [Silva, 2002] tem levado a sua utilização para aplicações totalmente diferentes, resultando no seu uso nas mais diversas áreas como reconhecimento de padrões, processamento de voz, controle, aplicações médicas e muitas outras. A introdução de redes neurais no campo do eletromagnetismo marca o nascimento de uma alternativa não convencional para problemas de projetos e modelamentos de estruturas [Gupta and Zhang, 2000]. Diversas características interessantes, sobre redes neurais artificiais, são apresentadas [Silva, 2002]: Nenhum conhecimento sobre o mapeamento é necessário para o desenvolvimento de uma RNA. As relações são inferidas através de exemplos de treinamento. As RNAs podem generalizar, o que significa que elas são capazes de responder a exemplos novos, dentro da região de interesse, definida na fase de treinamento. As Redes Neurais Artificiais, teoricamente, são capazes de aproximar qualquer mapeamento contínuo não linear. Outra vantagem da utilização de redes neurais artificiais para a solução de problemas eletromagnéticos é a facilidade de incorporação de perdas reais ao projeto, uma vez que uma rede neural treinada através de dados medidos de uma estrutura irá conter intrisicamente valores reais relativos a distúrbios causados por interferências, perdas relativas aos processos de construção, medição e outros. Obtendo dessa forma modelos mais precisos do comportamento dos dispositivos em situações reais. A partir do conhecimento das capacidades das redes neurais artificiais, modelos foram implementados e testados com o objetivo de representar os tipos específicos

CAPÍTULO 1. INTRODUÇÃO 3 de estruturas citadas anteriormente. Os dispositivos escolhidos para o modelamento foram superfícies seletivas de freqüência formadas por elementos do tipo patch sobre um substrato dielétrico, antenas de microfita retangulares de fendas paralelas incorporadas sobre o patch condutor [da Silva and D Assunção, 2006] [Yang et al., 2001], antenas de microfita com patch afilado, e arranjo de antenas slot com fendas (Tapered Slot Array - TSA) [Chio and Schaubert, 2000]. As redes neurais artificiais aplicadas a problemas de eletromagnetismo podem ser treinadas a partir de diversos tipos de dados, que podem ser obtidos através de simulações ou medições. Neste trabalho, são apresentados os resultados obtidos utilizando as duas opções, para o caso da FSS [Campos, 1999] e da antena afilada optou-se por utilizar dados simulados obtidos através do método dos momentos. No caso da antena de microfita com fendas, o treinamento das redes neurais artificiais foi executado utilizando amostras de valores medidos. Em relação ao arranjo TSA os dados foram obtidos a partir de resultados encontrados na literatura [Chio and Schaubert, 2000]. São apresentados no Capítulo 2 os conceitos de Redes Neurais Artificiais, comparações entre os modelos MLP (Perceptron de múltiplas camadas) e RBF (Funções de Base Radial), descrição dos algoritmos de treinamento utilizados durante o trabalho, comparação entre a geração de dados medidos e simulados. Nos Capítulos 3 e 4, são descritos os comportamentos eletromagnéticos das Superfícies Seletivas de Freqüência e das antenas de microfita, suas aplicações, técnicas de medição, configurações e aplicações. Apresentando os dispositivos modelados no trabalho. No Capítulo 5, são apresentados os resultados obtidos através dos modelos neurais para a modelagem de cinco estruturas FSS, para as antenas de microfita com fendas paralelas, para antena planar com patch afilado e para o arranjo de antenas slot, bem como, a evolução do erro de aprendizagem de cada rede neural artificial treinada. As conclusões e sugestões para a continuidade deste trabalho são apresentadas no Capítulo 6.

Capítulo 2 Redes Neurais Artificiais 2.1 Introdução Na sua forma mais geral, uma rede neural é uma máquina que é projetada para modelar a maneira como o cérebro realiza uma tarefa particular ou função de interesse. A rede é normalmente implementada utilizando-se componentes eletrônicos ou é simulada por programação em um computador. Para alcançarem bom desempenho, as redes neurais empregam uma interligação maciça de células computacionais simples denominadas neurônios ou unidades de processamento [Haykin, 2001]. Em 1943, McCulloch, um neurobiologista, e Pitts, um estatístico, publicaram um artigo intitulado: A logical calculus of ideas imminet in nervous activity. Esse artigo inspirou o desenvolvimento do computador digital. Aproximadamente na mesma época, Frank Rosenblatt também motivado pelo mesmo artigo iniciando sua pesquisa sobre modelamento do olho humano, que eventualmente levou à primeira geração de redes neurais artificiais, conhecidas como perceptron [Hu and Hwang, 2002]. 2.2 Redes Neurais Artificiais e Eletromagnetismo As redes neurais artificiais se apresentam como modelos alternativos para o projeto e modelagem de circuitos e estruturas que trabalham na faixa de microondas. A capacidade de aprendizagem e generalização de dados podem produzir uma ferramenta rápida e eficiente para circuitos integrados de microondas, mesmo quando as formulações teóricas não estão disponíveis. Trabalhos recentes têm utilizado as redes neurais artificiais para o modelamento de linhas de microfita, descontinuidades 4

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 5 CPW, projeto e análise de antenas [Chistodoulou and Georgiopoulos, 2001]. Uma vez treinados com um conjunto de dados relevantes os modelos neurais são computacionalmente mais eficientes do que métodos eletromagnéticos e mais precisos que os métodos empíricos. A principal dificuldade das técnicas que utilizam redes neurais artificiais é a necessidade de um número de amostras relativamente grande, uma vez que as simulações/medições devem executar várias combinações de características do dispositivo. 2.3 Modelagem Neural de Dispositivos de Microondas Seja, x um vetor que contém os parâmetros de um dispositivo de microondas qualquer, e y um vetor contendo o comportamento em freqüência desse dispositivo. A relação teórica entre x e y pode ser representada como: y = f(x) (2.1) A relação f pode ser não-linear e multidimensional. Na prática o modelo teórico dessa relação pode ainda não estar disponível (como por exemplo para um novo dispositivo semicondutor), ou a teoria existente do problema pode ser complicada de implementar ou possua um elevado custo computacional [Gupta and Zhang, 2000]. Para superar essas limitações, modelos neurais para substituir a relação f, precisa e eficientemente podem ser desenvolvidos através de dados, obtidos por medições ou simulações, chamados de conjunto de treinamento. O conjunto de treinamento é caracterizado por pares de entrada/saída, {(x k, d k ), k T r }, onde d k representa a saída y simulada ou medida com relação a entrada x k, e T r o conjunto de treinamento. As saídas e entradas, então podem ser relacionadas: O modelo neural pode ser defindo: d k = f(x k ) (2.2) y = y (x, w) (2.3) onde w representa a matriz de pesos sinápticos, que são os parâmetros ajustáveis dentro de uma RNA. Para o treinamento, é necessário definir uma função erro/custo, E(w), que pode ser:

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 6 E(w) = k T r E k (w) (2.4) onde E k (w) é o erro entre a predição da rede neural e a k-ésima amostra de treinamento. O treinamento de redes neurais artificiais orientadas para o modelamento de dispositivos de microondas envolve considerações sobre geração dos dados de treinamento, escolha do critério de erro e seleção do algoritmo de treinamento. Com os modelos resultantes espera-se capturar relações entrada/saída contínuas, nãolineares e multidimensionais, diferentemente de modelos neurais desenvolvidos para classificação binária de padrões e aplicações de processamento de sinais [Gupta and Zhang, 2000]. 2.4 Geração de Dados O primeiro passo no desenvolvimento de um modelo neural é a geração e coleta de dados para treinamento e teste da rede neural. Para geração de dados é necessário obter uma resposta d k para cada amostra x k de entrada. O número total de amostras, a serem geradas é escolhido de modo que o modelo neural consiga representar da melhor forma o problema original. Existem dois tipos de dados em aplicações de microondas, os medidos e os simulados. A escolha do tipo de dado gerado depende tanto da aplicação quanto da disponibilidade dos dados [Gupta and Zhang, 2000]. 2.4.1 Geração de dados a partir de medições Dados gerados a partir de medições possuem uma série de vantagens. As medições pode ser feitas mesmo se as equações para resolver o problema teoricamente não existam, ou caso a teoria seja demasiadamente complexa para implementar ou ainda exija um elevado custo computacional. Geralmente, os dados medidos representam o problema por completo incluindo efeitos secundários (efeito de bordas, conectores e elementos parasitas por exemplo). Além disso o processo de medição não envolve qualquer suposição teórica. Entretanto dados medidos também possuem desvantagens, pois algumas variáveis de projeto podem ser difíceis de medir e os equipamentos de medição possuem erros e tolerâncias.

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 7 2.4.2 Geração de dados a partir de simulações A obtenção de dados por simulações eletromagnéticas possui várias vantagens sobre as medições, pois nesse caso qualquer parâmetro pode ser facilmente modificado, uma vez que é necessário apenas uma alteração numérica e não envolve qualquer mudança física. Os erros introduzidos nos dados simulados devido aos arredondamentos são muito menores do que os produzidos pelas tolerâncias dos equipamentos de medição. Mas a geração de dados por simulações também apresenta suas desvantagens. Primeiro, a teoria do problema deve ser desenvolvida para implementação do simulador. Esses simuladores, geralmente, são limitados pelas suposições assumidas na análise teórica. Uma comparação entre dados medidos e simulados é apresenta na Tabela 2.1 [Gupta and Zhang, 2000]. Tabela 2.1: Comparação entre geração de dados medidos e simulados. Base de comparação Modelo Neural desenvolvido usando dados medidos Modelo Neural desenvolvido usando dados simulados Disponibilidade da Teoria/Equações do Problema O modelo pode ser desenvolvido mesmo se a Teoria do problema não é conhecida, ou é muito difícil de implementar. O modelo só pode ser desenvolvido se a Teoria/Equações do problemas forem conhecidas e possíveis de implementação. Suposições Nenhuma suposição é assumida e o modelo é capaz de incluir todo os efeitos, (efeitos de bordas, radiação espúria, etc.). Freqüentemente envolve suposições que podem limitar a capacidade do simulador. Mudança de Parâmetros A geração de dados pode gerar muitos custos e ser complicada de aplicar. É relativamente fácil de mudar qualquer parâmetro em um simulador. Praticidade para obter a resposta desejada. O modelo só pode ser desenvolvidos sobre as respostas possíveis de medição. Qualquer resposta pode ser modelada, uma vez que possa ser computada por um simulador. 2.5 Neurônio Perceptron Entre os diversos modelos de redes neurais que têm sido propostos, todos compartilham um bloco comum conhecido como neurônio. O modelo de neurônio mais utilizado é baseado no trabalho de McCulloch e Pitts e é apresentado na Figura 2.1.

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 8 x 1 w 1 x j w j u a w N x N Figura 2.1: Neurônio perceptron. Na Figura 2.1, o neurônio consiste de duas partes: a função da rede e a função de ativação. A função da rede determina como as entradas da rede x j ; 1 j N são combinadas dentro do neurônio. Neste caso, uma combinação linear de pesos é utilizada, tal que: N u = w j x j + θ (2.5) j=1 onde w j ; 1 j N são os parâmetros conhecidos como pesos sinápticos. A quantidade θ é chamada de bias e é usada para determinar o limiar de atuação do modelo. A saída do neurônio, denotada por a na Figura 2.1, está relacionada à entrada u através de uma transformação linear ou não-linear chamada função de ativação [Hu and Hwang, 2002]. a = f(u) (2.6) Em vários modelos de redes neurais, diferentes funções de ativação tem sido propostas. As mais comuns são mostradas na Tabela 2.2 [Hu and Hwang, 2002]. 2.6 A Rede Perceptron de Múltiplas Camadas A rede perceptron de múltiplas camadas (Multilayer Perceptron - MLP) consiste de um modelo alimentado adiante e em camadas de neurônios perceptron. Cada neurônio na MLP possui uma função de ativação não-linear que é continuamente diferenciável. As funções de ativação mais empregadas são a função sigmóide e a tangente hiperbólica. A Figura 2.2, apresenta o comportamento de uma função tangente hiperbólica que é utilizada neste trabalho. Uma rede MLP típica é apresentada na Figura 2.3, onde cada nó representa um

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 9 Tabela 2.2: Funções de ativação mais utilizadas. Função de Ativação Fórmula Derivada Comentários Sigmóide f(u) = 1 1+e u/t f(u)[1 f(u)]/t Muito utilizada; a derivada pode ser computada diretamente de f(u) Tangente Hiperbólica f(u) = tanh( u T ) (1 [f(u)]2 )/T T = Constante de Suavidade Tangente Inversa f(u) = 2 π tan 1 ( u T ) 2 πt(1+(u/t) 2 ) Menos usada Binária f(u) = j 1 se u > 0 1 se u < 0 A derivada não existe em u = 0 Gaussiana de base radial f(u) = exp ˆ u c 2 /σ 2 2(u c)f(u)/σ 2 Usada em redes de função de base radial Linear f(u) = au + b a 1 0.5 0 0.5 1 10 5 0 5 10 Figura 2.2: Exemplo de uma função tangente hiperbólica. neurônio individual. Esses neurônios são organizados em camadas, denominadas primeira e segunda camadas ocultas e camada de saída. O nome camada oculta refere-se ao fato de que a resposta desses neurônios irá passar para a próxima camada de neurônios, sendo seu comportamento oculto do usuário que somente terá acesso as respostas da camada de saída. As entradas também são apresentadas a rede através de uma pseudo-camada que não possui nenhum modelo de neurônio implementado

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 10 denominada camada de entrada. A Figura 2.3 ilustra uma configuração popular da rede MLP onde as interconexões estão presentes apenas entre neurônios de camadas vizinhas [Hu and Hwang, 2002]. θ θ θ I 1 I 2 O 1 Figura 2.3: Exemplo de configuração típica de uma rede perceptron de múltiplas camadas. Como pode-se notar através da Figura 2.3, uma rede neural multilayer perceptron é um processador paralelo distribuído constituído de unidades de processamento simples, que tem a propensão natural para armazenar conhecimento experimental e torná-lo disponível para o uso. Ela se assemelha ao cérebro em dois aspectos [Haykin, 2001]: O conhecimento é adquirido pela rede a partir de seu ambiente através de um processo de aprendizagem. As conexões ponderadas entre os neurônios, conhecidas como pesos sinápticos, são utilizadas para armazenar o conhecimento adquirido pela RNA. 2.6.1 Treinamento de Redes MLP A propriedade que é de importância fundamental para uma rede neural é a sua habilidade de aprender a partir de seu ambiente e de melhorar o seu desempenho através da aprendizagem. Uma rede neural aprende acerca do seu ambiente através de um processo iterativo de ajustes aplicados a seus parâmetros livres (pesos sinápticos). Um conjunto preestabelecido de regras bem-definidas para a solução de um problema de aprendizagem é denominado algoritmo de treinamento. Como se pode esperar, não há um algoritmo de aprendizagem único para o projeto de redes neurais. Em vez disso, tem-se um conjunto de ferramentas representado por uma variedade de algoritmos de treinamento, cada qual oferecendo vantagens específicas.

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 11 Basicamente, os algoritmos diferem entre si pela forma como é formulado o ajuste dos parâmetros livres da rede [Haykin, 2001]. As redes MLP têm sido aplicadas com sucesso para resolver diversos problemas, através do seu treinamento de forma supervisionada com um algoritmo muito conhecido como algoritmo de retropropagação de erro. Basicamente, a aprendizagem por retropropagação de erro consiste de dois passos através das diferentes camadas da rede: um passo para frente, a propagação, e um passo para trás, a retropropagação. No passo para frente, um padrão de atividade (vetor de entrada) é apresentado a camada de entrada da rede e seu efeito se propaga adiante camada por camada. Finalmente, um conjunto de saídas é produzido como a resposta real da rede. Durante o passo de propagação os pesos sinápticos da rede são todos fixos. Durante o passo para trás, por outro lado, os pesos sinápticos são todos ajustados de acordo com uma regra de correção de erro. Especificamente, a resposta real da rede é subtraída de uma resposta desejada para produzir um sinal de erro. Este sinal de erro é então propagado para trás através da rede, contra a direção das conexões sinápticas. Os pesos são ajustados para fazer com que a resposta real da rede se mova para mais perto da resposta desejada, em um sentido estatístico. O algoritmo de Retropropagação de erro é também referido na literatura como algoritmo backpropagation [Haykin, 2001]. Nesta seção serão apresentados os algoritmos que foram utilizados nos processos de treinamento das redes neurais artificiais utilizadas no trabalho. Algoritmo de Treinamento Backpropagation O algoritmo de treinamento por retropropagação é um método de aprendizagem supervisionada, ou seja, é necessário o conhecimento prévio de relações de entrada/saída de forma que possam ser utilizadas para o treinamento da rede. Considere um conjunto de dados de treinamento formados pelo vetor de entradas representado por x, em que x = [x 1, x 2,...,x i,...,x I ], e que o vetor de respostas desejadas representado por d, onde d = [d 1, d 2,...,d k,...,d K ]. O objetivo do processo de treinamento é que a resposta da rede, representada aqui por y, onde y = [y 1, y 2,...,y k,...,y K ], seja próxima ao vetor d. Na iteração n, onde o n-ésimo padrão de treinamento, x(n), é apresentado à rede, o sinal de erro na saída do neurônio k é dado por: e k = d k (n) y k (n) (2.7)

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 12 Somando-se os valores instantâneos da energia do erro de todos os neurônios da camada de saída, obtém-se o valor instantâneo da energia do erro, como se segue: E(n) = 1 2K K e k (n) 2 (2.8) k=1 A energia média do erro quadrático é obtida somando-se os E(n) para todas as iterações e então normalizando em relação ao número total de exemplos, N, como expressado a seguir: E med = 1 N N n=1 E(n) = 1 2N N n=1 k=1 K e k (n) 2 (2.9) A energia média do erro quadrático, E med, é função de todos os parâmetros livres da rede, e representa a função de custo como uma medida do desempenho da aprendizagem. Cada iteração do algoritmo é realizada com o objetivo de minimizar a função custo, ou seja, o vetor dos pesos sinápticos, w, é ajustado através de um processo de otimização. O método do gradiente decrescente é um dos processos de otimização mais comumente usados para treinar redes MLP, e é descrito como segue: w = η E(n) (2.10) em que η é a taxa de aprendizagem. A partir dos cálculos dos gradientes locais da função custo, E(n), na camada de saída, k, e na camada oculta, j, obtêm-se as relações para os ajustes dos pesos sinápticos [Haykin, 2001]: Para a camada de saída w kj = ηe k (n)g k(v k (n))y j (2.11) Para a camada oculta w ji = g j (v j(n)) K e k (n)g k (v k (n))w kj (n)x i (2.12) k

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 13 sendo g j e g k as derivadas das funções de ativação g j e g k referentes as camadas ocultas e de saída, respectivamente, e v j o produto interno entre os pesos e as entradas do neurônio j. Apesar desta regra de aprendizado ser bastante simples, a escolha de uma taxa de aprendizado apropriada é uma tarefa difícil. Outro problema do método do gradiente é a influência da derivada parcial nos valores dos ajustes calculados. Além disso, mesmo que sob certas circunstâncias a convergência para um mínimo (local) possa ser provada, não há garantias que o mínimo global da função seja encontrado. Uma idéia inicial para tornar o aprendizado mais estável, reduzindo as oscilações dos pesos durante o treinamento da rede MLP, é a inclusão do termo momento: w(n) = η E(n) + α w(n 1) (2.13) A constante positiva α controla a influência do ajuste anterior sobre o ajuste atual dos pesos, é denominada termo momento. Deve-se observar que, apesar de ser bem aplicada em muitas tarefas de aprendizado, esta não é uma técnica geral para ganhos de estabilidade e aceleração da convergência. É comum, no uso do método do gradiente com o termo momento, reduzir a taxa de aprendizado para evitar instabilidade no processo de aprendizado [Silva, 2002]. Após a determinação de w, a atualização dos pesos se resume a: w(n + 1) = w(n) + w (2.14) Algoritmo de Treinamento Rprop O Rprop (Resilient BackPropagation) é um eficiente esquema de aprendizagem que executa a adaptação direta da atualização dos pesos sinápticos baseado na informação do gradiente local. Um diferença crucial em relação ao algoritmo anterior é que o esforço da adaptação não é prejudicado pelo comportamento do gradiente. Para diminuir esse comportamento, é introduzido um valor de atualização ij para cada peso sináptico, que determina unicamente a amplitude da atualização do peso. Essa atualização adaptativa evolui durante o processo de treinamento baseada na visão local da função custo, E, de acordo com a seguinte regra de aprendizagem [Riedmiller and Braun, 1993]:

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 14 (t) ij = η + (t 1) ij η (t 1) ij (t 1) ij E(t) w ij > 0 E(t) w ij < 0 caso contrário se E(t 1) w ij se E(t 1) w ij (2.15) onde 0<η < 1 < η + e t representa o número de épocas no treinamento em lote. Seguindo a regra anterior, toda vez que a derivada parcial correspondente ao peso w ij muda seu sinal em relação ao passo de tempo anterior, indica que a última atualização foi muito alta e o algoritmo passou por um mínimo local, então o valor de atualização ij é decrescido pelo fator de η. Caso a derivada mantenha o mesmo sinal, o valor atualização é incrementado de forma a acelerar a convergência. Uma vez que o valor de atualização, ij, para cada peso é adaptado, a atualização dos pesos segue uma regra simples: se a derivada for positiva (aumentando o erro), o peso será reduzido pelo seu valor de atualização, caso a derivada seja negativa, o valor de atualização passará então a ser positivo [Riedmiller and Braun, 1993]: w (t) ij = (t) ij se E(t) w ij > 0 + (t) ij se E(t) w ij < 0 0 caso contrário (2.16) w (t+1) ij = w (t) ij + w(t) ij (2.17) No entanto, existe uma exceção: se a derivada parcial trocar de sinal, isto é o passo anterior for grande demais e o mínimo foi ultrapassado, então a atualização do peso, w ij, é revertido: w (t) ij = w (t 1) ij se E(t 1) w ij E(t) w ij < 0 (2.18) Por causa disso, a derivada supostamente deverá mudar seu sinal novamente no passo seguinte, para evitar que ocorra uma punição novamente do valor de atualização, não deve haver adaptação do valor de atuação no passo posterior, e uma forma prática de evitar isso é fazendo com que E(t 1) w ij = 0. Os valores de atualização e os pesos somente são modificados depois que todo o conjunto de treinamento é apresentado a rede, o que caracteriza aprendizagem por lote ou batch [Riedmiller and Braun, 1993]. Inicialmente, todos o valores de ajuste são iguais à constante 0, que é um dos parâmetros do Rprop. Desde que 0 determina diretamente a amplitude do primeiro

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 15 ajuste dos pesos, ele pode ser escolhido de acordo com a magnitude dos pesos iniciais, por exemplo 0 = 0, 1 [Riedmiller and Braun, 1993]. A escolha desse valor não é crítica, já que seu valor é adaptado enquanto o treinamento ocorre [Silva, 2002]. No treinamento da rede através do algoritmo Rprop, a fim de se evitar uma variação excessiva dos pesos, define-se um parâmetro para o valor máximo de ajuste, max. De forma a evitar esse fenômeno o valor max = 50 foi sugerido por [Riedmiller and Braun, 1993]. Os fatores de acréscimo e decréscimo são fixados em η + = 1, 2 e η = 0, 5. Estes valores são baseados em considerações teóricas e empíricas. Sendo assim o número de parâmetros fica reduzido a dois, 0 e max [Riedmiller and Braun, 1993] [Silva, 2002]. 2.7 Redes de Função de Base Radial As redes Neurais de função de base radial (Radial Base Function - RBF) são casos especiais de redes multicamadas alimentadas adiante. Para a construção de uma rede de função de base radial em sua forma mais básica, são necessárias três camadas com papéis totalmente diferentes. A camada de entrada é constituída por nós de alimentação que conectam a rede ao seu ambiente. A segunda camada, a única camada oculta da rede, aplica uma transformação não-linear do espaço de entrada para o espaço oculto; na maioria das aplicações, o espaço oculto é de alta dimensionalidade. A camada de saída é composta por ponderações lineares (pesos sinápticos), que fornecem a resposta da rede ao padrão de sinal aplicado na entrada [Haykin, 2001]. I 1 ϕ() θ I 2 ϕ() O 1 I 3 ϕ() O 1 I 4 ϕ() entrada da rede camada oculta camada de saida Figura 2.4: Exemplo de configuração típica de uma rede RBF

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 16 Para um conjunto de entradas, I, a saída de uma rede RBF pode ser expressa como se segue [Haykin, 2001] J O k = w jk ϕ(x) (2.19) j=0 onde w jk representa os pesos sinápticos referentes à camada de saída e ϕ() funções de base radial, que realizam a transformação não-linear através da norma entre um centro pré-determinado e os dados de entrada. Há uma classe grande de funções de base radial. As seguintes funções são de particular interesse no estudo de redes neurais artificiais: [Silva, 2002] Função Multiquadrática ϕ(i) = ( I 2 + c 2 j) 1/2 (2.20) Função Multiquadrática Inversa ϕ(i) = 1 ( I 2 + c 2 j) 1/2 (2.21) Função Gaussiana Função Sample ) ϕ(i) = exp ( I 2 2σ 2 j (2.22) ϕ(i) = sen(σ j I c j 2 σ j I c j 2 (2.23) A Figura 2.5 apresenta o comportamento de uma função sample. Existem diferentes estratégias de aprendizagem que podem ser usadas no projeto de uma rede RBF. O ponto importante é que as camadas de uma rede RBF realizam tarefas diferentes, e assim é razoável separar a otimização das camadas ocultas e da saída da rede usando técnicas diferenciadas e talvez operando em escalas de tempo distintas [Haykin, 2001]. Dentre os tipos de treinamento da rede RBF, destacamse [Silva, 2002]: Seleção auto-organizada dos centros. Seleção aleatória dos centros. Seleção supervisionada dos centros.

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 17 1 0.8 0.6 0.4 0.2 0 0.2 0.4 20 15 10 5 0 5 10 15 20 Figura 2.5: Exemplo de uma função de base radial do tipo sample. 2.7.1 Treinamento utilizando seleção auto-organizada dos centros Na seleção auto-organizada dos centros é necessário a utilização de um algoritmo de agrupamento que particione o conjunto de treinamento em subgrupos, cada um dos quais o mais homogêneo possível. Uma das soluções é o uso do algoritmo das k-médias, que coloca os centros das funções de base radial apenas naquelas regiões do espaço de entrada onde os dados mais significativos estão presentes. O algoritmo das k-médias atua como segue [Haykin, 2001]: 1. Inicialização. Escolha valores aleatórios para os centros iniciais c k (0); a única restrição é que estes valores iniciais sejam diferentes. 2. Amostragem. Retire um vetor x do espaço de entrada. O vetor x é apresentado à entrada do algoritmo na iteração n. 3. Casamento de Similaridade. Considere que k(x) represente o índice do centro com o melhor casamento com o vetor de entrada x. Encontre k(x) usando a distância Euclidiana mínima como critério para determinar qual centro será escolhido. 4. Ajuste os centros das funções de base radial, usando a regra de atualização: { c k (n) + η[x(n) c k (n)], k = k(x) c k (n + 1) = (2.24) c k (n), caso contrário onde η é um parâmetro da taxa de aprendizagem no intervalo de 0 < η < 1. 5. Continuação. Incremente n de 1, volte para o passo 2 e continue o procedimento até que não sejam mais observadas modificações nos centros c k.

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 18 O algoritmo de agrupamento de k-médias descrito é, de fato, um caso especial de um processo de aprendizagem competitiva conhecido como mapa auto-organizável [Haykin, 2001]. Com os centros já determinados deve-se então calcular os valores dos desviospadrão, σ, que representam o espalhamento das funções de base radial e que podem ser calculados com a seguinte fórmula: σ = d max (2.25) 2m1 onde d max e m 1 correspondem a distância máxima entre os centros escolhidos e a quantidade de centros, respectivamente. Os únicos parâmetros que realmente são aprendidos nesta abordagem são os pesos lineares referentes à camada perceptron da rede RBF. Neste caso, de forma a utilizar um procedimento direto para a determinação da matriz de pesos, w, foi utilizado um procedimento conhecido como método da pseudoinverva. No método da pseudoinversa, é possível determinar a matriz de pesos, w, em um único passo uma vez que se tenha conhecimento das respostas desejadas, d, como segue: w = G + d (2.26) A matriz G + é a pseudoinversa da matriz G, que é a resposta da camada RBF, após o treinamento, para todos os valores de entrada I, sendo definida por : G = g ij = ϕ(i j, c i ), j = 1, 2,..., N; i = 1, 2,..., m 1 (2.27) Onde N é a quantidade de vetores de treinamento da rede, e I j é o j-ésimo vetor de entrada. 2.7.2 Treinamento utilizando seleção supervisionada dos centros Nessa abordagem, todos os parâmetros livres da rede RBF são ajustados no processo de aprendizagem. O processo de aprendizagem, através da seleção supervisionada dos centros,ao qual uma rede de função de base radial é submetida, pode ser visualizado como segue. Os pesos associados com as unidades de saída da rede tendem a evoluir em

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 19 uma escala de tempo diferente comparada às funções de ativação não-lineares das unidades ocultas. Assim, como as funções de ativação da camada oculta evoluem lentamente de acordo com alguma estratégia de otimização não-linear, os pesos da camada de saída se ajustam rapidamente através de uma estratégia de otimização linear. O método do gradiente descendente pode ser usado em um procedimento de correção do erro [Haykin, 2001], de modo a ajustar os pesos sinápticos, w j, o vetor de centros, c j e os desvios padrão, σ j, das funções de base radial. Segundo o método do gradiente descendente, o ajuste dos pesos sinápticos é proporcional ao gradiente negativo da função custo, dessa forma tem-se para o ajuste dos pesos sinápticos: [Fernandes, 2004] w j = η w E(n) w j = η w K e k (n)ϕ j (x(n)) (2.28) Para o ajuste dos centros, mais uma vez aplicando o método do gradiente, tem-se: k=1 c j = η c E(n) c j K = 2η c w j (n) e k (n)ϕ j (x(n))σ j (x(n) c j ). (2.29) k=1 De maneira bem similar, obtém-se a expressão para o ajuste dos desvios padrão das funções de ativação, definida abaixo: σ 2 j = η σ E(n) σ 2 j K = 2η σ w j e k (n)ϕ j (x(n)) x c j 2 k=1 σ 2 j (2.30) Essa estratégia de aprendizagem supervisionada dos centros e das variâncias exige um esforço computacional mais elevado que as outras estratégias. [Fernandes, 2004]. 2.8 Comparação entre redes MLP e RBF Redes perceptron de múltiplas camadas e redes de função de base radial pertencem a uma classe geral de redes neurais alimentadas adiante, onde o processamento da informação na estrutura da rede segue apenas uma direção, dos neurônios de entrada aos de saída. No entanto, as funções de ativação presentes nos neurônios ocultos nas MLP e nas RBF possuem comportamentos diferentes. Primeiramente, a função de ativação de cada neurônio oculto em uma rede multilayer perceptron,

CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS 20 geralmente, processa o produto interno entre o vetor de entrada e o vetor de pesos sinápticos do neurônio em questão. Por outro lado, a função de ativação em cada neurônio oculto em uma rede RBF processa a norma entre os vetores de entrada e os centros de cada neurônio. Dessa forma, redes MLP constroem aproximações globais para o mapeamento não-linear entre entrada/saída. Conseqüentemente, elas são capazes de generalizar em regiões do espaço de entrada onde há poucos ou nenhum dado de treinamento disponível. Inversamente redes RBF desenvolvem aproximações locais para as não-linearidades entre a entrada e a saída. Como resultado, redes de função de base radial aprendem rapidamente. Em redes RBF um neurônio oculto influencia a saída da rede apenas para as entradas que estão próximas ao seu centro, requerendo assim um maior número de neurônios ocultos para cobrir todo o espaço de entrada [Gupta and Zhang, 2000]. 2.9 Overlearning e Underlearning A habilidade de uma rede neural artificial de estimar uma saída, O, precisamente quando lhe é apresentada uma entrada, I, nunca utilizada durante o processo de treinamento é chamada de capacidade de generalização. A capacidade de generalização está diretamente ligado às condições de treinamento da rede que podem ser divididas em [Gupta and Zhang, 2000]: Overlearning é um fenômeno no qual a RNA memoriza os dados de treinamento mas não consegue generalizar corretamente. Em outras palavras, o erro de treinamento é pequeno, mas o erro de validação é muito maior que o erro de treinamento. Possíveis razões para essa situação, incluem a presença de muitos neurônios ocultos ou insuficientes dados de treinamento. Neurônios em demasia nas camadas ocultas acarretam muita liberdade na relação entrada/saída da rede. Underlearning, por outro lado, é uma situação em que a rede neural artificial encontra dificuldades até mesmo na aprendizagem dos dados de treinamento. Provavelmente isso ocorra devido a insuficiência de neurônios nas camadas ocultas, poucos dados de treinamento ou o procedimento de treinamento ficou preso em um mínimo local. Soluções sugeridas, são a adição de neurônios ocultos ao modelo, dar continuidade ao treinamento por um período de tempo mais prolongado e causar algum tipo de perturbação nos valores da matriz de peso, w, dessa forma tentando escapar de algum mínimo local.