Modelos de Dispositivos de Microondas e Ópticos Através de Redes Neurais Artificiais de Alimentação Direta

Transcrição

1 UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE Universidade Federal do Rio Grande do Norte Centro de Tecnologia Programa de Pós-Graduação em Engenharia Elétrica Modelos de Dispositivos de Microondas e Ópticos Através de Redes Neurais Artificiais de Alimentação Direta Márcio Galdino Passos Orientador: Prof. Dr. Humberto César Chaves Fernandes Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia Elétrica da UFRN (área de concentração: Telecomunicações) como parte dos requisitos para obtenção do título de Mestre em Ciências. Natal, RN, junho de 2006

2 Livros Grátis Milhares de livros grátis para download.

3 Divisão de Serviços Técnicos Catalogação da publicação na fonte. UFRN / Biblioteca Central Zila Mamede Passos, Márcio Galdino. Modelos de dispositivos de microondas e ópticos através de redes neurais artificiais de alimentação direta / Márcio Galdino Passos - Natal, RN, f. : il. Orientador: Humberto César Chaves Fernandes. Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte. Centro de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica. 1. Redes neurais artificiais - Dissertação. 2. Modelagem não linear - Dissertação. 3. Amplificadores ópticos - Dissertação. 4. Dispositivos de microondas - Dissertação. I. Fernandes, Humberto César Chaves. II. Título. RN/UF/BCZM CDU (043.3)

4 Modelos de Dispositivos de Microondas e Ópticos Através de Redes Neurais Artificiais de Alimentação Direta Márcio Galdino Passos Dissertação de Mestrado aprovada em 19 de Junho de 2006 pela banca examinadora composta pelos seguintes membros: Prof. Dr. Humberto César Chaves Fernandes (orientador).. DEE/UFRN Prof. Dr. Paulo Henrique da Fonseca Silva CEFET-PB Prof. Dr. Cláudio Rodrigues Muniz da Silva DEE/UFRN Prof. Dr. José Alfrêdo Ferreira Costa DEE/UFRN

5

6 Agradecimentos Aos meus pais e irmãos pelo apoio, incentivo, orientação, encorajamento, paciência, enfim, tantas qualidades demonstradas não só nestes últimos dois anos, mas desde sempre. Obrigado! Ao professor Paulo Henrique da Fonseca Silva, pela ajuda técnica, motivação e amizade compartilhadas desde o início deste trabalho. Ao professor Humberto César Chaves Fernandes, por me acolher no seu grupo de pesquisa. À Juliana Passamani, pelo carinho, compreensão, paciência, incentivo e companheirismo. Serei eternamente grato! Aos meus companheiros de luta: Patric Lacouth, Rafael Marrocos e Danilo Lima, por toda ajuda, que, sem dúvida foram essenciais no decorrer de todo o mestrado. À Maria Goes, pela hospitalidade no período mais difícil desta jornada. À Raquel Basílio, pela correção gramatical desta dissertação. Aos professores Alfrêdo Gomes Neto e Silvana Luciene Cunha Costa, por suas contribuições mais do que significativas para a concretização deste trabalho. À CAPES, pelo apoio financeiro. Aos demais colegas e professores do PPGEE, que, de uma forma ou de outra, também contribuíram com minha formação acadêmica.

7

8 Sumário Sumário Lista de Figuras Lista de Tabelas Lista de Símbolos Lista de Siglas e Acrônimos i v ix xi xv 1 Introdução Motivação Estado da Arte Organização do Trabalho Redes Neurais Artificiais de Alimentação Direta Introdução às Redes Neurais Artificiais Redes Perceptrons de Múltiplas Camadas Redes de Funções de Base Radial Redes de Funções Sample Redes Modulares Técnicas e Algoritmos de Treinamento Aprendizado Supervisionado Algoritmo Backpropagation Algoritmo Resilient Backpropagation Derivação das Equações de Ajuste a partir do Método do Gradiente Método do Gradiente Algoritmo Backpropagation Aplicado à Rede MLP i

9 3.2.1 Computação no Sentido Direto Computação no Sentido Reverso Algoritmo Backpropagation Aplicado à Rede RBF Computação no Sentido Direto Computação no Sentido Reverso Algoritmo Backpropagation Aplicado à Rede SFNN Computação no Sentido Direto Computação no Sentido Reverso Algoritmo Resilient Backpropagation Modelos de Dispositivos de Microondas Antenas de Microfita Modelo da Freqüência de Ressonância de um Ressoador Retangular de Microfita Através de uma Rede MLP Modelo da Perda de Retorno de uma Antena de Microfita com Substrato PBG Através de uma Rede Modular RBF/MLP Rprop Guia de Ondas UC-PBG Modelo do Campo Elétrico de um Guia de Ondas UC-PBG Através de uma Rede Modular RBF/MLP Rprop Linha de Microfita com Substrato de GaAs Modelo das Perdas em uma Linha de Microfita com Substrato de GaAs Através de uma Rede Modular RBF/MLP Modelos de Dispositivos Ópticos Baseados em GaAs Amplificadores Ópticos Modelo Físico para o Cálculo do Coeficiente de Ganho em um SLA Modelo do Coeficiente de Ganho em um SLA de InGaAsP Através de uma Rede Modular SFNN/RProp Modelo do Coeficiente de Ganho em um SLA de GaAs Através de Redes Modulares Conclusões 77 Referências bibliográficas 81

10 Índice Remissivo 87

11

12 Lista de Figuras 2.1 Exemplo de uma rede de alimentação direta Exemplo de uma rede recorrente Taxonomia utilizada para as redes de alimentação direta e redes recorrentes Modelo de neurônio artifical (perceptron) utilizado nas redes MLPs Formas da função sample com variações dos centros e das larguras Arquitetura da rede modular Configurações utilizando: (a) SFNN. (b) RBF/MLP Região de interesse a ser modelada Representação do processo de aprendizado supervisionado Um modelo neural ilustrando: (a) Overlearning; (b) Underlearning; (c) Boa aprendizagem Curvas de erro de treino e de teste apresentando o melhor ponto de aprendizado Influência da magnitude das derivadas e da taxa de aprendizado na busca do mínimo global na superfície de erro Configuração de uma rede MLP com uma camada de neurônios ocultos e um neurônio na camada de saída Configuração de uma rede RBF com um neurônio na camada de saída Configuração de uma antena de microfita Propagação de ondas de superfície em um substrato de uma antena de microfita e suas difrações na borda Antena de microfita com substrato PBG Ressoador retangular de microfita Saída da rede MLP - Ressoador retangular de microfita Parâmetros utilizados no treinamento da rede modular para a antena de microfita com substrato PBG v

13 4.7 Resposta das redes especialistas 1 e 2 - Antena de microfita com substrato PBG Respostas da rede modular para: (a) h = 0,794 mm; (b) h = 0,9528 mm; (c) h = 1,588 mm - Antena de microfita com substrato PBG Generalização da rede modular para h = 1,4292 mm - Antena de microfita com substrato PBG Análise comparativa dos modelos para a antena de microfita através das redes RBF, MLP e Modular RBF/MLP Guia de ondas UC-PBG: (a) Diagrama esquemático; (b) Material PBG Guia de ondas UC-PBG: (a) Dimensões e locais de medição do campo elétrico; (b) Dimensões da célula PBG Parâmetros utilizados no treinamento da rede modular para guia de ondas UC-PBG Resposta das redes especialistas 1 e 2 - Guia de Ondas UC-PBG Resposta da rede modular híbrida RBF/MLP Rprop - Guia de Ondas UC-PBG Análise comparativa dos modelos para o guia de ondas UC-PBG através das redes RBF, MLP e Modular RBF/MLP Linha de microfita com substrato de GaAs - Seção transversal Parâmetros utilizados no treinamento da rede modular para a linha de microfita com o substrato de GaAs Resposta das redes especialistas 1 e 2 - Linha de microfita com substrato de GaAs Resposta da rede modular híbrida RBF/MLP Rprop - Linha de microfita com substrato de GaAs Generalização da rede modular híbrida RBF/MLP Rprop e comparação com programas CAD e rede MLP simples - Linha de microfita com substrato de GaAs Diagrama simplificado de um amplificador óptico Dois tipos de amplificadores ópticos. (a) Amplificador de fibra. (b) Amplificador a laser semicondutor Parâmetros utilizados no treinamento da rede modular para o SLA de InGaAsP Resposta da rede especialista 1 - SLA de InGaAsP

14 5.5 Resposta da rede especialista 2 - SLA de InGaAsP Resposta da rede modular - SLA de InGaAsP Evolução do treinamento da rede de saída através do algoritmo RProp - SLA de InGaAsP Parâmetros utilizados no treinamento da rede modular para o SLA de GaAs Resposta da rede especialista 1 - SLA de GaAs Resposta da rede especialista 2 - SLA de GaAs Resposta da rede modular - SLA de GaAs Evolução do treinamento da rede de saída através do algoritmo RProp - SLA de GaAs Generalização da rede modular SFNN dentro da região de interesse: (a) Gráfico Bidimensional; (b) Gráfico Tridimensional Estimativa dos valores de pico do coeficiente de ganho do SLA de GaAs - Rede modular e referência Saída das redes especialistas RBF - SLA de GaAs Resposta da rede de saída MLP - SLA de GaAs Generalização da rede modular RBF/MLP na região de interesse - SLA de GaAs Estimativa dos valores de pico do coeficiente de ganho do SLA de GaAs através da rede RBF/MLP - Rede modular e referência

15

16 Lista de Tabelas 4.1 Principais características do ressoador retangular de microfita modelado Informações de treinamento da MLP/Rprop na modelagem do ressoador retangular de microfita Principais características da antena de microfita modelada Informações de treinamento das redes especialistas para modelagem da antena de microfita com substrato PBG Informações de treinamento da rede de saída para modelagem da antena de microfita com substrato PBG Principais características do guia de ondas UC-PBG modelado Informações de treinamento das redes especialistas para modelagem do guia de ondas UC-PBG Informações de treinamento da rede de saída para modelagem do guia de ondas UC-PBG Informações de treinamento das redes especialistas para modelagem da linha de microfita com substrato de GaAs Informações de treinamento da rede de saída para modelagem da linha de microfita com substrato de GaAs Comparação entre EDFA e SLA Principais características do SLA de InGaAsP modelado Informações de treinamento das redes especialistas para modelagem do SLA de InGaAsP Informações de treinamento da rede de saída para modelagem do SLA de InGaAsP Principais características do SLA de GaAs modelado Informações de treinamento das redes especialistas SFNN para modelagem do SLA de GaAs ix

17 5.7 Informações de treinamento da rede de saída SFNN para modelagem do SLA de GaAs Informações de treinamento das redes especialistas RBF para modelagem do SLA de GaAs Informações de treinamento da rede de saída MLP para modelagem do SLA de GaAs

18 Lista de Símbolos Letras Gregas α 0 γ 0 constante de atenuação coeficiente de ganho, ij valores de ajuste n concentração de portadoras injetadas ɛ r η,δ η +,η η w, η σ, η v θ κ λ p ν permissividade elétrica relativa taxas de aprendizado global constantes: 1,2 e 0,5 respectivamente taxas de aprendizado específicas valor de polarização ou bias constante comprimento de onda polarizada freqüência óptica π constante: 3, σ 2 τ τ r φ largura ou espalhamento de uma função de base radial ângulo de elevação tempo de recombinação elétrons-lacunas densidade do fluxo de fótons ϕ, ϕ 1, ϕ 2 funções de ativação xi

19 Letras Romanas B coeficiente de Einstein d(n) resposta desejada para o exemplo n e erro entre a resposta desejada e a saída da rede E erro quadrático instantâneo E n E T E E T R f f v, f c g(hν) g v, g c h hν nível arbitrário de energia erro de teste erro de treinamento freqüência distribuições de Fermi-Dirac ganho entre absorção e emissão densidades de estados altura do substrato energia do fóton H, h constante de Planck e esta dividida por 2π L comprimento do ressoador retangular de microfita m c, m v massa efetiva de elétrons nas bandas de condução e valência m e massa efetiva do elétron M SE erro médio quadrático n número do exemplo de treinamento N número total de exemplos de treinamento Ne número de entradas da rede net j potencial de ativação N h número de unidades ocultas N s número de saídas p, q, g, i medidas da célula PBG r, s medidas do guia de onda UC-PBG S ij t T T e T r V d v kj x i parâmetro de espalhamento época de treinamento temperatura dados de teste dados de treinamento dados de validação peso da camada de saída da rede entrada da rede neural

20 y j w w ji w j W z k saída da camada oculta largura da linha de microfita peso da camada oculta de uma MLP centro de uma função de base radial largura do ressoador retangular de microfita saída da rede neural

21

22 Lista de Siglas e Acrônimos ANN BP CAD CPW EDFA EM EM-ANN FDTD FNN GaAs HEMT InGaAsP KBNN MBH ME MESFET MHE MLP MMIC MSE PBG PKI RBF RF RNA Rprop SD SFNN Artificial Neural Network Backpropagation Computer Aided Design Coplanar Waveguide Erbium Doped Fiber Amplifier Electromagnetic Electromagnetic - Artificial Neural Network Finite Difference Time Domain Feedforward Neural Network Arseneto de Gálio High Electron Mobility Transistor Arseneto Fosfeto de Índio Gálio Knowledge Based Neural Network Método do Balanço Harmônico Mistura de Especialistas Metal-Semiconductor Field Effect Transistor Mistura Hierárquica de Especialistas Multilayer Perceptron Monolithic Microwave Integrated Circuit Mean Square Error Photonic Bandgap Priori Knowledge Input Radial Basis Function Radio Frequency Rede Neural Artificial Resilient Backpropagation Spectral Domain Sample Function Neural Network xv

23 SLA SM-ANN TE TEM TM UC-PBG VLSI Semiconductor Laser Amplifier Space Mapping - Artificial Neural Network Transverse Electric Transverse Electromagnetic Transverse Magnetic Uniplanar Compact - Photonic Bandgap Very Large Scale Integration

24 Resumo Esta dissertação contribui para o desenvolvimento de metodologias através de redes neurais artificiais de alimentação direta para a modelagem de dispositivos de microondas e ópticos. Uma revisão bibliográfica sobre as aplicações de técnicas neuro-computacionais na áreas de engenharia de microondas e óptica foi realizada. As características das redes MLP, RBF e SFNN, bem como as estratégias de aprendizado supervisionado foram apresentadas. As expressões de ajuste dos parâmetros livres das redes acima citadas foram deduzidas a partir do método do gradiente. O método convencional EM-ANN foi aplicado na modelagem de dispositivos passivos de microondas e amplificadores ópticos. Para isto, foram propostas configurações modulares baseadas em redes SFNN e RBF/MLP objetivando uma maior capacidade de generalização dos modelos. No que se refere ao treinamento das redes utilizadas, o algoritmo Rprop foi aplicado. Todos os algoritmos utilizados na obtenção dos modelos desta dissertação foram implementados em Matlab TM. Palavras-chave: Redes Neurais Artificiais, Modelagem Não Linear, Amplificadores Ópticos, Dispositivos de Microondas. xvii

25

26 Abstract This dissertation contributes for the development of methodologies through feed forward artificial neural networks for microwave and optical devices modeling. A bibliographical revision on the applications of neuro-computational techniques in the areas of microwave/optical engineering was carried through. Characteristics of networks MLP, RBF and SFNN, as well as the strategies of supervised learning had been presented. Adjustment expressions of the networks free parameters above cited had been deduced from the gradient method. Conventional method EM-ANN was applied in the modeling of microwave passive devices and optical amplifiers. For this, they had been proposals modular configurations based in networks SFNN and RBF/MLP objectifying a bigger capacity of models generalization. As for the training of the used networks, the Rprop algorithm was applied. All the algorithms used in the attainment of the models of this dissertation had been implemented in Matlab TM. Keywords: Artificial Neural Networks, Nonlinear Modeling, Optical Amplifiers, Microwave Devices. xix

27

28 Capítulo 1 Introdução Neste capítulo introdutório são explicadas as motivações para a realização deste trabalho com o uso das redes neurais artificiais para implementação de ferramentas de auxílio à modelagem de dispositivos de microondas e ópticos. É apresentado um estudo revisional sobre o estado da arte nesta área, mostrando algumas referências bibliográficas e trabalhos de autores conceituados sobre a utilização das redes neurais nas áreas da engenharia de microondas e sistemas ópticos. Destaca-se a forma em que este trabalho está organizado, bem como, uma síntese do seu conteúdo. 1.1 Motivação O uso constante de ferramentas computacionais para o desenvolvimento de projetos de dispositivos, para sistemas de comunicações, tem gerado um novo paradigma na modelagem e simulação destes. As ferramentas de projeto auxiliado por computador (CAD) para aplicações nas faixas de rádio freqüência (RF), microondas, ondas milimétricas e óptica receberam um maior destaque a partir da década de 90. Algumas destas ferramentas incluem: modelagem precisa de dispositivos passivos e ativos, simulação eletromagnética computacional e análise de circuitos não lineares utilizando balanço harmônico e aproximações no domínio do tempo [1]. Simuladores eletromagnéticos (EM s) para estruturas em altas-freqüências foram desenvolvidos, tornando o CAD para a elaboração de circuitos e dispositivos de RF/microondas e ópticos o estado da arte na área. Isto se deve, em parte, à grande demanda do mercado e da indústria por tais itens. Por exemplo, os dispositivos ópticos possuem características muito desejáveis nos sistemas de telecomunicações, tais como baixo custo, ampla largura de banda, atenuação relativamente reduzida,

29 2 CAPÍTULO 1. INTRODUÇÃO baixo peso e tamanho e imunidade contra interferências externas [2]. Já os circuitos de RF/microondas tiveram um grande avanço, permitindo, com a tecnologia planar, a confecção de circuitos híbridos, circuitos integrados monolíticos de microondas (MMIC) para aplicações em arranjos de fase e sistemas de comunicações sem fio [3]. A análise estatística e otimização baseada em modelos físicos rigorosos - eletromagnéticos - de componentes ativos e passivos pode ser uma boa solução. No entanto, tais métodos em geral são muito complexos, com um grande custo computacional e geralmente necessitam de uma poderosa plataforma de hardware. Alternativamente, modelos empíricos são usados em alguns simuladores, mas, estes apresentam limitações na faixa de aplicação, bem como deixam a desejar quanto a precisão [4]. Na última década uma nova abordagem, baseada na tecnologia das redes neurais artificiais (ANN), tem sido introduzida na comunidade científica para a elaboração de modelos para dispositivos e circuitos [5]. A modelagem baseada em redes neurais artificiais tem sido utilizada no que se refere a aproximação, simulação e otimização de parâmetros físicos, elétricos e ópticos [3, 6]. Os modelos neurais são muito mais rápidos do que os modelos físicos rigorosos ou modelos eletromagnéticos e são mais precisos do que modelos empíricos ou polinomiais. Além disso, são mais flexíveis do que tabelas de consulta no que se refere à problemas multi-dimensionais e são mais fáceis de implementar quando um novo dispositivo ou circuito é introduzido [7]. Neste tipo de modelagem, as ANNs são treinadas com dados medidos ou simulados de forma off-line. Uma vez treinados, os modelos neurais podem ser usados on-line durante a fase de projeto, calculando de forma eficiente as respostas, ou dados desejados. Teoricamente, os modelos neurais são do tipo caixa preta, onde a precisão depende dos dados apresentados durante o treinamento. Um bom conjunto de dados de treinamento, isto é, um conjunto de dados bem distribuído, quantitativamente suficiente e preciso em relação aos dados medidos e/ou simulados, é o requisito básico para a obtenção de um modelo neural exato [5]. A escolha dos algoritmos de treinamento constitui a parte principal de um modelo neural. Uma estrutura neural apropriada pode vir a falhar na obtenção de um modelo desde que o algoritmo de treinamento não seja eficiente. Um bom algoritmo é aquele que combina baixo custo computacional sem, no entanto, perder sua eficácia. Nos modelos neurais utilizados na área de microondas e óptica, o algoritmo mais aplicado é o backpropagation ou retropropagação do erro [1]. No entanto, outros algoritmos têm sido propostos na literatura para uso nas aplicações acima citadas. Na aplicação como modelos na área de microondas/óptica, as redes neurais têm

30 CAPÍTULO 1. INTRODUÇÃO 3 mostrado características interessantes. Primeiro, nenhum conhecimento prévio sobre um mapeamento entrada/saída é necessário para o desenvolvimento do modelo. Isto se deve ao fato de que os dados de treinamento já possuem tal informação. Segundo, as ANNs podem generalizar, ou seja, responder corretamente para novos dados que não foram utilizados no treinamento. E terceiro, a habilidade que os modelos neurais têm em mapear funções altamente não lineares, bem como, funções lineares [8]. Diante do exposto, fica observado que as redes neurais podem ser utilizadas na solução dos problemas apresentados neste trabalho. 1.2 Estado da Arte As redes neurais têm sido usadas nos últimos anos em diversas áreas do conhecimento e nas mais diferentes aplicações. Uma das aplicações das ANNs é sua utilização como preditores de séries temporais [9]. No que se refere a processamento de sinais, as ANNs têm sido utilizadas em: identificação de sistemas, controle de aeronaves, sintetizadores de voz e visão computacional. Hwang et al. apresentaram um resumo das aplicações e sistemas que combinam processamento de sinais e redes neurais [10]. Em problemas relacionados ao sensoriamento remoto, as ANNs também têm contribuído significativamente [11]. Na área de engenharia de telecomunicações, principalmente no que se refere à modelagem de dispositivos de RF/microondas, encontram-se aplicações de redes neurais na obtenção dos parâmetros de espalhamento no projeto de filtros em microfita [12], no cálculo de parâmetros físicos em antenas de microfita com patch triangular [13] e na otimização da freqüência de ressonância e perda de retorno em antenas de microfita com múltiplas camadas com substrato de GaAs [14]. As ANNs também têm sido utilizadas na obtenção dos parâmetros de espalhamento em guias de onda coplanares (CPW) [15], na localização de sinais para comunicações móveis e rastreamento em arranjos de antenas [16], em conjunto com o método do balanço harmônico (MBH) na otimização e cálculo da freqüência de ressonância de antenas planares ativas [17], no modelo da função de transferência de transistores de efeito de campo de junção metal-semicondutor (MESFET) [18] e na otimização do método no domínio espectral (SD) para a análise de antenas planares [19]. Embora o uso das redes neurais no projeto de dispositivos nas faixas de RF/microondas já esteja consolidado, alguns trabalhos também já reportam a sua aplicação à sistemas e dispositivos ópticos. Modelos neurais são utilizados em conexões eletroópticas e diodos laser [6], na predição de feixes laser em alumínio e aço em função

31 4 CAPÍTULO 1. INTRODUÇÃO da potência do feixe e velocidade de varredura [20], na simulação de acopladores direcionais para fibras ópticas em função do comprimento e taxa de acoplamento [21] e na caracterização de pulsos laser ultra-curtos [22]. Pode-se citar ainda a aplicação de técnicas neurais no processamento de dados obtidos por sensores ópticos [23], na modelagem e simulação de portas lógicas ópticas [24] e em modelos de demultiplexadores ópticos [25]. Destacam-se também alguns trabalhos publicados sobre o objeto de pesquisa desta dissertação, tais como a utilização de redes modulares na modelagem de amplificadores ópticos, transistores baseados em GaAs, guias de ondas com material PBG e antenas tipo patch com material PBG [26, 27, 28, 29]. Os trabalhos acima citados demonstram a eficiência das ANNs em diversos contextos, quer no âmbito da modelagem computacional, otimização, reconhecimento de padrões e principalmente nos objetivos a serem alcançados por este trabalho. 1.3 Organização do Trabalho No capítulo 2 é dado um enfoque no método utilizado, ou seja, as redes neurais artificiais de alimentação direta (FNNs). É feita uma apresentação concisa, dando destaque às vantagens, características e propriedades das ANNs. Os paradigmas de aprendizado também são abordados, assim como algumas configurações comuns e encontradas na literatura. Um enfoque maior é voltado para as redes utilizadas neste trabalho, tais como a rede perceptron de múltiplas camadas (MLP), a rede de funções de base radial (RBF), a rede de funções Sample (SFNN), bem como as redes modulares SFNN/SFNN e RBF/MLP. São apresentados os algoritmos para o treinamento das FNNs utilizadas, que são baseados no método do gradiente: o backpropagation e o resilient backpropagation (Rprop). No capítulo 3, descreve-se a formulação matemática, na qual são dadas as definições e deduções das equações para o ajuste dos parâmetros das FNNs utilizadas. O método do gradiente é utilizado como ponto de partida para estas deduções e uma notação simples e coerente é utilizada, de forma didática, a fim de facilitar um bom entendimento da descrição matemática, facilitando a implementação computacional. Nos capítulos 4 e 5, destacam-se algumas propriedades elétricas e físicas dos dispositivos de microondas e ópticos abordados nesta dissertação. São tratados também, de forma simplificada, alguns métodos utilizados por outros autores para a obtenção de modelos para os mesmos dispositivos. Os resultados obtidos na aplicação de redes neurais para neuro-modelagem de dispositivos de microondas e ópticos

32 CAPÍTULO 1. INTRODUÇÃO 5 são apresentados. É feito um estudo comparativo entre o desempenho de diferentes métodos de modelagem para tais dispositivos: ANN, físico/em, experimental e empíricos. A análise entre os modelos através das redes RBF, MLP e da arquitetura modular proposta neste trabalho, mostra que a última supera as primeiras no que se refere à eficiência, consistência do treinamento e capacidade de generalização. Tais resultados confirmam que o método proposto através de redes neurais é eficiente e preciso para a solução de problemas de regressão não linear, otimização computacional, integração com ferramentas CAD e neuro-modelagem nas áreas de microondas e óptica. Enfim, no capítulo 6, conclusões sobre as contribuições deste trabalho, dos modelos implementados e dos resultados obtidos são apresentados, bem como, aspectos relacionados à continuidade do trabalho.

33 6 CAPÍTULO 1. INTRODUÇÃO

34 Capítulo 2 Redes Neurais Artificiais de Alimentação Direta Este capítulo destaca o método utilizado neste trabalho. Destacam-se os conceitos relacionados com o projeto e o desenvolvimento de redes neurais de alimentação direta para aplicações em modelagem de dispositivos de microondas e ópticos. As configurações mais comuns de redes de alimentação direta, como por exemplo, as redes MLP, RBF e SFNN são explicadas. A arquitetura modular e o conceito de região de interesse de um modelo são apresentados neste capítulo. Os principais paradigmas de aprendizado, técnicas e alguns algoritmos de treinamento também são descritos. 2.1 Introdução às Redes Neurais Artificiais Muito se tem falado sobre as ANNs e suas aplicações em diversas áreas científicas. Uma rede neural artifical é um processador paralelo com uma configuração totalmente distribuída de unidades de processamento, que tem a propensão natural para armazenar conhecimento experimental e torná-lo disponível para o subseqüente uso [30]. Uma definição alternativa é dada por Zhang e Gupta, onde estes tratam as ANNs como sistemas de processamento da informação inspirados na habilidade do cérebro humano de aprender a partir de observações e generalizar por meio de abstração [8]. Em termos simples, uma rede neural típica tem dois tipos de componentes básicos: os elementos de processamento e as interconexões entre eles. Os elementos de processamento são chamados neurônios e as ligações entre eles são conhecidas

35 8 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA como conexões ou sinapses. Cada conexão tem um peso ou parâmetro livre associado. Este peso é usado para amplificar ou atenuar o sinal que chega à conexão. Os neurônios recebem estímulos a partir dos outros neurônios conectados a eles. Os que recebem sinais de fora da rede são chamados de neurônios de entrada, os que fornecem sinais para fora da rede são chamados neurônios de saída e os que recebem estímulos de outros neurônios são conhecidos como neurônios ocultos. Por sua vez, diferentes estruturas de redes neurais podem ser construídas utilizando diferentes tipos de elementos de processamento e com formas de conexão diferentes [1, 31]. Quanto a alimentação ou a forma na qual os sinais são apresentados à rede, as ANNs podem ser subdivididas em redes de alimentação direta e redes recorrentes. As primeiras se caracterizam pela propagação dos sinais em apenas uma direção a partir de um estágio de entrada até o estágio de saída [1], enquanto nas últimas são encontrados laços de realimentação e elementos de atraso unitário resultando em um comportamento dinâmico não-linear [30]. Neste trabalho, serão considerados modelos apenas de redes de alimentação direta. As Figuras 2.1 e 2.2 ilustram exemplos de redes de alimentação direta e recorrentes, respectivamente. A Figura 2.3 apresenta uma taxonomia das diferentes redes e ilustra de maneira simplificada suas arquiteturas [32]. Camada de entrada Camada de neurônios ocultos Camada de saída Figura 2.1: Exemplo de uma rede de alimentação direta.

36 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA 9 Uma propriedade importante das redes neurais é a sua habilidade para aprender a partir do ambiente na qual está inserida, ou ambiente de aprendizado, e melhorar seu desempenho através da aprendizagem [30]. A aprendizagem, conforme Mendel e Maclaren, é um processo pelo qual os parâmetros livres de uma rede neural são adaptados através de um processo de estimulação pelo ambiente no qual a rede está inserida, sendo seu tipo determinado pela maneira na qual se dá a modificação dos parâmetros livres da rede [33]. Esta forma de funcionamento de uma ANN é responsável não só por sua capacidade de aprendizagem a partir de exemplos, mas principalmente por sua habilidade para generalizar respostas quando ativada com novos exemplos - uma propriedade muito difícil de se obter a partir de sistemas de computação convencional [26]. (.) -1 (.) -1 (.) -1 (.) -1 Operadores de atraso unitário Figura 2.2: Exemplo de uma rede recorrente. Quanto aos processos de aprendizado das redes neurais, podemos destacar dois paradigmas principais: aprendizado supervisionado, ou com um professor, e o aprendizado não-supervisionado, ou sem um professor. No aprendizado supervisionado, processo utilizado em todo este trabalho, o conhecimento do ambiente é transferido para a rede neural através de exemplos de entrada-saída. O sinal erro é a diferença entre a resposta desejada e a saída da rede. O ajuste dos pesos da rede é proporcional ao sinal erro. Este tipo de aprendizado é definido de forma mais detalhada adiante. No processo não-supervisionado, não existe a figura do professor. O conhecimento é transferido com a ajuda de um crítico ou através de sistemas auto-organizáveis [30].

37 10 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA Redes Neurais Redes de Alimentação Direta Redes Recorrentes Perceptron de Camada Única Perceptron de Múltiplas Camadas Redes de Funções de Base Radial Redes Competitivas Redes SOM Redes de Hopfield Modelos ART Figura 2.3: Taxonomia utilizada para as redes de alimentação direta e redes recorrentes. Dentre as configurações de redes de alimentação direta e aprendizado supervisionado pode-se citar as mais utlizadas: Redes Perceptrons de Múltiplas Camadas (MLP); Redes de Funções de Base Radial (RBF); Redes de Funções Sample (SFNN); Redes de Fourier; Redes Wavelet. Nas áreas da engenharia de microondas e óptica, o uso das ANNs é motivado por serem versáteis, apresentarem eficiência computacional, reduzido uso de memória, estabilidade e uma boa capacidade de aprendizado e generalização [1]. Podem ser citados ainda outras características das ANNs [30]: Não linearidade. Como suas unidades são não lineares, a rede como um todo é não linear; Mapeamento de Entrada-Saída. Através da aprendizagem supervisionada que será tratada adiante; Adaptabilidade. Os pesos são adaptados de acordo com modificações no ambiente; Informação Contextual. Cada neurônio é afetado pela atividade de todos os outros neurônios da rede; Tolerância a Falhas. A natureza distribuída da rede faz com que ela venha a suportar falhas em neurônios individuais, sem prejudicar seriamente a resposta;

38 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA 11 Implementação em VLSI. O paralelismo da rede a torna potencialmente rápida para a maioria das aplicações; Uniformidade de Análise e Projeto. Por serem compostas de um elemento em comum, os neurônios, a integração e o compartilhamento se tornam possíveis; Analogia Neurobiológica. A analogia com o cérebro comprova a capacidade do processamento paralelo e distribuído. Por serem as configurações utilizadas neste trabalho, dar-se-á um destaque nas redes perceptrons de múltiplas camadas, redes de função de base radial e redes de funções sample. 2.2 Redes Perceptrons de Múltiplas Camadas As redes perceptrons de múltiplas camadas têm como unidade básica o perceptron descrito por McCulloch e Pitts [34]. Estas unidades são distribuídas em camadas onde cada uma está conectada a todas unidades da camada anterior. Esta configuração é idêntica a que foi ilustrada na Figura 2.1. Neste modelo, é calculado o produto interno das entradas aplicadas, x i, com os pesos, w ji e também é incorporada uma polarização, x 0, aplicada externamente. O efeito desta polarização é importante quando a soma ponderada dos neurônios da camada anterior for igual a zero. A soma resultante, considerada como nível de atividade interna ou potencial de ativação, net j, é aplicada então a uma função de ativação, ϕ(net j ), que pode ser a saída final da rede, ou as entradas de outros perceptrons da camada seguinte. A Figura 2.4 apresenta a configuração do modelo do perceptron. x 0 w j0 x 1 w j1 net j ( net j ) y j x i w ji x Ni w jnh Figura 2.4: Modelo de neurônio artifical (perceptron) utilizado nas redes MLPs. Exemplos de funções de ativação utilizadas nas redes MLPs são a sigmóide, (2.1), a tangente hiperbólica, (2.2) e a linear,(2.3): ϕ(net) = exp( net) (2.1)

39 12 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA ϕ(net) = tanh(net) (2.2) ϕ(net) = net (2.3) No capítulo seguinte são apresentadas as equações utilizadas na propagação dos sinais, no sentido direto, em uma rede MLP que utiliza uma função do tipo sigmóide para os neurônios da camada oculta e uma função linear para os neurônios da camada de saída. Referente às redes MLPs, Hornik et al. provaram o teorema da aproximação universal [35]. Este teorema afirma que sempre existe uma rede composta de três camadas que é capaz de aproximar qualquer função arbitrariamente não linear, contínua e multi-dimensional com a precisão desejada. Entretanto, este teorema não descreve qual o número de neurônios necessários para que seja alcançada essa aproximação. Conseqüentemente, as falhas mais comuns no desenvolvimento de modelos neurais se deve em grande parte ao número inadequado de neurônios. O número específico de neurônios requerido para um problema de modelagem ainda permanece uma questão aberta. É intuitivo que o número de unidades ocultas depende do grau de não linearidade e dimensionalidade do problema: problemas com alta não linearidade necessitam de mais neurônios para obtenção de uma boa aproximação. Uma solução para o problema do tamanho da rede é o teste por tentativa e erro, até conseguir um nível arbitrário de aproximação. Outra solução é a otimização do número de unidades ocultas durante o treinamento - unidades são adicionadas ou retiradas de acordo com a evolução do treinamento [8]. Esta última técnica foi a escolhida para utilização neste trabalho. Conforme citado anteriormente, uma rede MLP com no mínimo uma camada oculta é suficiente para aproximar uma função não linear qualquer. Na prática, redes com uma ou duas camadas ocultas são utilizadas para aplicações em engenharia de microondas. Deve ser considerado, no entanto, que o desempenho de uma ANN deve ser medido não em função do seu número de neurônios, e sim pela sua capacidade de mapeamento e generalização. Em problemas que envolvem aproximação e regressão não linear, redes com uma camada oculta são preferencialmente utilizadas, enquanto que, para problemas envolvendo classificação de padrões, duas camadas ocultas são utilizadas para garantir uma maior capacidade de obtenção de regiões de decisão [36].

40 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA Redes de Funções de Base Radial A configuração de uma rede de funções de base radial segue o mesmo diagrama apresentado na Figura 2.1. As considerações feitas acerca do número de neurônios das redes MLPs também valem para as redes RBFs. No entanto o projeto de uma rede RBF envolve apenas três camadas, com objetivos totalmente diferentes. A camada de entrada é constituída por unidades sensoriais que conectam a rede ao seu ambiente do mesmo modo que as redes MLP. A segunda camada, a única camada oculta da rede, aplica uma transformação não linear que geralmente é uma medida de distância entre os sinais de entrada x i e os centros das funções de base radial w j. A camada de saída utiliza uma função de transferência linear como mostrada na Equação (2.3) [30]. Carlin (1992) definiu uma função de base radial como [37]: ϕ(r) = ϕ( x w ); x R n ; r 0 (2.4) em que ϕ(r) é uma função contínua em (0, ) e suas k-ésimas derivadas são completamente monotônicas em (0, ) para todo k. Enquanto as unidades ocultas das redes MLPs trabalham com o produto interno das saídas das camadas anteriores e os pesos, as redes RBFs utilizam uma métrica (. ) que é, usualmente, a norma Euclidiana, ou a distância de Mahalanobis. O parâmetro w, para as redes RBFs, representa o centro ou meio da base radial. Uma das funções de base radial mais utilizadas é a Gaussiana, (2.5): ϕ(x, w) = exp ( 1σ ) x w 2 (2.5) sendo que σ 2 é o desvio padrão (uma medida de espalhamento dos centros) de cada função de base radial utilizada por cada neurônio da camada oculta da rede RBF. Do mesmo modo que foi provado para as redes MLPs, Park e Sandberg demonstraram o teorema da aproximação universal para as redes RBFs [38]. De acordo com tal trabalho, uma rede RBF com um número suficiente de neurônios na camada oculta é capaz de aproximar uma função não linear arbitrária, com qualquer grau de precisão. Por terem características diferentes, as redes MLP e RBF apresentam comportamentos diferentes. As MLP constróem aproximações globais para mapeamentos não lineares de entrada-saída. Conseqüentemente elas são capazes de generalizar em regiões do espaço de entrada nas quais existe pouco ou nenhum conhecimento do comportamento da resposta esperada. De maneira inversa, as RBF usam não

41 14 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA linearidades locais para a construção do mapeamento entrada-saída. Com isso, as RBF aprendem de forma mais rápida e não são afetadas pela ordem de apresentação dos dados de treinamento [8]. É com base em tais características, que o uso de uma rede modular composta de redes RBFs e uma MLP é proposto posteriormente neste trabalho. 2.4 Redes de Funções Sample Silva apresentou uma nova classe de redes neurais, as redes de funções sample (SFNN) [39]. Estas vieram tentar suprir a dificuldade que as redes MLPs e RBFs têm em aproximar funções que apresentem comportamentos localizados, ou seja, regiões com não linearidades suaves, regiões com ondulações e não linearidades abruptas. A SFNN tem uma configuração semelhante a da RBF. A diferença principal encontra-se na função de ativação utilizada pelas unidades da camada não linear, que no caso da RBF, é a função Gaussiana, e no caso da rede SFNN é a função sample, (2.6): ϕ(x, w) = 1 σ 2 sample( x w ) = 1 σ 2 sen( x w ) x w (2.6) em que x são as entradas, w se refere aos centros das funções sample e σ 2 ao espalhamento. Estes parâmetros influenciam significativamente a forma desta função, fazendo que ela se torne mais flexível no emprego em uma ampla classe de mapeamentos não lineares. A escolha da função sample foi originalmente motivada pela constatação das propriedades da função sinc na reconstrução e processamento de sinais. Feita a escolha, os outros parâmetros foram adicionados, assim como nas redes RBFs. Através da distância euclidiana entre os vetores de entrada x e os centros w, as funções sample são deslocadas, ao passo que σ 2 determina as suas larguras. A Figura 2.5 apresenta algumas formas da função sample com variações dos centros e das larguras. 2.5 Redes Modulares Como já foi observado no capítulo 1, na área de engenharia de microondas/óptica, as redes neurais têm sido aplicadas com bastante sucesso em problemas de modelagem não linear. Na busca de um maior aperfeiçoamento destes modelos, foram propostas algumas técnicas que utilizam o conhecimento prévio para se atingir uma

42 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA ( 2,w)=(1,-4) ( 2,w)=(0,3,7) 0.6 ( 2,w)=(3,3) sample(x) ( 2,w)=(1,9) x Figura 2.5: Formas da função sample com variações dos centros e das larguras. maior precisão e capacidade de generalização: o modelo híbrido EM-ANN [40], o modelo PKI [41], o KBNN [42] e o SM-ANN [43]. Contudo, conforme o tamanho do conjunto de dados de treinamento ou quando este exige um mapeamento multidimensional e altamente não linear, um modelo neural maior e mais complexo se faz necessário. A expansão do modelo simples, baseado em uma MLP ou RBF com uma camada oculta, através do acréscimo de unidades ocultas, resulta em um aprendizado lento e uma generalização fraca [8]. Por outro lado, um número insuficiente de unidades ocultas gera uma sobrecarga de informação, como será descrito mais adiante. Em problemas complexos, simulações realizadas comprovam que, para a rede MLP e RBF, não são obtidas boas respostas nas regiões do mapeamento em que predominam oscilações ou não linearidades abruptas. Para superar tais dificuldades, foi sugerido o uso de redes modulares. A aplicação desta técnica, para a modelagem de um mapeamento entrada-saída não linear, foi discutida por Jordan et al. (1991) [44]. Arquiteturas modulares como o modelo de mistura de especialistas (ME) e a mistura hierárquica de especialistas (MHE) foram apresentadas por Jordan e Jacobs [45]. De acordo com o princípio dividir e conquistar, uma tarefa complexa é resolvida dividindo-a em tarefas simples e então combinando as soluções destas tarefas a fim de se obter a solução do problema de aprendizado como um todo. Na aprendizagem supervisionada, a simplicidade computacional é alcançada distribuindo-se a tarefa entre um número arbitrário de especialistas. A combinação de especialistas constitui

43 16 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA uma máquina de comitê [30]. As máquinas de comitê podem ser classificadas em: 1. Estruturas estáticas - O mecanismo de combinação não envolve o sinal de entrada. Incluem: Média - Saída combinada linearmente. Reforço - Algoritmo de aprendizagem é convertido em um algoritmo de alta precisão. 2. Estruturas dinâmicas - O sinal de entrada está envolvido no mecanismo de combinação. Incluem: Mistura de especialistas - Existência de uma rede de passagem na combinação. Mistura hierárquica de especialistas - Várias redes de passagem organizadas de forma hierárquica. Neste trabalho, para obtenção dos resultados foi empregada a mistura de especialistas. O modelo utilizado é composto de três redes: duas especialistas e uma rede de passagem (saída). A Figura 2.6 ilustra graficamente a configuração utilizada. Duas configurações diferentes para a rede modular são adotadas neste trabalho. No primeiro caso, as três redes são do tipo SFNN. No segundo caso, as duas redes especialistas são do tipo RBF e a de saída é uma rede MLP. Estas duas configurações são mostradas na Figura 2.7. PARÂMETRO VALOR INICIAL REDE ESPECIALISTA 1 ENTRADA REDE DE SAÍDA SAÍDA REDE ESPECIALISTA 2 PARÂMETRO VARIÁVEL PARÂMETRO VALOR FINAL Figura 2.6: Arquitetura da rede modular. Os parâmetros valor inicial, valor final e variável estão relacionados com a região de interesse definida pelos parâmetros de entrada do modelo. A Figura 2.8 apresenta um exemplo de região de interesse e os parâmetros utilizados no treinamento da rede modular.

44 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA 17 PARÂMETRO VALOR INICIAL PARÂMETRO VALOR INICIAL SFNN RBF ENTRADA SFNN SAÍDA ENTRADA MLP SAÍDA SFNN PARÂMETRO VARIÁVEL RBF PARÂMETRO VARIÁVEL PARÂMETRO VALOR FINAL PARÂMETRO VALOR FINAL ( a ) ( b ) Figura 2.7: Configurações utilizando: (a) SFNN. (b) RBF/MLP. A rede especialista 1 é treinada apenas com a curva referente ao parâmetro valor inicial; a rede especialista 2 é treinada com a curva correspondente ao parâmetro valor final; por sua vez, a rede de saída é treinada a partir de todo o conjunto de treinamento e com as respostas das redes especialistas pré-treinadas servindo como entradas adicionais. Com esta configuração, espera-se obter uma capacidade de generalização maior em relação às redes tradicionais, além de uma maior consistência do processo de aprendizado e estabilidade dos resultados. Valor Final d Valor Variável x Valor Inicial + Região de Interesse Dados de Treinamento Dados de Teste Aproximação do Modelo Neural Generalização do Modelo Neural Figura 2.8: Região de interesse a ser modelada.

45 18 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA 2.6 Técnicas e Algoritmos de Treinamento Aprendizado Supervisionado Como já citado, no processo de aprendizado supervisionado, a adaptação dos pesos de uma dada FNN é feita através da estratégia de aprendizado por correção de erro. Este processo é ilustrado pela Figura 2.9. x(n) Professor d(n) w(n) Rede Neural z(n) Algoritmo de Treinamento e(n) Figura 2.9: Representação do processo de aprendizado supervisionado. O sinal erro (a diferença entre a resposta desejada, d, e a saída da rede, z) é obtido através da computação no sentido direto da rede neural com exemplos de treinamento. No contexto deste trabalho, se as respostas desejadas forem obtidas a partir de valores medidos ou métodos eletromagnéticos, esta forma de treinamento é conhecida como EM-ANN. O sinal de erro é dado por: e(n) = d(n) z(n) (2.7) em que o índice n varia no intervalo n = 1, 2,..., N, sendo N o número total de exemplos de treinamento. Para se evitar que valores de erro com sinais positivos anulem valores com sinais negativos, toma-se o erro quadrático de cada amostra, levando em consideração todas as saídas da rede, N s : E(n) = 1 2N s N s k=1 [e(n)] 2 (2.8) Para uma análise geral do treinamento, se utiliza a média dos erros quadráticos das amostras de todo o conjunto de treinamento. Esta medida, denominada MSE é dada por:

46 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA 19 E(t) = 1 N E(n) (2.9) N em que, t denota o número de épocas de treinamento. Uma época é contada a cada apresentação à rede neural de todos os exemplos do conjunto de treinamento. O objetivo do treinamento é exatamente ajustar os pesos (MLP) ou os centros, larguras e pesos (RBF e SFNN), tal que o MSE seja minimizado. Existem dois paradigmas principais quanto ao ajuste dos parâmetros livres de uma rede: o aprendizado a cada exemplo de treinamento e o aprendizado por época ou lote. No primeiro, a atualização é feita com base no cálculo do gradiente de cada exemplo de treinamento apresentado à rede. Este método funciona bem especialmente quando o conjunto de treinamento contém muitas amostras com informação redundante. No segundo caso, o aprendizado por época, a atualização é feita no fim de cada apresentação de todos os exemplos de treinamento. Este método tem sido muito utilizado pelo fato de que a soma dos gradientes apresenta uma informação mais confiável sobre a forma da superfície de erro [46]. O desenvolvimento de um modelo neural tipicamente requer que o conjunto de treinamento seja dividido em três partes: dados de treinamento (T r ), dados de validação (V d ) e dados de teste (T e ). Os dados de treinamento são aqueles utilizados no processo de treino, isto é, na adaptação dos parâmetros livres da rede objetivando a minimização do MSE. Os dados de validação são utilizados para monitorar a qualidade do modelo neural durante o treinamento e determinar o ponto em que esta qualidade foi alcançada e o treinamento deve ser suspenso. Os dados de teste são usados para examinar a qualidade final do desenvolvimento do modelo, incluindo a sua capacidade de generalização [8]. A menos que seja indicado, neste trabalho foi utilizado V d =T r. Ao passo que é desejável que o MSE seja minimizado, deve-se levar em consideração a influência de dois fenômenos: o overlearning e o underlearning. O primeiro é caracterizado quando a rede neural memoriza os dados de treinamento, mas apresenta uma generalização pobre. Em outras palavras, o erro de treinamento E Tr é pequeno, mas o erro de teste E Te >> E Tr. Razões possíveis para o overlearning incluem a presença de muitos neurônios ocultos ou a insuficiência dos dados de treinamento. Por outro lado, o underlearning acontece quando a rede tem dificuldades de aprender os próprios dados de treinamento, ou seja E Tr >> 0. Isto acontece, geralmente, devido a um número insuficiente de neurônios, treinamento insuficiente ou pela estabilização do algoritmo de treino em um mínimo local da n=1

47 20 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA superfície de erro. A Figura 2.10 apresenta exemplos de overlearning, underlearning e um modelo com boa aprendizagem. 1,5 x 1,5 x 1 1 Saída (y) 0,5 0 x x x Saída (y) 0,5 0 x x x -0,5 Rede Neural x x Dados de Treinamento -1 Dados de Teste ( a ) Entrada (x) -0,5 Rede Neural x x Dados de Treinamento -1 Dados de Teste Entrada (x) ( b ) 1,5 x 1 Saída (y) 0,5 0 x x x -0,5 Rede Neural x x Dados de Treinamento -1 Dados de Teste ( c ) Entrada (x) Figura 2.10: Um modelo neural ilustrando: (a) Overlearning; (b) Underlearning; (c) Boa aprendizagem. Outro fato que deve ser levado em consideração é a relação entre o erro de treinamento, o erro de teste e o número de épocas de treinamento. A Figura 2.11 ilustra uma curva típica de aprendizado [8]. Embora a minimização do erro de treinamento seja desejável, deve-se achar o ponto ótimo de minimização das duas curvas de erro para que não ocorra overlearning nem underlearning. Isto é conseguido através da monitoração do erro de teste E Te gerado no fim da etapa de treinamento.

48 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA 21 E Tr, ETe E Te E Te E Tr Ponto de Melhor Aprendizado Épocas Figura 2.11: Curvas de erro de treino e de teste apresentando o melhor ponto de aprendizado Algoritmo Backpropagation O tipo mais utilizado de rede neural é a MLP treinada com o algoritmo backpropagation (BP) ou retropropagação do erro [1]. A difusão deste algoritmo reporta a década de 80, representando um marco na utilização das redes neurais e tendo o trabalho de Rumelhart et al. como uma das referências principais [47]. Basicamente, o algoritmo BP é uma aplicação particular do método do gradiente para a otimização dos pesos da rede MLP. Neste método, o cálculo da direção de pesquisa no espaço de pesos usa a informação do vetor gradiente da superfície de erro E(n). Por definição, o gradiente em relação a um peso qualquer da rede, w(n), é dado por (2.10): E(n) w = E(n) w(n) = E (n) (2.10) w em que, E foi definido em (2.8). Especificamente, o valor do ajuste aplicado a cada peso está no sentido oposto ao do gradiente, pelo fato de que este aponta para a direção de maior crescimento de uma função. A adaptação dos pesos da rede é efetuada de uma forma iterativa através da seguinte relação recursiva: w(n) = w(n 1) η E(w(n 1)) (2.11) na qual, 0 < η < 1 é a taxa de aprendizado ou amplitude de ajuste, um parâmetro que controla a magnitude dos ajustes aplicados aos pesos. Uma má escolha deste parâmetro influencia negativamente o treinamento, atrasando-o e recaindo em mínimos locais, no caso de um valor muito baixo, ou impossibilitando a convergência, no caso de um valor muito alto.

49 22 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA Embora este algoritmo tenha sido concebido para o treinamento de redes MLP, sua derivação a partir do método do gradiente permite que o mesmo seja estendido para a adaptação dos parâmetros livres das redes RBF e SFNN, como é mostrado no capítulo posterior. Embora seja de fácil compreensão, o BP apresenta uma convergência lenta. Jacobs identificou duas causas fundamentais para isto [48]: 1. Quando a superfície de erro (E) apresentar uma variação pequena (região flat) com relação a um dado peso, sua derivada terá uma magnitude pequena e conseqüentemente o ajuste será pequeno requerendo muitas iterações para a convergência. Se a variação for elevada (região sharp), o gradiente e o ajuste também serão elevados acarretando numa ultrapassagem pelo mínimo da superfície de erro. 2. O vetor oposto ao vetor gradiente pode apontar para longe do mínimo da superfície de erro, fazendo com que os ajustes ocorram numa direção ruim. A Figura 2.12 mostra que uma má escolha da taxa de aprendizado global e a influência da magnitude das derivadas em relação a superfície de erro pode aumentar o tempo de convergência do algoritmo. E(w) Região Flat Região Sharp (w) Figura 2.12: Influência da magnitude das derivadas e da taxa de aprendizado na busca do mínimo global na superfície de erro. w Conforme já citado, o BP depende de uma boa escolha da taxa de aprendizado η. Várias heurísticas têm sido publicadas para otimização dessa taxa. Por exemplo, Robins e Monro empregaram o método do gradiente estocástico onde [49]: η(t) = κ t (2.12) em que, κ é uma constante e t é o número da época atual de treinamento. Outras adaptações para otimização do método do gradiente estão disponíveis na literatura,

50 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA 23 como o esquema pesquisa-então-converge [50], regra delta-bar-delta [48] e o algoritmo SuperSAB [51]. Entretanto, este trabalho se concentrará no algoritmo resilient backpropagation a ser tratado na sub-seção seguinte. Nas redes RBF e SFNN, além da otimização dos pesos da camada de saída, composta de unidades de processamento lineares, exige-se também a otimização dos centros e dos espalhamentos das funções de base radial (gaussiana, para as redes RBF e sample, para as redes SFNN). Existem diferentes estratégias de aprendizagem que podemos seguir para o treinamento de redes RBF e que valem também para as SFNN. Destacam-se três [30]: 1. Centros Fixos e Selecionados ao Acaso - Esta é a abordagem mais simples em que as funções de base radial são fixadas e os centros escolhidos aleatoriamente dentro do conjunto de treinamento. Os únicos parâmetros a serem otimizados são as larguras das funções da camada oculta e os pesos da camada de saída da rede. 2. Seleção Auto-Organizada de Centros - Consiste de dois estágios: aprendizagem auto-organizada e aprendizagem supervisionada. Este último é usado na otimização dos pesos da camada linear. No entanto, para a implementação do primeiro, necessitamos de um algoritmo de agrupamento (clustering) como, por exemplo, o k-médias. Este algoritmo otimizará a posição dos centros das funções de base radial de modo que fiquem onde haja maior concentração de dados significativos. 3. Seleção Supervisionada de Centros - Esta última estratégia, a utilizada neste trabalho, baseia-se no método do gradiente para a otimização de todos os parâmetros livres da RBF ou SFNN. Através da última estratégia, a seleção supervisionada de centros, podemos estender um algoritmo de treinamento similar ao BP, igualmente baseado no método do gradiente, para a otimização dos parâmetros livres das RBF e SFNN. Esta dedução é apresentada no Capítulo Algoritmo Resilient Backpropagation Como apresentado na Figura 2.12, o algoritmo backpropagation demonstra ter limitações quanto a influência negativa da taxa de aprendizado escolhida de forma inadequada, bem como, a influência da magnitude das derivadas. Riedmiller apresentou uma solução para os problemas acima [52]. O algoritmo resilient backpropagation (Rprop) é um algoritmo no qual a taxa de aprendizado é adaptativa, individual

51 24 CAPÍTULO 2. REDES NEURAIS ARTIFICIAIS DE ALIMENTAÇÃO DIRETA para cada peso e a influência indesejável da magnitude das derivadas é ignorado. Deste modo, apenas o sinal do gradiente é levado em conta no momento do ajuste dos parâmetros livres. A atualização no Rprop é feita de modo batch (em lote) ou por época de treinamento. Cada peso w ji é atualizado de forma individual, no qual: (t) ji = w (t+1) ji w (t) ji = = w (t) ji + w (t) ji (2.13) (t) ji, se E w ji (t) > 0 + (t) ji, se E w ji (t) < 0 0, demais casos η + (t 1) ji, se E w ji (t) E w ji (t 1) > 0 η (t 1) ji, se E (t) w ji E (t 1) w ji < 0 (t 1) ji, demais casos (2.14) (2.15) em que, E é o erro médio quadrático de uma época de treinamento t e η + = 1,2 e η = 0,5 são constantes escolhidas empiricamente [53]. As equações (2.14) e (2.15) significam que cada vez que a derivada parcial do erro correspondente muda de sinal, indica que a última atualização foi muito grande, ou seja, o algoritmo saltou o mínimo local. Sendo assim, o valor de adaptação é diminuído pelo fator η. Se o sinal da derivada permanece o mesmo, indica que o valor de adaptação deve ser aumentado, acelerando a convergência mesmo em regiões suaves da superfície de erro [52]. Este algoritmo tem se mostrado robusto quanto a escolha dos parâmetros de treinamento e eficiente, mesmo se comparado com outros algoritmos similares, como o BP, o SuperSAB e o QuickProp [46]. Além disso, ele tem sido usado em aplicações de neuromodelagem no treinamento de redes MLP, RBF e SFNN [26, 27, 28, 39, 54]. A menos que haja outra indicação, o Rprop é o algoritmo de treinamento utilizado nos modelos neste trabalho.

52 Capítulo 3 Derivação das Equações de Ajuste a partir do Método do Gradiente Neste capítulo, o método do gradiente é discutido e utilizado como uma ferramenta numérica na otimização dos parâmetros livres de alguns tipos de redes reurais. São apresentadas algumas deduções das equações de adaptação das redes MLP, RBF e SFNN, obtendo as expressões do algoritmo backpropagation para a primeira e adaptando-o para o treinamento das outras duas. É explicada a aplicação do algoritmo utilizado nas simulações deste trabalho, o resilient backpropagation (Rprop), para os três tipos de rede acima citados. O principal objetivo deste capítulo é utilizar uma notação uniforme, clara e concisa, com o objetivo de facilitar a implementação computacional das redes e algoritmos descritos. 3.1 Método do Gradiente O método do gradiente é uma técnica numérica simples e amplamente usada no âmbito científico para a minimização de funções através de suas derivadas. Seja uma função f(x(n)), numa dada iteração n, a direção de pesquisa em busca do mínimo da função, será a direção negativa a do gradiente [39]. Ou seja: x(n + 1) = x(n) η f(x(n)) (3.1) em que, η é uma constante que determina a amplitude do ajuste a ser aplicado e é o operador matemático que representa o gradiente de uma função escalar. Um valor elevado de η inicialmente apressará a convergência, mas, dificultará o encontro do mínimo apropriado na superfície de erro no decorrer das iterações. No entanto,

53 26 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE um valor muito pequeno de η resultará numa lentidão excessiva na convergência do método. 3.2 Algoritmo Backpropagation Aplicado à Rede MLP Como discutido no capítulo anterior, as equações de ajuste para atualização dos parâmetros livres de uma rede neural são realizadas no sentido de minimizar um funcional, que no caso das redes supervisionadas, é o erro entre a resposta desejada e a saída da rede. Vários métodos podem ser utilizados nessa minimização, e neste trabalho, é utilizado o método do gradiente discutido na seção anterior. Este método inicialmente foi aplicado para as redes MLP e conseqüentemente gerou o algoritmo mais utilizado pelos usuários de redes neurais: o backpropagation. Como o nome diz, se baseia na retropropagação dos sinais de erro do fim para o começo da rede. As deduções destas equações de ajuste são mostradas a seguir. Por questões de simplicidade, no entanto sem perder a generalidade, será considerada uma estrutura neural com apenas um neurônio na camada de saída. Como foi citado no capítulo anterior, é provado que uma rede MLP com três camadas pode realizar o mapeamento de qualquer função contínua [35]. Logo, para aplicações de modelagem não linear, considera-se da mesma forma, apenas uma camada de neurônios ocultos e a linearidade da função de ativação da camada de saída. Estas também são as considerações adotadas daqui em diante. Esta configuração é ilustrada na Figura 3.1. Conforme já citado, no aprendizado supervisionado objetiva-se a minimização do erro, que é dado inicialmente por (3.2): e(n) = d(n) z(n) (3.2) em que, d(n) é a resposta desejada e z(n) é a saída da rede na apresentação do exemplo de treinamento n. Para evitar que valores positivos de erro anulem valores negativos, toma-se o erro quadrático, (3.3) : E(n) = 1 2 [e(n)]2 (3.3)

54 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE 27 y 0 x 0 w 1,0 w 1,i net Ne 1 w1, ixi y1 1( net1) i 0 w1,ne v k,0 w j,0 v k,1 x i w j,i net j Ne i 0 w, x y 1( net ) j i i j j v k,j net k Nh j 0 v y z net k, j j k 2( k ) z k w j,ne v k,nh w Nh,0 x Ne w Nh,i net w Nh,Ne Nh Ne i 0 w Nh i, x y 1( net ) i Nh Nh Figura 3.1: Configuração de uma rede MLP com uma camada de neurônios ocultos e um neurônio na camada de saída. Ao fim de uma época, ou o período em que todos os exemplos do conjunto de treinamento são apresentados à rede MLP, avalia-se o aprendizado através da análise do Erro Médio Quadrático (MSE), que é obtido pela expressão (3.4): MSE = 1 N E(n) (3.4) N em que, N é o número total de exemplos de treinamento. Usando a notação da Figura 3.1 temos que, para um dado exemplo de treinamento n, y j (n) = ϕ 1 (net j (n)) e z k (n) = ϕ 2 (net k (n)) no qual: n=1 Ne net j (n) = w ji (n)x i (n) (3.5) i=0 Nh net k (n) = v kj (n)y j (n) (3.6) j=0 em que, Ne representa o número de entradas da rede; Nh o número de neurônios ocultos; w ji refere-se aos pesos da camada oculta e v kj os pesos da camada de saída. Ainda na Figura 3.1, ϕ 1 (.) e ϕ 2 (.) são as funções de ativação dos neurônios das camadas oculta e de saída, respectivamente, dadas por:

55 28 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE ϕ 1 (net j (n)) = 1, para neurônios na camada oculta (3.7) 1 + exp( net j (n)) ϕ 2 (net k (n)) = net k (n), para neurônios na camada de saída (3.8) Computação no Sentido Direto Para a propagação dos sinais no sentido direto, chega-se às seguintes expressões: Nh z k (n) = ϕ 2 (net k (n)) = net k (n) = v kj (n)y j (n), k = 1 (3.9) j=0 y j (n) = ϕ 1 (net j (n)) = net k (n) = 1, j = 1, 2,...Nh (3.10) 1 + exp( net j (n)) Ne net j (n) = w ji (n)x i (n), j = 1, 2,...Nh (3.11) i=0 x 0 = y 0 = θ (3.12) sendo θ um valor de polarização ou bias, adicionado ao valor das entradas e unidades ocultas da rede. Por exemplo, para uma rede MLP com ϱ parâmetros de entrada e projetada para ter ψ neurônios ocultos, na realidade sua configuração vai ser de ϱ + 1 entradas e ψ + 1 unidades ocultas, por causa do acréscimo da polarização. Sua utilização foi discutida no capítulo anterior Computação no Sentido Reverso As variáveis livres a serem otimizadas numa rede do tipo MLP são os pesos da camada oculta, w, e os pesos da camada de saída, v. Esta otimização, quando realizada em cada apresentação de um exemplo de treinamento, segue as seguintes expressões: w ji (n + 1) = w ji (n) + w ji (n) (3.13)

56 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE 29 v kj (n + 1) = v kj (n) + v kj (n) (3.14) em que, w(n) e v(n) são os valores de ajuste. Expandindo as Equações (3.13) e (3.14), e seguindo o método do gradiente, chega-se às expressões para otimização de tais parâmetros e conseqüentemente a minimização da função erro. A partir de (3.13) e (3.14), pode-se deduzir: w ji (n) = η w ji (n)e(n) = η E(n) w ji (n) v kj (n) = η v kj (n)e(n) = η E(n) v kj (n) em que, η é a taxa de aprendizado global. (3.15) (3.16) E(n) v kj (n) = [ ] 1 v kj (n) 2 (d k(n) z k (n)) 2 = e(n) z k(n) v kj (n) = e(n) v kj (n) = e(n) ϕ 2(net k (n)) v kj (n) [ Nh = e(n) net k(n) v kj (n) ] v kj (n)y j (n) = e(n)y j (n) (3.17) Substituindo (3.17) em (3.16) e (3.18) em (3.14), tem-se que: j=0 v kj (n) = ηe(n)y j (n) (3.18) v kj (n + 1) = v kj (n) + ηe(n)y j (n) (3.19) Para os pesos da camada oculta w, o procedimento é similar. Partindo de (3.15): E(n) w ji (n) = [ ] 1 w ji (n) 2 (d k(n) z k (n)) 2 = e(n) z k(n) w ji (n) = e(n) w ji (n) [ Nh ] v kj (n)y j (n) j=0

57 30 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE = e(n) w ji (n) = e(n)v kj (n) ϕ 1(net j (n)) net j (n) [ Nh ] v kj (n)ϕ 1 (net j (n)) j=0 = e(n)v kj (n) ϕ 1(net j (n)) net j (n) net j (n) w ji (n) w ji (n) [ Ne ] w ji (n)x i (n) i=0 = E(n) w ji (n) = e(n)v kj(n) ϕ 1(net j (n)) x i (n) (3.20) net j (n) Expandindo (3.20) e utilizando (3.7), tem-se que: ϕ 1 (net j (n)) net j (n) = [ 1 ] net j (n) 1 + exp( net j (n)) = net j exp( net j (n)) (1 + exp( net j (n))) 2 = y j(n)(1 y j (n)) (3.21) O termo ϕ 1(net j (n)) é calculado de forma dependente da função ϕ 1 (.) utilizada, que neste caso, foi expandido para a função sigmóide dada na Equação net j (n) (3.7). Utilizando (3.20) e (3.21), chega-se a: w ji (n) = ηe(n)v kj (n)y j (n)(1 y j (n))x i (n) (3.22) w ji (n + 1) = w ji (n) + ηe(n)v kj (n)y j (n)(1 y j (n))x i (n) (3.23) 3.3 Algoritmo Backpropagation Aplicado à Rede RBF Por ser uma aplicação do método do gradiente, o algoritmo backpropagation pode ser adaptado para o ajuste dos parâmetros livres de uma rede RBF, no contexto da aprendizagem supervisionada. A função custo a ser minimizada foi mostrada em (3.3). A configuração de uma rede RBF naturalmente só apresenta uma camada

58 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE 31 de neurônios ocultos, diferente das redes MLP. Além disto, para simplificação da notação, será considerado apenas um neurônio na camada de saída. A Figura 3.2 apresenta a configuração da rede RBF, bem como a notação adotada. Durante a fase de treinamento é analisado o desempenho através do valor MSE, (3.4). A atualização dos parâmetros livres é feita objetivando sua minimização. x 1 y 0 net = x- w y = ( net ) v k,0 v k,1 x i net = x- w y = ( net ) j j j 1 j v k,j v k,nh net k Nh j 0 v y z ( net k, j j k 2 k ) z k netnh = x- wnh ynh = 1 ( netnh) x Ne Figura 3.2: Configuração de uma rede RBF com um neurônio na camada de saída. Usando a notação da Figura 3.2 temos que, para um dado exemplo de treinamento n, y j (n) = ϕ 1 (net j (n)) e z k (n) = ϕ 2 (net k (n)) nas quais: net j (n) = x(n) w j (n) = (x(n) w j (n)).(x(n) w j (n)), j = 1, 2,...Nh Nh net k (n) = v kj (n)y j (n) (3.24) j=0 em que, w j não representa mais os pesos da camada oculta, como na rede MLP, e sim o centro da função de base radial associada a cada neurônio oculto. Este centro é um vetor, de mesma dimensão que x(n). No entanto, v kj continua representando os pesos da camada de saída. Como mostrado na Figura 3.2, net j e net k são aplicados às funções ϕ 1 (.) e ϕ 2 (.) existentes na camada oculta e de saída, respectivamente, e são dadas por:

59 32 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE ( ϕ 1 (net j (n)) = exp 1 ) σ 2 j(n) net j(n), para neurônios na camada oculta (3.25) ϕ 2 (net k (n)) = net k (n), para neurônios na camada de saída (3.26) em que, σ 2 representa o espalhamento ou largura das funções de base radial associadas a cada neurônio da camada oculta. Em suma, os parâmetros a serem otimizados numa rede RBF são os centros w e as larguras σ Computação no Sentido Direto Para a propagação dos sinais no sentido direto, chegam-se às seguintes expressões: Nh z k (n) = ϕ 2 (net k (n)) = net k (n) = v kj (n)y j (n), k = 1 (3.27) j=0 ( y j (n) = ϕ 1 (net j (n)) = exp 1 ) σ 2 j(n) net j(n) (3.28) = net j (n) = x(n) w j (n) (x(n) w j (n)).(x(n) w j (n)), j = 1, 2,...Nh (3.29) y 0 = θ (3.30) em que, θ novamente representa a polarização ou bias, desta vez aplicada apenas na camada de saída Computação no Sentido Reverso A otimização dos parâmetros livres, no sentido da minimização da função custo, em uma rede RBF, segue as seguintes expressões quando são realizadas a cada exemplo de treinamento: w j (n + 1) = w j (n) + w j (n) (3.31)

60 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE 33 σ 2 j(n + 1) = σ 2 j(n) + σ 2 j(n) (3.32) v kj (n + 1) = v kj (n) + v kj (n) (3.33) em que, w(n), σ 2 (n) e v(n) são os valores de ajuste. De acordo com o método do gradiente, e expandindo as Equações (3.31), (3.32) e (3.33), chegamse às seguintes expressões para otimização de tais parâmetros: w j (n) = η w w j (n)e(n) = η w E(n) w j (n) σ 2 j(n) = η σ σ 2 j(n)e(n) = η σ E(n) σ 2 j(n) (3.34) (3.35) v kj (n) = η v v kj (n)e(n) = η v E(n) v kj (n) (3.36) em que, η w, η σ e η v são as taxas de aprendizado para os centros e larguras (camada oculta) e pesos (camada linear), respectivamente. A atualização do parâmetro v, pelo fato de utilizar a mesma função de ativação da rede MLP, é obtida igualmente à Equação (3.19). Partindo de (3.34) e de (3.35), obtém-se: E(n) w j (n) = e(n)v kj(n) ϕ 1(net j (n)) w j (n) [ ( )] exp 1 net σ = e(n)v kj (n) 2 j(n) j(n) w j (n) [ ( = e(n)v kj (n) exp 1 )] σ 2 j(n) net 1 j(n) σ j2 (n) w j (n) ( x(n) w j(n) ) = e(n)v kj (n) y j(n) σ j2 (n) [2(x(n) w j(n))] (3.37) Substituindo (3.37) em (3.34), tem-se que: w j (n) = 2e(n)v kj (n) y j(n) σ j2 (n) [(x(n) w j(n))] (3.38)

61 34 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE Por fim, chega-se à expressão final para o ajuste dos centros w: w j (n + 1) = w j (n) + 2e(n)v kj (n) y j(n) σ j2 (n) [(x(n) w j(n))] (3.39) A derivação para o ajuste das larguras σ 2 é: E(n) σ j2 (n) = e(n)v kj(n) ϕ 1(net j (n)) σ j2 (n) [ ( )] exp 1 net σ = e(n)v kj (n) 2 j(n) j(n) σ j2 (n) [ ( = e(n)v kj (n) exp 1 )] ( ) σ 2 j(n) net x(n) wj (n) j(n) σ 2 j(n) σ 2 j(n) (3.40) Substituindo (3.40) em (3.35), tem-se que: ( ) x(n) σ 2 wj (n) j(n) = η σ e(n)v kj (n)y j (n) (σ 2 j(n)) 2 (3.41) Obtém-se, portanto, a equação final de ajuste para σ 2 : ( ) x(n) σ 2 j(n + 1) = σ 2 wj (n) j(n) + η σ e(n)v kj (n)y j (n) (σ 2 j(n)) 2 (3.42) 3.4 Algoritmo Backpropagation Aplicado à Rede SFNN Pelo fato de que a rede SFNN é uma variação da rede RBF, as considerações que foram feitas para esta última também valem para a primeira. A configuração ilustrada na Figura 3.2 aplica-se igualmente para a SFNN. Como mostrado na Figura 3.2, net j e net k são aplicados às funções ϕ 1 (.) e ϕ 2 (.) existentes na camada oculta e de saída, respectivamente, e na rede SFNN são dadas por:

62 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE 35 ϕ 1 (net j (n)) = 1 σ 2 j(n) sen( x(n) w j (n) ), para neurônios na camada oculta x(n) w j (n) (3.43) ϕ 2 (net k (n)) = net k (n), para neurônios na camada de saída (3.44) nas quais, σ 2 representa o espalhamento ou largura das funções de base radial associadas a cada neurônio da camada oculta, e w os centros destas funções. Em suma, os parâmetros a serem otimizados numa rede SFNN, assim como na rede RBF, são os centros w e as larguras σ Computação no Sentido Direto Para a propagação dos sinais no sentido direto, chega-se às seguintes expressões: Nh z k (n) = ϕ 2 (net k (n)) = net k (n) = v kj (n)y j (n), k = 1 (3.45) j=0 y j (n) = ϕ 1 (net j (n)) = 1 sen(net j (n) σ 2 j(n) net j (n) (3.46) = net j (n) = x(n) w j (n) (x(n) w j (n)).(x(n) w j (n)), j = 1, 2,...Nh (3.47) y 0 = θ (3.48) na qual, θ é a polarização ou bias da rede para a camada de saída Computação no Sentido Reverso A otimização dos parâmetros livres, no sentido da minimização da função custo, em uma rede SFNN segue as expressões utilizadas para a rede RBF: w j (n + 1) = w j (n) + w j (n) (3.49)

63 36 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE σ 2 j(n + 1) = σ 2 j(n) + σ 2 j(n) (3.50) v kj (n + 1) = v kj (n) + v kj (n) (3.51) em que, w(n), σ 2 (n) e v(n) são os valores de ajuste. De acordo com o método do gradiente e expandindo as Equações (3.39), (3.42) e (3.51), chegam-se às seguintes expressões para otimização de tais parâmetros: w j (n) = η w w j (n)e(n) = η w E(n) w j (n) σ 2 j(n) = η σ σ 2 j(n)e(n) = η σ E(n) σ 2 j(n) (3.52) (3.53) v kj (n) = η v v kj (n)e(n) = η v E(n) v kj (n) (3.54) em que, η w, η σ e η v são as taxas de aprendizado para os centros e larguras (camada oculta) e pesos (camada linear), respectivamente. A atualização do parâmetro v, pelo fato de utilizar a mesma função de ativação da rede MLP e da RBF é obtida igualmente à Equação (3.19). Partindo de (3.52) e de (3.53), obtém-se: = e(n)v kj (n) w j (n) E(n) w j (n) = e(n)v kj(n) ϕ 1(net j (n)) w j (n) ( 1 σ 2 j(n) ) sen( x(n) w j (n) ) x(n) w j (n) [ ] 1 netj (n)cos(net j (n)) sen(net j (n)) = e(n)v kj (n) [ 2(x(n) w σ 2 j(n) (net j (n)) 2 j (n))] (3.55) Substituindo (3.55) em (3.52), tem-se que: [ cos(netj (n) w j (n) = 2η w e(n)v kj (n) y ] j(n) (x(n) w σ 2 j (n)) (3.56) j(n) net j (n) Por fim, chega-se à expressão final para o ajuste dos centros w:

64 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE 37 [ cos(netj (n) w j (n + 1) = w j (n) + 2η w e(n)v kj (n) y ] j(n) (x(n) w σ 2 j (n)) (3.57) j(n) net j (n) A derivação para o ajuste das larguras σ 2 é: = e(n)v kj (n) σ 2 j(n) E(n) σ j2 (n) = e(n)v kj(n) ϕ 1(net j (n)) σ j2 (n) ( 1 σ 2 j(n) = e(n)v kj (n) sen(net j(n)) net j (n) ) sen( x(n) w j (n) ) x(n) w j (n) σ 2 j(n) ( 1 ) σ 2 j(n) (3.58) Substituindo (3.58) em (3.53), tem-se que: σ 2 j(n) = η σ e(n)v kj (n) y j(n) (σ 2 j(n)) 2 (3.59) Obtém-se, portanto, a equação final de ajuste para σ 2 : σ 2 j(n + 1) = σ 2 j(n) + η σ e(n)v kj (n) y j(n) (σ 2 j(n)) 2 (3.60) 3.5 Algoritmo Resilient Backpropagation A função principal do algoritmo Rprop é acelerar a convergência do backpropagation. Isto é conseguido com a utilização de taxas de aprendizado individuais para cada parâmetro, quer sejam os pesos, centros ou larguras das funções de base radial. A atualização dos parâmetros é feita por época ou em lote. As equações, referentes aos gradientes, até aqui apresentadas ainda são válidas, pois os gradientes são calculados a cada exemplo de treinamento, são somados e a otimização é realizada no fim da época com base neste valor somado. Outro aspecto que contribui para a aceleração deste algoritmo é o fato de se levar em conta apenas o sinal da derivada, e não sua magnitude. A dedução de expressões de atualização para as taxas de aprendizado são mostradas daqui em diante. É utilizada a notação η vj e η wji para indicar as taxas de aprendizado da camada de saída e oculta, respectivamente. Logo, estas taxas podem estar associadas com a

65 38 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE otimização dos pesos em uma rede MLP, ou os centros e larguras, em uma rede RBF ou SFNN. As equações de ajuste das taxas de aprendizado são dadas por: η vj (n) = δ E(n) η vj (n) η wji (n) = δ E(n) η wji (n) (3.61) (3.62) em que δ é a taxa de aprendizado proveniente da regra geral do método do gradiente, em substituição do próprio η que está sendo otimizado. Através de (3.61), obtém-se: e sabendo que: E(n) η vj (n) = E(n) z k (n) z k (n) net k (n) net k (n) η vj (n) E(n 1) v kj (n) = v kj (n 1) η vj (n) v kj (n 1) (3.63) (3.64) E(n) z k (n) = e(n) (3.65) z k (n) net k (n) = 1 (3.66) net k (n) η vkj (n) = ( Nh η vkj (n) j=0 v j (n)y j (n) ) (3.67) Substituindo (3.64) em (3.67)tem-se assim que: net k (n) η vkj (n) = E(n 1) v kj (n 1) y j(n) (3.68) Utilizando o resultado de (3.17) e comparando com (3.65),(3.66) e (3.68) obtémse então que: η vj (n) = δ E(n) E(n 1) v j (n) v j (n 1) (3.69) Para a otimização das taxas de aprendizado da camada oculta, parte-se da equação (3.62), tem-se que:

66 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE 39 e sabendo que: E(n) η wji (n) = E(n) y j (n) y j (n) net j (n) net j (n) η wji (n) E(n 1) w ji (n) = w ji (n 1) η wji (n) w ji (n 1) (3.70) (3.71) E(n) y j (n) = e(n)( v kj(n)) (3.72) y j (n) net j (n) = ϕ 1(net j (n)) net j (n) (3.73) Tem-se que: net j (n) η wji (n) = E(n 1) w ji (n 1) x i(n) (3.74) E(n) η wji (n) = e(n)(v kj(n)) ϕ 1(net j (n)) E(n 1) net j (n) w ji (n 1) x i(n) (3.75) De (3.20), chega-se à: E, finalmente: E(n) w ji (n) = e(n)v kj(n) ϕ 1(net j (n)) x i (n) (3.76) net j (n) η wji (n) = δ E(n) E(n 1) (3.77) w ji (n) w ji (n 1) As equações (3.69) e (3.77) não são utilizadas diretamente como ajuste das taxas de aprendizado. Suas deduções foram realizadas para justificá-las nas equações propostas por Riedmiller, e que já foram definidas no capítulo anterior.

67 40 CAPÍTULO 3. DERIVAÇÃO DAS EQUAÇÕES DE AJUSTE A PARTIR DO MÉTODO DO GRADIENTE

68 Capítulo 4 Modelos de Dispositivos de Microondas Neste capítulo são discutidos quatro dispositivos passivos de microondas: um ressoador retangular de microfita, uma antena de microfita com substrato PBG, um guia de ondas retangular de paredes internas com material PBG e uma linha de microfita com substrato de GaAs. É proposta a configuração de uma rede modular híbrida RBF/MLP para a modelagem de algumas características destes dispositivos. Para a antena, a perda de retorno é modelada. No caso do guia de ondas, o modelo elaborado é referente ao valor de campo elétrico no seu interior. E, por último, as perdas na linha de microfita são modeladas pela rede proposta. Todas as simulações deste capítulo foram implementadas em um microcomputador pessoal com processador de 2,26 GHz e 128 Mb de memória. 4.1 Antenas de Microfita O desenvolvimento das antenas de microfita remonta os anos 70, através da disponibilidade dos substratos com baixa tangente de perda e propriedades térmicas/mecânicas desejáveis. Como mostra a Figura 4.1, uma antena de microfita, em sua configuração mais simples, consiste de um patch condutor em um lado do substrato dielétrico, com um plano terra no outro lado [55]. Os patchs condutores, normalmente de cobre ou ouro, podem assumir virtualmente qualquer forma, mas formas regulares são geralmente utilizadas para simplificar a análise e a predição do desempenho. A faixa de aplicação de tais antenas fica em torno de 100 MHz até 100 GHz e apresentam algumas vantagens se comparadas

69 42 CAPÍTULO 4. MODELOS DE DISPOSITIVOS DE MICROONDAS Patch Condutor Substrato Dielétrico Plano Terra Figura 4.1: Configuração de uma antena de microfita. com as antenas de microondas convencionais [55]: Baixo peso e volume; Baixo custo de fabricação; Possibilidade de polarização linear e circular; Facilidade na obtenção de dupla polarização e ressonância em dupla freqüência; Podem ser facilmente acopladas com circuitos integrados de microondas; Linhas de alimentação e redes de casamento podem ser fabricadas juntas com a estrutura da antena. A radiação a partir de uma antena de microfita pode ser determinada pela distribuição do campo elétrico entre o patch e o plano terra ou pela distribuição de corrente na superfície condutora. Uma análise detalhada do comportamento e do cálculo da radiação em uma antena de microfita é feita por Garg et al. e Itoh [55, 56]. O primeiro passo no projeto de uma antena de microfita é a escolha de um substrato apropriado. Este é principalmente necessário para o suporte mecânico da parte metálica. Para isto, o substrato deve consistir de um material dielétrico, o que geralmente afeta o desempenho elétrico da antena. Muitos fatores devem ser levados em consideração na escolha do substrato: permissividade elétrica relativa, tangente de perdas e sua variação com a temperatura e freqüência, homogeneidade, anisotropia, flexibilidade, resistência a impactos e tensões, para citar alguns. Os substratos dividem-se em cinco categorias principais: cerâmicos, semicondutores, ferrimagnéticos, sintéticos e compostos. Os semicondutores, como o silício (Si) ou arseneto de gálio (GaAs), podem ser utilizados para circuitos passivos e antenas. Entretanto, o tamanho dos substratos semicondutores disponíveis restringem seu uso para a faixa superior de microondas englobando também a faixa de ondas milimétricas [55].

70 CAPÍTULO 4. MODELOS DE DISPOSITIVOS DE MICROONDAS 43 Uma das características das antenas de microfita é a formação de ondas de superfície. Estas ondas são excitadas sempre que a permissividade relativa do substrato for ɛ r > 1, e se propagam dentro do substrato com um ângulo de elevação τ e complementarmente sen 1 ( 1 ɛr ), como mostra a Figura 4.2 [55]. Reflexão Total Difração de Borda h arcsen 1 r Figura 4.2: Propagação de ondas de superfície em um substrato de uma antena de microfita e suas difrações na borda. A propagação das ondas de superfície constitui um sério problema nas antenas de microfita. Elas reduzem a eficiência e o ganho da antena, limitam a largura de banda, aumentam a radiação end-fire, aumentam o nível de polarização cruzada e limitam a faixa de freqüência aplicável da antena. Adicionalmente, a miniaturização das antenas e sua integração com circuitos de microfita é dificultada pela alta constante dielétrica utilizada nos substratos, conseqüentemente adicionando ondas de superfície. Uma solução para a redução das ondas de superfície foi proposta por Garg et al. e Almeida et al. [55, 57]. Estes propuseram uma estrutura do tipo PBG na fabricação do substrato dielétrico. Basicamente, as estruturas PBG são feitas de materiais dielétricos (ou metais) distribuídos periodicamente ao longo de uma região [57]. Quando estas regiões são submetidas à propagação de ondas eletromagnéticas, uma característica apresentada pelo material é a existência de bandas de freqüência onde as ondas eletromagnéticas são refletidas e não se propagam no seu interior. Um exemplo de uma antena de microfita com substrato PBG é ilustrado na Figura 4.3.

71 44 CAPÍTULO 4. MODELOS DE DISPOSITIVOS DE MICROONDAS Figura 4.3: Antena de microfita com substrato PBG Modelo da Freqüência de Ressonância de um Ressoador Retangular de Microfita Através de uma Rede MLP No estudo dos circuitos, dispositivos e linhas de transmissão, faz-se necessário a análise dos campos eletromagnéticos, principalmente quando esses elementos são de uso efetivo em altas freqüências. Sendo assim, foram desenvolvidos os métodos de análise quasi-estáticas, ou aproximados, e os métodos de análise dinâmica, ou de onda completa. Os métodos aproximados têm a vantagem da simplificação no desenvolvimento das equações que descrevem o funcionamento do dispositivo, bem como, uma boa aproximação nos resultados obtidos através da análise quando comparados com os resultados reais para baixas freqüências (< 10 GHz). Entre os diversos métodos de onda completa hoje existentes estão: Método da Linha de Transmissão Equivalente - LTE ou Método da Imitância, Método de Galerkin, FDTD, Método da Linha de Transmissão Transversa - LTT e outros. Vários métodos se utilizam do recurso matemático de mudança de domínio, passando para o domínio espectral, como uma boa maneira de simplificar e facilitar a análise da estrutura [58]. O método da Linha de Transmissão Transversa - LTT utiliza um termo de propagação na direção y transversa à direção real de propagação z e trata as equações gerais dos campos elétricos e magnéticos como funções de suas componentes E y e H y. Apesar de ser um método preciso, seu uso como ferramenta CAD é inviável

Exibir mais