OBTENÇÃO DAS FUNÇÕES DE PERTINÊNCIA DE UM SISTEMA NEUROFUZZY MODIFICADO PELA REDE DE KOHONEN

Transcrição

1 UNIVERSIDADE DO ESTADO DE SANTA CATARINA UDESC CENTRO DE CIÊNCIAS TECNOLÓGICAS CCT DEPARTAMENTO DE ENGENHARIA ELÉTRICA DEE PROGRAMA DE PÓS-GRADUAÇÃO EM AUTOMAÇÃO INDUSTRIAL Formação: Mestrado em Automação Industral DISSERTAÇÃO DE MESTRADO OBTIDA POR Angelo Luís Paglosa OBTENÇÃO DAS FUNÇÕES DE PERTINÊNCIA DE UM SISTEMA NEUROFUZZY MODIFICADO PELA REDE DE KOHONEN Apresentada em 8/2/2003 Perante a Banca Examnadora: Dr. Claudo Cesar de Sá Presdente (UDESC) Dr. Alcndo Prado Júnor (UDESC) Dr. Ilam Costa Júnor (UDESC) PhD Pedro P. B. de Olvera (Unversdade Prebsterana Mackenze)

2 UNIVERSIDADE DO ESTADO DE SANTA CATARINA UDESC CENTRO DE CIÊNCIAS TECNOLÓGICAS CCT DEPARTAMENTO DE ENGENHARIA ELÉTRICA DEE PROGRAMA DE PÓS-GRADUAÇÃO EM AUTOMAÇÃO INDUSTRIAL DISSERTAÇÃO DE MESTRADO Mestrando: ANGELO LUÍS PAGLIOSA Engenhero Eletrcsta Orentador: Prof. Dr. CLAUDIO CESAR DE SÁ CCT/UDESC - JOINVILLE OBTENÇÃO DAS FUNÇÕES DE PERTINÊNCIA DE UM SISTEMA NEUROFUZZY MODIFICADO PELA REDE DE KOHONEN DISSERTAÇÃO APRESENTADA PARA OBTENÇÃO DO TÍTULO DE MESTRE EM AUTOMAÇÃO INDUSTRIAL DA UNIVERSIDADE DO ESTADO DE SANTA CATARINA, CENTRO DE CIÊNCIAS TECNOLÓGICAS CCT, ORIENTADA PELO PROF. DR. CLAUDIO CESAR DE SÁ Jonvlle 2003

3 Dedco este trabalho a todos que me apoaram nesta jornada. A Deus, A Eucleudes e Pedro, meus pas, À mnha adorada esposa, Marlene Vlvert.

4 v AGRADECIMENTOS dfíces. A Deus pela oportundade de aprendzado e crescmento, e pela ajuda nos momentos Aos meus pas, Pedro e Eucleudes, pelo apoo e ncentvo. À mnha esposa, Marlene, pelo companhersmo e compreensão. Ao professor Claudo Cesar de Sá, pela orentação no decorrer deste trabalho. À coordenação do Departamento de Pós-graduação do CCT/UDESC, pelo empenho na melhora do curso e a secretára Tâna pela amzade e apoo. A WEG Automação pelo ncentvo e compreensão nos momentos que tve que me ausentar da empresa, para a concretzação deste estudo, em especal ao meu gerente Eng. Paulo Roberto Kruger. Quera estender meus agradecmentos aos que colaboraram me emprestando ora uma déa, ora um lvro ou um artgo, estímulo e confança - às vezes tudo sso junto. Por fm, quero declarar que sem o amor e dedcação ao que se faz nada tera sdo possível ou valdo a pena nem esta dssertação nem a vda.

5 v O que sabemos é uma gota, o que gnoramos é um oceano. - Isaac Newton -

6 v SUMÁRIO Lsta de Fguras... x Lsta de Tabelas... x Lsta de Sglas e Abrevaturas... xv Resumo... xv Abstract... xv. INTRODUÇÃO.... Contextualzação Problema Abordado Objetvo Geral Objetvos Específcos Justfcatvas Contrbuções Organzação da Dssertação LÓGICA FUZZY Introdução Resumo Hstórco Noções da Lógca Fuzzy Varáves Lngüístcas Teora dos Conjuntos Fuzzy Modelagem Fuzzy de Sstemas Estrutura de um Controlador Fuzzy Conclusão REDES NEURAIS ARTIFICIAIS Introdução As Redes Neuras Hstórco das Redes Neuras Artfcas... 33

7 v Fundamentos Bológcos Característcas de uma Rede Neural Prncípos da Neurocomputação Estruturas e Dnâmcas das Redes Neuras Artfcas Snas de Entrada e Saída Pesos Função de Atvação e Transferênca Camadas Esconddas Arquteturas das Redes Neuras Artfcas Aprendzado das Redes Neuras Artfcas Aprendzado Supervsonado Aprendzado Não-Supervsonado Aprendzado por Competção Aprendzado por Reforço Processo de Trenamento Projeto de uma Rede Neural Conclusão SISTEMAS HÍBRIDOS Introdução Descrção dos Sstemas Híbrdos Taxonoma dos Sstemas Híbrdos Sstemas Neurofuzzy Modelos de Sstemas Neurofuzzy Análse dos Sstemas Híbrdos Lmtações dos Sstemas Híbrdos Conclusão IDENTIFICAÇÃO DE SISTEMAS Introdução Sstemas de Controle Identfcação de Sstemas Intelgênca Artfcal em Identfcação de Sstemas Aprendzado e Generalzação Crtéro de Convergênca... 84

8 v 5.5 Conclusão AJUSTE DAS FUNÇÕES DE PERTINÊNCIA DO NFN-MK Introdução Descrção do modelo NFN-MK Estrutura do Neo-Fuzzy-Neuron Ajuste dos Pesos Atualzação dos Pesos com Taxa de Aprendzado Ótma Análse da Complexdade dos Algortmos NFN versus RNA Sstema Neo-Fuzzy-Neuron Generalzado Taxonoma do Sstema NFN Rede de Kohonen Ajuste das Funções de Pertnênca Curva do Tpo Curva do Tpo Conclusão VALIDAÇÃO E ESTUDOS DE CASOS Introdução Estudos de Casos Estudo de Caso: Função Seno Estudo de Caso: Função Chapéu Mexcano Estudo de Caso: Função Radal Estudo de Caso: Função Não-Lnear Conclusão CONCLUSÃO Revsão Contextual Problema e Solução Proposta Resultados Contrbuções Trabalhos Futuros REFERÊNCIAS BIBLIOGRÁFICAS ANEXO I - Algortmo Backpropagaton ANEXO II - Algortmo LVQ (Vetor de Quantzação Lnear)... 80

9 x LISTA DE FIGURAS Fgura 2. Dagrama de blocos do sstema de controle... 9 Fgura 2.2 Exemplo do domíno das varáves lngüístcas...3 Fgura 2.3 Exemplo do domíno da lógca bnára... 3 Fgura 2.4 Classfcação bnára entre ser alto ou não-alto...4 Fgura 2.5 Classfcação fuzzy para varável altura...5 Fgura 2.6 Descrção da varável saláro...8 Fgura 2.7 Ilustração das prncpas t-normas... 9 Fgura 2.8 Ilustração das prncpas t-conormas Fgura 2.9 Função f(x) descrta por equação matemátca... 2 Fgura 2.0 Função f(x) descrta por regras lngüístcas com valores exatos Fgura 2. Função f(x) descrta por regras lngüístcas fuzzy Fgura 2.2 Estrutura básca de um controlador fuzzy Fgura 3. Componente do neurôno bológco Fgura 3.2 Potencal de ação em um neurôno Fgura 3.3 Modelo neural Fgura 3.4 Modelo do neurôno artfcal Fgura 3.5 Modelo do neurôno artfcal com entrada de vés Fgura 3.6 Neurôno com n entradas e pesos defndos Fgura 3.7 Um neurôno com as funções de atvação e transferênca Fgura 3.8 Funções de transferêncas mas empregadas Fgura 3.9 Redes exemplfcando camadas esconddas ou ocultas Fgura 3.0 Redes de camada únca Fgura 3. Redes de múltplas camadas Fgura 3.2 Redes feedback... 5 Fgura 3.3 Aprendzado supervsonado Fgura 3.4 Fluxo de processamento do algortmo com as fases forward e backward.. 54

10 x Fgura 3.5 Estrutura de um elemento neurôno Fgura 3.6 Dagrama de blocos da regra delta generalzada Fgura 3.7 Aprendzado não-supervsonado Fgura 3.8 Aprendzado por reforço Fgura 3.9 Análse do supertrenamento Fgura 3.20 Fluxograma do desenvolvmento de uma rede neural...6 Fgura 4. Arqutetura de um sstema neurofuzzy...64 Fgura 4.2 Taxonoma quanto às característcas fuzzy do sstema Fgura 4.3 Taxonoma quanto às característcas de aprendzado Fgura 4.4 Estrutura neural para as premssas de uma rede fuzzy neural...68 Fgura 4.5 Rede fuzzy neural baseada em regras Fgura 4.6 Topologa de uma rede fuzzy neural em forma paramétrca Fgura 4.7 Arqutetura neurofuzzy ANFIS... 7 Fgura 4.8 Arqutetura de um FSOM com duas entradas e uma saída Fgura 4.9 Sstema NEFCLASS Fgura 5. Sstema de controle Fgura 5.2 Identfcação de um sstema dnâmco Fgura 5.3 Função com mínmo local e global Fgura 6. Dagrama de blocos do trenamento do NFN Fgura 6.2 Modelo híbrdo ncorporado Fgura 6.3 Modelo híbrdo auxlar...89 Fgura 6.4 Estrutura da rede neurofuzzy NFN-MK Fgura 6.5 Estrutura do sstema Neo-Fuzzy-Neuron... 9 Fgura 6.6 Estrutura do neurôno fuzzy Fgura 6.7 Funções de pertnênca do tpo trangular unformemente espaçadas Fgura 6.8 Inferênca fuzzy em uma snapse não-lnear do Neo-Fuzzy-Neuron Fgura 6.9 Ajuste dos pesos para a rede NFN Fgura 6.0 a) Dagrama de blocos do NFNG b) Bloco F (x )... 0 Fgura 6. Topologa da rede de Kohonen Fgura 6.2 Funções de pertnênca tpo... 0 Fgura 6.3 Funções de pertnênca tpo 2... Fgura 6.4 Determnação das funções de pertnênca... 2 Fgura 6.5 Rede de Kohonen para determnar os centros das funções trangulares... 3

11 Fgura 7. Função f x) sen( x) ( = a ser aproxmação... 8 Fgura 7.2 Rede NFN-MK usada na aproxmação da função sen ( x)... 9 Fgura 7.3 Funções trangulares eqüdstantes para f x) sen( x) ( =... 2 Fgura 7.4 Funções trangulares não unformemente dstrbuídas para f x) sen( x) ( =.. 2 Fgura 7.5 EQM para dferentes taxas de aprendzagem Fgura 7.6 Fase de teste do NFN-MK para f x) sen( x) ( = Fgura 7.7 RNA utlzada na aproxmação da função sen(x)...26 Fgura 7.8 Função tangente hperbólca...29 Fgura 7.9 Dervada da função tangente hperbólca Fgura 7.0 Fase de trenamento da RN para os ganhos arbtráros e obtdos por AG.. 30 Fgura 7. Evolução do EQM para os ganhos arbtráros e obtdos por AG... 3 Fgura 7.2 Fase de teste da rede neural Fgura 7.3 Comparação entre os erro quadrátco médo Fgura 7.4 Curva chapéu mexcano Fgura 7.5 Rede NFN-MK usada na aproxmação do chapéu mexcano Fgura 7.6 Funções trangulares para f x, x ) = sn c( x, ) ( 2 x2 Fgura 7.7 Funções trangulares não unformes para f x, x ) = sn c( x, ) ( 2 x2 Fgura 7.8 Fase de teste em 3D da função chapéu mexcano Fgura 7.9 Fase de teste em 2D da função chapéu mexcano Fgura 7.20 Rede NFHQ usada na aproxmação da curva chapéu mexcano Fgura 7.2 Rede FSOM na aproxmação da curva chapéu mexcano... 4 Fgura 7.22 RNA utlzada na aproxmação da função f x, x ) = sn c( x, ) ( 2 x2 Fgura 7.23 Fase de trenamento da RN para a curva chapéu mexcano Fgura 7.24 Curva radal Fgura 7.25 Funções trangulares para a função radal...46 Fgura 7.26 Funções trangulares não unforme para curva radal...46 Fgura 7.27 Fase de teste em 3D da função radal Fgura 7.28 Fase de teste em 2D da função radal Fgura 7.29 Fase de trenamento da RN com 2 padrões entrada/saída... 5 Fgura 7.30 Fase de trenamento da RN com 0 padrões entrada/saída... 5 Fgura 7.3 Comparação entre as etapas de trenamento x

12 x Fgura 7.32 Função não-lnear Fgura 7.33 Funções trangulares eqüdstantes para a não-lnear Fgura 7.34 Funções trangulares não unformemente dstrbuídas...55 Fgura 7.35 Fase de teste do NFN-MK Fgura 7.36 Estrutura da rede NFN Fgura 7.37 Fase de teste do NFN Fgura AI. Rede multcamadas Fgura AI.2 Rede neural com suas respectvas conexões Fgura AI.3 Propagação dos snas de entrada Fgura AI.4 Rede com três camadas Fgura AI.5 Retropropagação do erro Fgura AII. Esquema da rede para o LVQ... 8

13 x LISTA DE TABELAS Tabela 2. Termos da varável saláro... 7 Tabela 2.2 Prncpas t-normas e t-conormas duas... 9 Tabela 2.3 Vantagens e desvantagens dos métodos de defuzzfcação Tabela 2.4 Equações das funções de pertnêncas Tabela 3. Comparatvo entre o cérebro humano e o computador... 4 Tabela 3.2 Comparação entre o neurôno bológco e artfcal Tabela 4. Comparação entre os sstemas fuzzy e neural Tabela 6. Comparação entre o neurôno artfcal e fuzzy Tabela 6.2 Comparação entre a RNA e o NFN Tabela 7. Dados de trenamento do NFN-MK Tabela 7.2 Parâmetros da modelagem da função f x) sen( x) ( = Tabela 7.3 EQM fnal Tabela 7.4 Análse de resultados função f x) sen( x) Tabela 7.5 Dados de trenamento da função f x) sen( x) ( = ( = Tabela 7.6 Ganhos otmzados pelo algortmo genétco Tabela 7.7 Comparação entre a RNA e o NFN-MK para a função f x) sen( x) ( = Tabela 7.8 Dados de trenamento do NFN-MK Tabela 7.9 Parâmetros da modelagem da função f x, x ) = sn c( x, ) ( 2 x2 Tabela 7.0 Análse de resultados função f x, x ) = sn c( x, ) ( 2 x2 Tabela 7. Dados de trenamento da curva chapéu mexcano Tabela 7.2 Comparação entre a RNA e o NFN-MK para f x, x ) = sn c( x, ) ( 2 x2 Tabela 7.3 Comparação dos resultados para a função f x, x ) = sn c( x, ) ( 2 x2 Tabela 7.4 Dados de trenamento do NFN-MK Tabela 7.5 Parâmetros da modelagem da função radal Tabela 7.6 Análse de resultados função radal Tabela 7.7 Dados de trenamento da curva radal... 52

14 xv Tabela 7.8 Comparatvo entre NFN e NFN-MK Tabela 7.9 Parâmetros das curvas de pertnênca da função não-lnear Tabela 7.20 Resultados dos EQM... 59

15 xv LISTA DE SIGLAS E ABREVIATURAS IA AG ANFIS ART C CDA EQM FSOM GD LD LE LVQ MAX MCP MDM MIMO MQO MLP NB NEFCLASS NFHQ NFN NFNG NFN-MK NM Intelgênca Artfcal Algortmo Genétco Adaptve Network-based Fuzzy Inference System Adaptatve Resonance Theory Centro Centro de Área Erro Quadrátco Médo Fuzzy Self-Organzed Map Gradent Decrescent Lmte Dreto Lmte Esquerdo Lnear Vector Quantazaton Crtéro do Máxmo McCulloch e Ptts Méda dos Máxmos Multple Input Multple Output Mínmos Quadrados Ordnáros Mult-Layer Perceptron Negatvo Grande Neuro Fuzzy Classfcaton Neuro Fuzzy Herárquco Quadtree Neo-Fuzzy Neuron Neo-Fuzzy-Neuron Generalzado Neo- Fuzzy-Neuron Modfcado por Kohonen Negatvo Médo

16 xv NS PB PDP PM PS RBF RFN RN RNA SF SH SOM VB ZE Negatvo Pequeno Postvo Grande Parallel Dstrbuted Processng Postvo Médo Postvo Pequeno Radal Bass Functon Rede Fuzzy Neural Rede Neural Rede Neural Artfcal Sstemas Fuzzy Sstemas Híbrdos Self Organzng Map Vsual Basc Zero

17 xv RESUMO PAGLIOSA, Angelo L. Obtenção das funções de pertnênca de um sstema neurofuzzy modfcado pelas redes de Kohonen f. Dssertação (Mestrado em Automação Industral) Centro de Cêncas Tecnológcas, Unversdade do Estado de Santa Catarna, Jonvlle, Esta dssertação propõe um modelo computaconal que combna técnca de Sstemas Fuzzy (SF) e Redes Neuras Artfcas (RNA s), com o objetvo de realzar a dentfcação de sstemas, os quas são modelados pela descoberta de curvas de pertnênca e pesos de conexões no modelo proposto. O modelo proposto chamado de Neo Fuzzy Neuron Modfcado pela rede de Kohonen (NFN-MK) fo reestruturado a partr do modelo do Neo Fuzzy Neuron (NFN), proposto orgnalmente por Yamakawa. O modelo NFN é construído sob uma topologa neural que assoca as regras do tpo Se Então, sendo estas do tpo fuzzy. A vrtude do modelo de Yamakawa é combnar o conhecmento apresentado nos SF s com a habldade de aprendzagem e generalzação das RNA s. A partr deste modelo, o NFN-MK ntroduz a rede de Kohonen em um estágo ncal da aprendzagem, a fm de encontrar os vértces ncas das curvas trangulares de pertnênca do modelo proposto. A partr da defnção ncal dos vértces dos trângulos nas curvas de pertnênca, nca-se um processo de aprendzagem, análogo ao backpropagaton clássco, a fm de ajustar os pesos de cada conexão da topologa neural proposta. Ao fnal da aprendzagem, o NFN-MK é submetdo a expermentos na dentfcação de três sstemas. Estes sstemas são representados com curvas matemátcas clásscas, a fm de comparar a efcênca do modelo proposto a outros resultados como: o própro valor analítco das funções, RNA s clásscas e outros modelos neurofuzzy de trabalhos correlatos. Palavras-chaves: sstemas fuzzy, redes neuras, sstemas neurofuzzy, método de Kohonen, funções de pertnênca

18 xv ABSTRACT PAGLIOSA, Angelo L. Neo-Fuzzy-Neuron Modfy (NFNM) that uses Kohones' method to automatc generaton of membershps functon p. MSc.thess n Industral Automaton - Unversty Santa Catarna State, Jonvlle, Ths dssertaton presents an hybrd computatonal model that combnes fuzzy system technques and artfcal neural networks. Its objectve s the automatc generaton of membershp functons, n partcular, trangle forms, amng at a dynamc modellng of a system. The model s named Neo-Fuzzy-Neuron Modfy by Kohonen (NFN-MK), snce t starts usng Kohonen network to obtan the central vertces n trangular curves. A set of these curves are used to model a varable of the real system. NFN-MK s based on the Neo-Fuzzy- Neuron (NFN) model orgnally proposed by Yamakawa, where a network s adapted n order to assocate fuzzy, "f-then"rules allowng elctaton and extracton of knowledge n lngustc form. The NFN-MK model s tested by smulaton of real systems. They are here represented by classcal mathematcal functons, chosen due ther mportance n the system dentfcaton feld. Fnally, a comparson of the results obtaned by NFN-MK s carred out aganst other models such as analytcal results, tradtonal neural networks, and correlated studes of neurofuzzy systems appled to system dentfcaton. Ths work ends wth a comparson of the results obtaned by NFN-MK wth analytcal results, and those obtaned by usng tradtonal neural networks and other system dentfcaton neurofuzzy methods. Key-words: fuzzy systems, neural network, neurofuzzy systems, Kohonen method, membershps functon.

19 CAPÍTULO INTRODUÇÃO A Identfcação de Sstemas é a área que estuda a construção de modelos matemátcos de sstemas dnâmcos a partr das varáves de entrada e saída [3], podendo estes ser lneares ou não-lneares, e a partr destes modelos realzar expermentos que reportem o comportamento dos sstemas reas. Uma das prncpas motvações é o custo e vabldade reduzdos em se trabalhar com modelos no lugar dos sstemas reas. Dependendo do tpo de processo que se deseja dentfcar, uma manera extremamente útl de descrever um problema de dentfcação é sob forma de aproxmação de funções, ou sob a otmzação de funções que mplca na mnmzação do erro, vsando com sto replcar o comportamento real. A área de Intelgênca Artfcal (IA) apresenta-se como uma alternatva para a solução de problemas em dentfcação e controle, prncpalmente aqueles que envolvem nãolneardades [4]. A IA mplementa/constró sstemas que permtem que o computador execute funções que são desempenhadas pelos seres humanos, usando conhecmento e racocíno. Alguns sstemas são nsprados em modelos bológcos, outros, em sstemas que produzem algum tpo de comportamento próxmo ao observado em sstemas naturas [58]. Na IA duas lnhas de pesqusas são conhecdas: as Redes Neuras Artfcas (nspração no modelo do neurôno bológco) e a Lógca Fuzzy (drgda ao racocíno humano) [58]. As Redes Neuras Artfcas (RNA s) oferecem a possbldade de aprendzado a partr dos pares de entrada/saída. Contudo, as RNA s podem exgr um longo tempo de trenamento e não possuem um mecansmo explcatvo, tão menos um mecansmo automátco e efcente para auxílo no desenvolvmento do projeto. Já a Lógca Fuzzy (LF) é um mecansmo de racocíno smlar ao do ser humano, por uso de termos lngüístcos e conhecmento do senso comum. As lmtações deste sstema são: nexstênca de técncas de aprendzado na geração das regras fuzzy e das funções de pertnênca, as quas dependem do conhecmento de um especalsta. As combnações entre essas áreas, RNA s e LF s, encontram-se dentro do contexto dos Sstemas Híbrdos (SH), que utlzam as vantagens de cada um dos sstemas, aprovetando o conhecmento do modelo do processo para dmnur o tempo de projeto. A smbose dessas

20 2 lnhas de pesqusa vem gerando novas classes de Sstemas Neurofuzzy, que se dferencam pela arqutetura, métodos de aprendzagem, parâmetros pré-defndos e representação de conhecmento, combnando a capacdade de sstemas fuzzy de ldar com nformações mprecsas e com a capacdade das redes neuras de aprender por meo de exemplos. Neste trabalho é proposto um sstema híbrdo chamado de Neo Fuzzy Neuron Modfcado pela rede de Kohonen, destnado à aproxmação de funções, que dentfcam e modelam um sstema real. O Neo Fuzzy Neuron fo orgnalmente proposto por Yamakawa [96, 97], e a partr deste modelo se reestruturaram alguns concetos, mas especfcamente o uso da rede de Kohonen para encontrar os centros das curvas fuzzy dos neurônos fuzzy do modelo em questão. O trenamento da rede proposta pelo NFN-MK só é fnalzado quando o erro de estmação ou o número de épocas for satsfeto, então o NFN-MK obtdo pode ser usado como um novo modelo da planta real. A mplementação da rede de Kohonen tem o propósto de ndcar a localzação ncal das curvas de pertnênca mas apropradas para cada aplcação, representando assm, um maor conhecmento e precsão sobre o sstema em estudo.. Contextualzação Há dferentes maneras de se obter um modelo para um determnado sstema, utlzando equações matemátcas, gráfcos, etc. As equações matemátcas são as mas usadas [58]. Isto sgnfca que os comportamentos e as relações dos agentes são expressos por um modelo matemátco. Para modelar matematcamente um sstema, pode-se adotar dos procedmentos: Les físcas que supostamente governam o comportamento do sstema; Inferr um modelo baseado em dados observados do sstema. Isto ocorre quando a modelagem dreta é mpossível ou dfícl, ou seja, o conhecmento do sstema é ncompleto ou nexstente, exceto os valores dos pares das entradas com as respectvas saídas. Assm um sstema pode-se defnr como uma coleção de agentes, onde, cada um comporta-se de modo autônomo, ou seja, possu comportamento própro, capaz de nteragr com os outros, para satsfazer um conjunto específco de exgêncas e manter um

21 3 comportamento coerente com seu ambente. Os agentes em questão podem ser: smples células, varáves numércas, strng de bts, etc. Em alguns sstemas o comportamento é classfcado como de dfícl dentfcação e resstem a tas procedmentos matemátcos. Nestes casos, a obtenção do modelo do sstema com as ferramentas dsponíves é complcada e o projetsta tende a smplfcar a realdade observada. Esta smplfcação lmta-se às relações entre agentes e seu ambente, já que os procedmentos quanttatvos são lmtados no tratamento de relações altamente não-lneares e dnâmcas. Como conseqüênca, o modelo obtdo não reflete a realdade tal como ela é. As relações matemátcas podem só descrever certos aspectos do mundo real, e sua utlzação se deve mutas vezes à falta de outras ferramentas mas apropradas [58]. Neste sentdo, para resolver a complexdade do problema da dentfcação de sstemas, remete-se ao uso de ferramentas não-convenconas, no caso a área de Intelgênca Artfcal (IA). O trabalho apresenta um sstema híbrdo, o Neo-Fuzzy-Neuron Modfcado por Kohonen (NFN-MK), que busca com aproxmações de funções a modelagem de um sstema. O modelo proposto usa um conjunto de dados do tpo entrada-saída do sstema real para estmar o comportamento das funções de pertnênca, regras lógcas e ajustar pesos da rede, e com sto representar o modelo do sstema a ser aproxmado. Essas funções podem ser lneares ou nãolneares, dependendo do tpo de processo que se deseja aproxmar. Quando IA é colocada em contexto, os seres humanos pensam em sstemas que racocnam e tomam decsões guas aos seres humanos, verdaderos protótpos de pessoas capazes nclusve de sentr, o que é um erro. A conseqüênca é que o termo acaba sendo mal aplcado, pos as pessoas não entendem que se trata de algortmos e não de ntelgênca no sentdo do ser humano. O que dferenca um sstema que usa IA de um programa convenconal é a qualdade de desempenho, ou seja, velocdade de processamento. A prncpal motvação no desenvolvmento de sstemas híbrdos, é que o uso de uma únca técnca, pode não ser capaz de resolver um dado problema, em razão de suas lmtações ou defcêncas. A combnação de váras técncas pode levar a uma solução robusta e efcente, sendo esta uma das proposções do trabalho.

22 4.2 Problema Abordado O problema aqu abordado é encontrar um modelo computaconal que reproduza o comportamento de um sstema real. Encontrar este modelo é um problema da área de Identfcação de Sstemas..2. Objetvo Geral Desenvolver um sstema neurofuzzy destnado a dentfcação de sstemas, onde as funções de pertnênca do tpo trangulares são ajustadas ncalmente pela rede de Kohonen. A efcênca do modelo proposto é exbda com exemplos de aproxmações das funções que representem um sstema real a ser dentfcado. Neste trabalho foram modeladas as funções: sen(x), chapéu mexcano, radal e não-lnear, sendo essas contínuas e lmtadas em um ntervalo no espaço..2.2 Objetvos Específcos Implementar um sstema de nferênca, onde o modelo é formado por um conjunto de regras do tpo Se-Então, que representam o comportamento do sstema; Implementar rotnas de aprendzagem, para o modelo adaptar-se aos requstos e mudanças ambentas, assm como uma generalzação das stuações anterores; Mesclar técncas fuzzy e neural, resultando em um sstema híbrdo, o Neo-Fuzzy- Neuron Modfcado por Kohonen; Processar as entradas/saídas e armazenar o conhecmento obtdo a partr da experênca. Isto sgnfca que o modelo utlza dados numércos do sstema real; Ajustar as funções de pertnênca do tpo trangular, pela rede de Kohonen; Aplcar concetos de dentfcação e modelagem de sstemas, aos casos propostos; Valdar o modelo computaconal proposto, testando-o na dentfcação das funções sen(x), chapéu mexcano, radal e não-lnear. Em resumo, é proposto um modelo computaconal que deverá mplementar os requstos ctados anterormente. Este modelo deverá ter como parâmetro de entrada um

23 5 conjunto de dados de entrada-saída do sstema real, e ele deverá ser capaz de ajustar as curvas de pertnênca, gerar uma base de regras e encontrar os pesos da rede, para que aproxme o comportamento dos dados de entrada-saída ao comportamento do sstema real. E, se assm for, conclundo-se a mmetzação comportamental do sstema real com o modelo proposto..2.3 Justfcatvas As justfcatvas em torno da mplementação do sstema híbrdo chamado de Neo Fuzzy Neuron Modfcado por Kohonen (NFN-MK) aplcado à aproxmação de funções são dadas por: O número de operações envolvdas no sstema NFN-MK é menor, quando comparado com as RNA s. Isso faz com que seja uma opção atraente em aplcações em tempo real e em trenamento on-lne; Com o uso da rede de Kohonen, o sstema obtém funções de pertnênca não unformemente dstrbuídas, representando maor precsão e conhecmento sobre o sstema em estudo; O sstema NFN-MK utlza sete funções de pertnênca para cada padrão de entrada. Segundo Shaw e Smões (999), uma mudança de cnco curvas para sete, aumenta a precsão em torno de 5%, sendo que a partr de sete não há melhoras sgnfcatvas; As funções de pertnênca são do tpo trangulares, porque esse perfl tem a vantagem de ser computaconalmente smples; Os procedmentos de aprendzagem usados no sstema NFN-MK não utlzam dervadas, como no backpropagaton (usado em redes neuras artfcas), tornando a atualzação dos pesos mas rápda..3 Contrbuções A segur as prncpas contrbuções da dssertação:

24 6 O NFN-MK é um modelo computaconal que apresenta uma alternatva à área de Identfcação de Sstemas com técncas não-convenconas. A Intelgênca Artfcal é capaz de reduzr a complexdade da modelagem de um sstema real. Em prncípo, ele é uma solução para problemas de controle até ntratáves por técncas clásscas, como: transformadas de Laplace ou Z [82]; O processo de aqusção de conhecmento não depende de um especalsta, como nos sstemas fuzzy. As curvas ncas de pertnênca são sete, modfcadas e adaptadas pela rede de Kohonen, baseadas apenas nos dados de entradas; A aproxmação de função por RNA mplca prncpalmente em dos fatores: os números de neurônos e de camadas esconddas. Esses problemas são soluconados com a rede NFN-MK, porque os números de neurônos estão relaconados com os números das funções de pertnênca, que são sete. Já o sstema NFN-MK não usa camadas esconddas; O sstema NFN-MK solucona também os problemas de mínmos locas, encontrados nas redes neural multcamadas (MLP), porque a função objetvo a ser mnmzada no processo de trenamento é quadrátca e convexa [6, 9, 48, 96, 97]..4 Organzação da Dssertação Incalmente são apresentados alguns concetos báscos da lógca fuzzy, redes neuras artfcas e sstemas híbrdos, os quas são pré-requstos necessáros para o entendmento do sstema NFN-MK proposto neste trabalho. Assm, a dssertação está estruturada em 8 capítulos, conforme descrto a segur. No capítulo 2 são apresentados os fundamentos e concetos necessáros para mplementar um sstema ntelgente baseado em lógca fuzzy. No capítulo 3 apresentam-se, em detalhes, os fundamentos teórcos das redes neuras artfcas, descrevendo sua célula básca, sua arqutetura e os algortmos de aprendzagem. A smbose das técncas fuzzy e neural serão descrtas no capítulo 4, onde alguns sstemas neurofuzzy já desenvolvdos e conhecdos na lteratura, são apresentados e classfcados segundo a taxonoma proposta. Já o capítulo 5 descreve a Intelgênca Artfcal aplcada a técncas de controle, especfcamente em dentfcação e modelagem de sstemas. O capítulo 6 apresenta o modelo NFN-MK que tem como proposta de estudo ajustar as funções de pertnênca de uma rede neurofuzzy. A

25 7 obtenção dessas funções é feta através de algortmo de agrupamento, no caso, o mapa autoorganzável de Kohonen. No capítulo 7, são apresentados quatro estudos de casos realzados com os sstemas NFN-MK. Os resultados assocados a problemas de aproxmações de funções, são promssores, mas não podem ser nterpretados como conclusvos, porque os problemas das aplcações foram escolhdos arbtraramente. O propósto básco é ndcar o potencal dos sstemas híbrdos ntelgentes e as varadas possbldades de aplcações. O capítulo 8 dscute as conclusões deste trabalho e apresenta propostas de possíves trabalhos futuros. Além dos capítulos acma ctados, essa dssertação possu dos apêndces. No apêndce I é apresentada uma descrção detalhada do algortmo backpropagaton [5, 2, 25, 3, 50, 9, 03], usado em RNA s. Já no apêndce II é detalhado o algortmo Vetor de Quantzação Lnear (LVQ), usado nas redes de FSOM de Kohonen [5, 2, 25, 9]. Ao letor, os termos funções ou curvas de pertnênca encontradas durante o texto tem o mesmo sgnfcado.

26 CAPÍTULO 2 LÓGICA FUZZY Este capítulo apresenta a fundamentação de concetos necessáros para a mplementação de sstemas ntelgentes baseado em Lógca Fuzzy (LF). 2. Introdução A lógca fuzzy (também conhecda como nebulosa ou dfusa) representa um esquema de traduzr nformações vagas, mprecsas em valores numércos [8]. Possblta a nclusão da experênca humana em controle computadorzado, tornando possível decsões em problemas complexos. Ela pode ser agregada a sstemas de redes neuras (os sstemas neurofuzzy) aumentando o aprendzado e nterface com os dados numércos. O sucesso mundal de sstemas de modelagem e controle em lógca fuzzy aplcados na ndústra o recomenda como uma ferramenta efcente na engenhara de controle ndustral, manufatura, comuncações homem-máquna e sstemas de tomada de decsão [2]. Nas teoras de controle clássca e moderna, o prmero passo para mplementar o controle de um processo é dervar o modelo matemátco (transformada de Laplace ou Z) que descreve o mesmo [82]. O procedmento requer que se conheça detalhadamente o processo a ser controlado, o que nem sempre é factível se ele for muto complcado (ver fgura 2.).

27 9 Obter o modelo matemátco da planta Entrada + _- Controlador Processo Desconhecdo Saída Realmentação Fgura 2. Dagrama de blocos do sstema de controle A teora tradconal de controle, baseada em Dagramas de Bode, Lugar das Raízes, Equações de Estados, tem sdo aplcada com sucesso em sstemas muto bem conhecdos e defndos. Entretanto, todas estas técncas não são capazes de resolver problemas reas cuja modelagem matemátca é mpratcável. Por exemplo, suponha-se um processo lnear, onde as varações nas entradas produzem varações proporconas nas saídas. Ao se assumr a propredade de lneardade, pode-se utlzar técncas extremamente poderosas e conhecdas na área de engenhara e tecnologa, com soluções analítcas, e mutas vezes necesstam ser lnearzadas em torno de um ponto de operação. Outra restrção muto utlzada em análses de sstemas lneares é que os parâmetros de processo não se alteram, ou seja, que o sstema seja nvarante no tempo, apesar de na realdade ocorrer deteroração dos componentes dos sstemas com o passar do tempo, além de mpactos ambentas, tas como nfluêncas de temperatura e pressão. Devdo a tas smplfcações, o projetsta em geral encontra séras dfculdades no desenvolvmento de uma descrção matemátca sgnfcatva e realsta de um processo ndustral. As causas de tas dfculdades podem ser classfcadas como: fenômenos físcos ou químcos mal compreenddos, valores mprecsos de parâmetros, a dmensão e a complexdade do modelo, dstúrbos externos e defcênca de qualfcação técnca [2, 82].

28 0 Novas tecnologas são nventadas devdo às necessdades específcas. O níco da lógca fuzzy fo pela necessdade de um método capaz de expressar de uma manera sstemátca quantdades mprecsas, vagas e mal-defndas [82]. Por exemplo, em vez de se utlzar um modelo matemátco, os controladores ndustras baseados em lógca fuzzy podem ser nvestgados com o conhecmento expermental de operadores humanos já trenados, fazendo com que a ação de controle seja tão boa quanto a deles (em geral melhor) e sempre consstente. Nos últmos anos, a utlzação no cotdano de computadores pessoas e equpamentos controlados por mcroprocessadores trouxeram a necessdade de sofstcados sstemas de nteração Homem - Máquna. O matemátco M.Mnsky acredta que robôs vão substtur o homem em todas as tarefas, desde as mas smples e repettvas tarefas, como montar carros, até as mas sofstcadas, como drgr um carro. Quando se escreve um programa para fazer alguma tarefa, deseja-se que o mesmo faça sso de forma semelhante ao ser humano. Para realzar uma tarefa, o cérebro humano tenta váras possbldades, város camnhos de ação e, se um não der certo, ele tenta outro camnho dferente. Pode-se dzer que a ntelgênca é a capacdade de fazer váras cosas ao mesmo tempo [88, 98, 92]. Assm, se consegue drgr um carro por uma estrada, trocando marchas e fazendo curvas ao mesmo tempo em que se resolve um problema mentalmente ou conversa com outra pessoa sobre algo, que está muto dstante dal. Uma crança de 8 meses ao colocar um láps em uma gaveta, ela rá tentar de váras formas, aprendendo com os erros, até consegur. Os computadores apresentam uma dfculdade para consegur fazer sso. Uma crança sabe que pode puxar um objeto com uma corda, mas sabe também que não pode empurrar um objeto com uma corda porque ela é flexível. Isso é senso comum. Para fazer o computador agr dessa forma, nsere-se, va programação, nformações e conhecmento. Sem elas, ele não pode fazer mutas tarefas, pos é ncapaz de entender o que está acontecendo. O problema nessa nteração é que os computadores não podem entender os concetos vagos e os termos mprecsos da lnguagem e do pensamento humano. Normalmente as nformações são coletadas através de afrmações que podem ser consderadas verdaderas ou falsas e representadas em computador por meo dos valores numércos 0 e da lógca bnára, chamada Lógca de Boole [8]. Por outro lado, os termos vagos, mprecsos ou qualtatvos - tas como moderadamente rápdo, médo, um tanto devagar, não podem ser expressos com lógca bnára [8]. Como os fenômenos prátcos do da-a-da nunca são

29 consderados completamente falsos ou completamente verdaderos, utlza-se a lógca fuzzy, a qual possblta que tas nformações, de natureza mprecsa, sejam mplementadas em computadores [82]. Este oferece um método, baseado em teora de conjuntos matemátcos, para o manuseo de descrções qualtatvas, nexatas, mprecsas e ncertas de uma manera rgorosa e sstemátca [77]. A Lógca Fuzzy fo proposta por L. A. Zadeh em um artgo nttulado Fuzzy Sets publcado em 965 [8]. Embora os prncípos da lógca fuzzy já estejam dsponíves a algum tempo no meo centífco, somente nos últmos anos têm sdo aplcados em processos ndustras [27]. Atualmente dversos produtos de uso dáro já dspõem de controladores fuzzy [30, 46]. 2.2 Resumo Hstórco No níco da década de 70, pesqusadores da Intelgênca Artfcal concentraram seus esforços em tornar as Lógcas em geral aplcáves à resolução de problemas. Pesqusadores como Nls Nllson chegaram abordar a Intelgênca Artfcal como sendo uma questão de Lógca Aplcada [69]. Incalmente, a lógca clássca ou bnára teve suas raízes em Arstóteles há aproxmadamente 2500 anos atrás. Tratando-se de um flósofo, Arstóteles dscuta a lógca com base em uma nterpretação, cuja problemátca é demonstrar a manutenção de uma verdade em um determnado contexto. Este questonamento leva à análse de eventos futuros, cujos valores podem se tornar em verdades ou falsdades, potencalmente em ambos ou em nenhum destes. Os concetos de verdade (V) e falso (F) foram nvestgados durante séculos por flósofos, matemátcos e lngüstas [75]. A lógca bnára ncada por Arstóteles fo mas bem entendda apenas neste século, onde outras lógcas também foram propostas. Mas recentemente, uma lógca chamada de fuzzy fo apresentada por Lotf Zadeh em 965. Ele nasceu em Baku captal do Azerbajão, mas, obteve sua graduação em engenhara elétrca na Unversdade do Teerã no Irã. Atualmente é professor emérto na Unversdade da Calfórna, em Berkeley [44]. Mas, Bart Kosko, professor de engenhara elétrca da Unversdade do Sul da Calfórna, afrma que este tpo de lógca multvalorada fo explorado em 920 por Jan Lukasewcz, um lógco polonês, que também defnu a notação reversa polonesa (KOSKO, 99 apund BARRON; BARRON,

30 2 993). Max Black, um flósofo quântco, nascdo também em Baku, seguu o trabalho de Lukasewcz em 937 e crou a base do quem vem sendo pensado como funções de pertnênca de conjuntos fuzzy [8, 44]. No níco dos anos 60, Zadeh aperfeçoou a pesqusa orgnal. Em seguda, desenvolveu o que se conhece como teora dos conjuntos fuzzy, ntroduzndo o termo fuzzy em nossa lnguagem para ldar com o que Black tnha se referdo como vagudade [8, 44]. Em 965, Zadeh publcou um texto ntrodutóro sobre o assunto, nttulado Fuzzy Sets [2, 4, 43]. A pesqusa da teora fuzzy alcançou avanço na própra teora e no expermento com aplcações no processo de controle e outras áreas. Em 974 o professor Mamdan, do Qeen Mary College, Londres, fo o prmero aplcar a teora fuzzy no sstema de controle de um motor a vapor. Em 980 F. L. Smdth, da Dnamarca, aplcou a teora fuzzy no controle de fornos de tjolos de cmento, fazendo desta a prmera vez que a teora fuzzy fo usada numa stuação de processo de controle real [27, 44]. Idealzada nos Estados Undos, dfundda na Europa, aplcada, aperfeçoada e comercalzada no Japão em sstema de controle, está técnca volta agora aos Estados Undos, possbltando aos produtos japoneses uma melhor forma que os amercanos. Embora a lógca fuzzy seja usada largamente no mundo, ela é mas popular no Japão. Sua acetação fora do Japão tem sdo lenta; algumas pessoas atrbuem sso ao própro nome da técnca, escolhda por Lotf A. Zadeh. Em 988, de 00 aplcações da teora fuzzy em exstênca, cerca de 80 foram cradas no Japão. Os japoneses reconheceram o potencal da lógca dfusa mas rapdamente do que as outras partes do mundo. As prmeras aplcações de vulto da lógca fuzzy no Japão datam de 983, na planta de tratamento de água da Fujtec, e em 987 o sstema Senda de automação de ferrova, a 320 Km ao norte de Tóquo [8, 27, 30]. Quando ele fo naugurado em 987, o Metrô Senda usava um sstema de controle fuzzy da Htach. Um estudo anteror dessa empresa hava mostrado que um sstema de controle fuzzy era superor a um convenconal de váras maneras: aumentava a precsão das paradas na plataforma, tornava a vagem mas confortável (com aceleração e freo mas suaves) e reduza o consumo de energa elétrca [8]. O desempenho do sstema Senda mpressonou tanto que, em 2 meses, mas de 50 empresas japonesas estavam trabalhando para desenvolver tecnologa de lógca fuzzy. Hoje o sstema fuzzy controla o metrô durante as horas de pco. Os seres humanos anda controlam o metrô nas horas de não-pco para manter suas prátcas de operação [44].

31 3 2.3 Noções da Lógca Fuzzy A lógca fuzzy dfere dos sstemas com a lógca clássca em seu mapeamento de verdade e falsa. Nessa lógca o valor verdade de uma proposção pode ser um subconjunto fuzzy (por exemplo: baxo, médo e alto) de qualquer conjunto parcalmente ordenado (ver fgura 2.2). y Baxo Médo Alto 0,0 2.0 Fgura 2.2 Domíno das varáves lngüístcas Varável Ao contráro dos sstemas lógcos bnáros, onde o valor verdade só pode assumr dos valores: verdadero ou falso (ver fgura 2.3). y 0 Varável Fgura 2.3 Domíno da lógca bnára Em geral, seres humanos apresentam uma lnguagem em termos vagos e dependentes de contexto para elaborarem suas déas. Para sso vamos ver outro exemplo. Ao se dzer que uma determnada pessoa é alta, sto é perfetamente entenddo, mesmo que não se defna

32 4 exatamente a partr de que altura, em metros, uma pessoa pode ser consderada alta. Por outro lado, na lógca bnára tradconal, uma pessoa pode apenas ser consderada alta ou não-alta, correlaconando com um determnado comprmento padrão [8]. Sem se estabelecer uma referênca exata, é mpossível determnar se a afrmação João é alto é verdadera ou falsa com a lógca bnára. Por exemplo: se a referênca fosse.8 m, uma pessoa com.8 m sera consderada alta, enquanto outra, de.79 m, sera não-alta. A fgura 2.4 mostra uma curva que dvde as duas classes. Essa curva possu uma mudança brusca, e um valor bnáro 0 ou ndca em qual classfcação se encontrara uma pessoa em termos de sua altura em metros.,0 Alto Não-alto 0,80 2,0 Altura (m) Fgura Classfcação bnára entre ser alto ou não-alto [8] A consderação é sempre válda quando há um lmte ou uma referênca que tenta dvdr o sm ou não, o preto do branco, etc. Na realdade, os seres humanos têm a tendênca de suavzar as mudanças bruscas, de fazer meas-afrmações ou de enxergar graduações em cores que entram em contradção com a lógca bnára [8]. A mudança brusca, em.8 m, de alto para não-alto, em geral é contra o senso comum do pensamento humano. A lógca fuzzy evta tal problema pela adoção do conceto de se pertencer parcalmente a um conjunto, como em afrmações do tpo "não muto alto ou bem alto (ver fgura 2.5).

33 5,0 Baxo Médo Alto 0,80 2,0 Altura (m) Fgura Classfcação fuzzy para varável altura [4] Cada uma dessas afrmações lngüístcas representa uma verdade parcal, um certo grau de verdade, ou um certo grau de pertnênca a um conjunto. Na lógca fuzzy, um elemento pode pertencer de forma parcal a um conjunto, com um certo grau, dgamos 80% ou 25%. Na lógca clássca, o grau de pertnênca é sempre 00% ou 0% ( 0 ou ), enquanto na lógca fuzzy ele pode ser um valor entre 0 e [8, 82] Varáves Lngüístcas Na lógca fuzzy, os valores verdades são expressos lngüstcamente, (ex: verdade, muto verdade, não verdade, falso, muto falso,...), onde cada termo lngüístco é nterpretado como um subconjunto fuzzy do ntervalo untáro [27, 28]. Nos sstemas lógcos bnáros, os predcados são: par, maor que, etc; passo que na lógca fuzzy as varáves lngüístcas são: alto, baxo, etc. Nos sstemas com lógca clássca, o modfcador mas utlzado é a negação enquanto que na lógca fuzzy uma varedade de modfcadores de predcados é possível (ex.: muto, mas ou menos,...). Estes modfcadores são essencas na geração de termos lngüístcos (ex.: muto alto, mas ou menos perto, etc.). Nos sstemas clásscos exstem os quantfcadores exstencas ( ) e unversas ( ). A lógca fuzzy admte uma varedade de quantfcadores (ex.; pouco, város, usualmente, freqüentemente, em torno de cnco, etc.) [27, 28]. Esses problemas podem ser faclmente resolvdos pelo cérebro humano. Assm, verfca-se que os problemas da vda real são mprecsos. Raramente se pode resolvê-los com um sm ou não.

34 6 A questão está na rgdez da lógca convenconal, que sendo dcotômca, não permte classfcar os fatos como parcalmente verdaderos ou parcalmente falsos [8]. Em resumo, a lógca fuzzy buscou uma generalzação da lógca clássca, flexblzando-a [0, ]. Portanto, a mplementação de um projeto de sstemas de controle fuzzy pode ser reduzda a um ponto em que problemas anterormente ntratáves passam agora a ser factíves a uma solução. A déa do uso da lógca fuzzy neste trabalho é pela sstemátca de traduzr os termos fuzzy da comuncação humana em valores compreensíves por computadores. Já que os computadores são máqunas de aplcações geras que podem nterfacear com processos físcos, químcos, térmcos e bológcos, a forma de comuncação humana pode ser utlzada para dretamente ntercambar as nformações entre operadores e tas processos Teora dos Conjuntos Fuzzy Nesta seção são formalzadas as déas báscas sobre conjuntos e lógca fuzzy vsando à modelagem e o desenvolvmento de sstemas de controle. Na teora de conjuntos clásscos, um elemento ou pertence a um conjunto ou não. Por exemplo: o conjunto das pessoas nascdas em um estado. O conjunto é bem defndo e sem ambgüdade com relação aos seus elementos de fronteras. Todo cdadão tem uma certdão de nascmento onde consta o seu estado de orgem. Logo, dado um unverso U e um elemento partcular x U, a função de pertnênca µ A (x) com respeto a um conjunto A U é dado por: (2.) O fator de pertnênca pode então assumr qualquer valor 0 e, sendo que o valor 0 ndca uma completa exclusão e um valor representa completa pertnênca. Esta generalzação aumenta o poder de expressão da função característca. Por exemplo: o conjunto das pessoas satsfetas com seus saláros em uma grande empresa. Neste exemplo, há uma varável mplícta chamada saláro, que precsa ser quantfcada e qualfcada. Ou seja, necessta-se traçar uma função descrtora ou de pertnênca para defnr os elementos deste conjunto e suas vznhanças. Para este caso, a função de pertnênca µ A (x) é dada por:

35 7 µ A (x):u [0,] (2.2) O conjunto suporte de um conjunto fuzzy A é o subconjunto dos pontos x em U tal que µ A (x) 0. Contudo, necessta-se mapear o conhecmento sobre a varável saláro, também conhecdo como varável lngüístca. Esta varável necessta ser categorzada, sto é, stuar-se em subconjuntos característcos. Os elementos assemelhados são defndos por termos. Estes termos concentram um conjunto de elementos de mesmas característcas. Por exemplo: a varável saláro (S), pode possur os seguntes termos: S = {s 0, s,s 2, s 3 }, cuja semântca expressa uma faxa de valores (ver tabela 2.): Tabela 2. - Termos da varável saláro [75] S Valores Lngüístcos Faxa Salaral em U$ S 0 : muto baxo S : baxo S 2 : médo S 3 : bom A defnção é sobre uma faxa de valores aproxmados, fornecda a partr de um analsta de saláros. No exemplo de Sá (997), mapeou os saláros pagos pela empresa a partr de 00 a 000. O conhecmento sobre a varável fuzzy S, pode ser expressa em curvas de conhecmento trapezodal (fgura 2.6).

36 8 µ S (S ) S o S S 2 S Saláro Fgura Descrção da varável saláro [75] Para expressar concetos é comum o uso de elementos qualtatvos, ao contráro de valores quanttatvos. Uma varável lngüístca tem por característca assumr valores dentro de um conjunto de termos lngüístcos, ou seja, palavras ou frases. Assm, ao contráro de nstâncas numércas, são substtuídas por uma varável lngüístca que assume nstâncas lngüístcas. Por exemplo, a varável lngüístca saláro poderá assumr como valor um dos membros do conjunto {muto baxo, baxo, médo, bom}. Para se atrbur um sgnfcado aos termos lngüístcos, assoca-se cada uma destes a um conjunto fuzzy defndo sobre um unverso de dscurso da fgura 2.6. A forma de expressar o conhecmento é tpcamente com regras do tpo condção - ação. Supondo que uma varável de entrada (condção) saláro (S) esteja assocada a uma varável de saída (ação) chamada motvação pessoal (M), uma regra típca é dada por: SE (S é Baxo) Então (M é pouca) A déa geral aqu é representar o conhecmento por um conjunto de regras nas quas as condções são dadas a partr de um conjunto de termos lngüístcos assocados às varáves de entrada/saída do processo. Analogamente, as funções de transferênca de Laplace fazem algo semelhante em teora de controle lnear [2]. Regras do tpo Se - Então são chamadas de regras fuzzy. Uma regra fuzzy pode ser: SE (x é a ) E (y é b ) e...então (z é c ), onde as varáves de entrada (x, y,...), que aparecem como argumentos condconas dentro do operador SE, são referdas como antecedentes. Já a mplcação lógca, que consste na formulação de uma conexão entre causa e efeto, ou uma condção e sua conseqüênca, neste

37 9 caso, é denotado como operador de mplcação t-norma de Zadeh (ver tabela 2.2). As varáves de saída (z) dentro do operador Então são chamadas conseqüentes. A rgor, as t- norma e t-conorma são grupos algébrcos, os quas apresentam equvalênca com os conectvos and, or e not. Tabela Prncpas t-normas e t-conormas duas [77] t-norma t-conorma Nome mn (a,b) max (a,b) Zadeh ab a + b - ab Probablsta max (a + b -, 0) mn (a + b, ) Lukasewcz Weber Na lógca tradconal as operações com conjunto são as operações booleanas possbltadas pelos conectvos "E (and), OU (or) e Não (not). Na lógca fuzzy, há dversos operadores para se realzar as operações lógcas, os quas são bascamente dvddos em duas classes (ou normas): as normas trangulares (chamadas por t-normas) e as normas duas (chamadas por s-normas ou t-conormas) [77]. Portanto, o projetsta de um sstema fuzzy tem dversos graus de lberdade para escolher mplcações fuzzy em tarefas de controle [7]. A tabela 2.2 ndca as t normas e t conormas mas utlzadas, e as fguras 2.7 e 2.8 lustram algumas destas operações, em relação a dos conjuntos fuzzy A e B. Fgura Ilustração das prncpas t-normas [77]

38 20 Fgura 2.8 Ilustração das prncpas t-conormas [77] As normas s e t defnem as operações entre duas ou mas varáves fuzzy de um sstema Modelagem Fuzzy de Sstemas Ao projetar um sstema é necessáro fazer o modelamento do processo. Para tal tarefa, à área da Intelgênca Artfcal (IA) apresenta algumas técncas, como: regras fuzzy (lngüístcas) e redes neuras artfcas[27]. As equações dferencas descrevem a dnâmca ou a cnétca de sstemas em uma forma convenente. O exemplo usado é de Gomde (994), onde a relação entrada x e a saída f(x) do sstema são obtdas pela equação 2.3 (ver fgura 2.9). f ( x) = ( x 3) 2 (2.3)

39 2 Fgura Função f (x) descrta por equação matemátca [27] Contudo, sstemas reas não se apresentam com a smplcdade da curva da fgura 2.9. Assm, esta descrção não é aproprada para a maora de sstemas complexos tas como, sstemas não-lneares e sstemas varantes no tempo. À medda que a complexdade do sstema aumenta, a possbldade de descrever um sstema com equações matemátcas dmnu [3, 6, 27, 50, 82]. A abordagem com lógca fuzzy consste em descrever a relação entre x e f(x) com regras do tpo: Regra : SE x é a ENTÃO f(x) é b, =,...,N Onde x representa a varável ndependente e f(x) dependente, sendo A e B constantes numércas e N o número de dados expermentas que descreve a função. Quando A e B são lngüístcos com valores numércos exatos (sstemas clásscos), tem-se a fgura 2.0.

40 22 Fgura Função f (x) descrta por regras lngüístcas com valores exatos [27] As regras para a lógca clássca são: Regra : SE x é -2 ENTÃO f(x) é 25 Regra 2: SE x é - ENTÃO f(x) é 6 Regra 3: SE x é 0 ENTÃO f(x) é 9 Regra 4: SE x é ENTÃO f(x) é 4 Regra 5: SE x é 2 ENTÃO f(x) é Regra 6: SE x é 3 ENTÃO f(x) é 0 Regra 7: SE x é 4 ENTÃO f(x) é Regra 8: SE x é 5 ENTÃO f(x) é 4 Regra 9: SE x é 6 ENTÃO f(x) é 9 Regra 0: SE x é 7 ENTÃO f(x) é 6 Regra : SE x é 8 ENTÃO f(x) é 25

41 23 A vantagem desta descrção é a facldade em mudar a descrção do sstema. Por exemplo, ndcada por quadrados na fgura 2.0, pode-se modfcar a regra 7: para 2; regra 8: 4 para 6; regra 9: 9 para 3; regra 0: 6 para 8, pos as regras são ndependentes umas das outras. Isto mostra que descrções na forma de regras são apropradas para sstemas com aprendzagem, sstemas auto-organzáves e sstemas adaptatvos [27]. Por outro lado, exstem desvantagens. Quando é dado x = a conclusão obtda é f(x) = 4. Contudo, se é dado x =.5 nada pode ser nferdo a partr do conjunto de regras menconado, pos não exste nenhuma delas que possu um antecedente com x =.5. Isto mostra que os sstemas clásscos bnáros são pouco efcentes com relação a conhecmento mprecso, ou com varação em dados de entrada, e que é necessáro uma quantdade de regras (base de conhecmento) para se obter um resultado ou desempenho sgnfcatvo [27]. Conseqüentemente, a demanda de tempo para se verfcar em geral é consderável. Alternatvamente, poderíamos utlzar regras do mesmo tpo anteror, mas nterpretadas por regras fuzzy. Neste caso a e b seram termos lngüístcos assocados à varável x, cada um destes termos assocados a um conjunto fuzzy a fm de se estabelecer seu sgnfcado. Assm, poderíamos descrever a relação entre x e f(x) por: Regra : SE x está em torno de -2 ENTÃO f(x) está no em torno de 25 Regra 2: SE x está em torno de - ENTÃO f(x) está no entorno de 6... Regra : SE x está em torno de 8 ENTÃO f(x) está no entorno de 25 Neste caso, a relação precsa entre x e f(x) da fgura 2.9 é fuzzfcada, tornando-a contínua como mostrado pela fgura 2..

42 24 Fgura 2. - Função f (x) descrta por regras lngüístcas fuzzy [27] Esta relação fuzzy fornece valores razoáves para qualquer dado no unverso de nteresse, por exemplo: x =.5; x = 3.2; x =4.3. É mas fácl reelaborar regras fuzzy do que equações matemátcas quando as característcas dos sstemas ou processo são varantes no tempo [82] Estrutura de um Controlador Fuzzy A déa básca em controle fuzzy é modelar as ações a partr de conhecmento especalsta, ao contráro de modelar o processo em s. Esta abordagem é dferente dos métodos convenconas de controle de processos, onde os mesmos são desenvolvdos va modelagem matemátca. Em mutos processos, tas como extensões de borracha ou elastômeros, fabrcação de pneus de automóves, a função de entrada de um msturador do tpo Banbury ou de uma canaleta extrusora não pode ser descrta matematcamente, devdo às complexas reações e à dnâmca não completamente formalzada [82], mesmo por pessoal de operação muto experente. Há, entretanto, um grande corpo de recetas empírcas que são conhecdas, para se produzr resultados acetáves. Tas recetas podem ser tomadas como funções de entrada-

43 25 saída, porque elas relaconam varáves de entrada fundamentas para obter as saídas, mesmo que as undades dmensonas sejam ncompatíves, como por exemplo, pressão de entrada e composção de materal de borracha versus a vda útl de um pneu. Todava, operadores humanos podem controlar tas tpos de processos, sem na verdade conhecerem sua dnâmca e matemátca. Eles podem adaptar estratégas de controle com trenamento, da experênca adqurda em stuações anterores e de aprendzagem por tentatva e erro [82]. Um operador humano é uma estrutura de controle que não necessta de modelos matemátcos [2, 82], mas é auto-sntonzado da observação de comportamento de dados e de relações de causa e efeto. A dmensão e a complexdade de módulos de processos ndustras tende a aumentar sgnfcatvamente, quando se objetva o desenvolvmento de um modelo precso e de alta resolução. O parque ndustral atual utlza 80% de controladores baseados em PID; já controladores multvaráves complexos baseados em controle avançado, têm menor representatvdade [27]. Por outro lado, deve-se enfatzar que os controladores PID são lneares, e não são adequados para aplcações em plantão extremamente não-lneares [82]. A estrutura de um processo controlado por um controlador fuzzy é vsta na fgura 2.2. Este controlador é conhecdo como Controlador de Mandan [27, 77, 86]. Fgura Estrutura básca de um controlador fuzzy [60]

44 26 Os componentes báscos do controlador de Mandan são: a) Interface de Fuzzfcação Os valores das varáves de entrada são escalonados para condconar os valores a unversos de dscurso normalzados e fuzzfcação dos valores, transformando números em nstâncas de varáves lngüístcas. b) Base de Conhecmento Base de Regras: caracterzando a estratéga de controle e suas metas; Base de Dados: armazena as defnções necessáras sobre dscretzações e normalzações dos unversos de dscurso, as partções fuzzy dos espaços de entrada e saída e as defnções das funções de pertnênca. c) Procedmento de Inferênca Processa os dados fuzzy de entrada, junto com as regras, de modo a nferr as ações de controle fuzzy, aplcando o operador de mplcação fuzzy e as regras de nferênca da lógca fuzzy. d) Interface de Defuzzfcação Transforma as ações de controle fuzzy nferdas em ações de controle não-fuzzy [2, 9, 28, 82, 98]. Em seguda, efetua um escalonamento, de modo a compatblzar os valores normalzados vndos do passo anteror com os valores dos unversos de dscurso reas das varáves. Para seleconar o método aproprado de defuzzfcação, pode-se utlzar um enfoque baseado no centróde ou nos valores máxmos que ocorrem da função de pertnênca resultante. As estratégas de defuzzfcação são:

45 27 Méda dos Máxmos (MDM): que representa o valor médo dentre todos os pontos máxmos, quando exste mas de um máxmo. O cálculo deste valor é dado pela equação 2.4: MDM = N k= vk N (2.4) onde: v k é o valor máxmo da abscssa de cada regra dsparada, e N é o número total desses elementos. Em casos onde a função de pertnênca tenha mas de um máxmo essa déa não podera ser utlzada. Método do Centro de Área (CDA): este método, também é conhecdo como: centróde, centro de gravdade ou de massa. O cálculo deste valor é dado pela equação 2.5: CDA N = = N ω = y ω (2.5) onde: N é o número de regras dsparadas, ω é o grau de atvação na ação conseqüente y. O valor ω corresponde à pertnênca da ação, portanto ω [0,]. Este método apresenta pequenos problemas, um deles ocorre quando as funções de pertnêncas não possuem sobreposção. Ou seja, onde o centro geométrco da fgura na realdade não tem sgnfcado físco. Outro fator é que se mas de uma regra tver a mesma saída dfusa há uma sobreposção de áreas que não é devdamente contablzada, além dsso a necessdade de ntegração numérca toma esforço computaconal para cálculo. Crtéro do Máxmo (MAX): escolhe os pontos onde a funções de pertnênca têm seus máxmos (funções sngleton), gnora-se as áreas das funções de pertnênca. O cálculo do valor fuzzfcado é realzado pela equação 2.6. `N n µ µ o = K= µ = `N n (2.6) µ = K= o

46 28 onde: µ posção do centro do máxmo, e µ o ndcam os pontos em que ocorrem os máxmos (alturas) das funções de pertnênca de saída. As vantagens e desvantagens dos métodos de defuzzfcação [2, 82]: Tabela 2.3 Vantagens e desvantagens dos métodos de defuzzfcação Métodos Vantagens Desvantagens - Contínuos em malha fechada - As funções de pertnênca não possuem sobreposção onde o centro geométrco da fgura na realdade não devera ter sgnfcado físco; Centro de Área (CDA) - Se mas de uma regra tver a mesma saída há uma sobreposção de áreas que é devdamente contablzada; Centro do Máxmo (MAX) Méda dos Máxmos (MDM) - Contínuos em malha fechada; - Decsões quanttatvas. - Em controladores fuzzy PI, coloca-se um ntegrador para garantr a contnudade; - Decsões qualtatvas em malhas fechadas; - Reconhece padrões. - A necessdade de ntegração numérca, toma esforço computaconal para cálculo. - Se a função de pertnênca possur mas de um máxmo, qual máxmo utlzar. - Casos onde a função de pertnênca tenha mas de um máxmo essa déa não podera ser usada; - Descontínuos (causam nstabldade e osclações).

47 29 Em geral, algumas dfculdades encontradas no projeto de controladores consstem na especfcação da base de regras e da defnção das funções de pertnênca [27, 4, 44, 60, 82]. A especfcação da base de regras pode ser obtda de dferentes maneras, ressaltandose as seguntes: Baseando-se na experênca e conhecmento de especalstas (qualtatvo); Observação das ações de controle de um especalsta; A partr da descrção lngüístcas das característcas dnâmcas do processo; Implementação de algortmos de aprendzagem. Contudo, algumas dcas prátcas podem ser menconadas [82]: Um número prátco de funções de pertnênca é algo entre 2 e 7. Tanto maor o número de conjuntos, maor a precsão, mas a demanda computaconal também é sgnfcatva. Por exemplo, experêncas mostraram que uma mudança de 5 conjuntos trangulares para 7 aumenta a precsão em torno de uns 5%, sendo que a partr de valores maores não há melhoras sgnfcatvas. Outro fator que afeta a precsão é o grau de superposção entre as funções de pertnênca fuzzy. Um número mínmo de 25% e um máxmo de 75% foram determnados expermentalmente como adequados, sendo 50% um compromsso razoável, pelo menos para os prmeros textos num sstema de malha fechada. As funções de pertnênca da forma trangular, trapezodal, gaussana (Sno) e sgmóde são as mas utlzadas em aplcações (ver tabela 2.4).

48 30 Tabela 2.4 Equações das funções de pertnênca Função Regra de Formação A(x) b =,0 Trangular x 0 a s x a, quando a s x a + s b. A( x) = s 0, caso contráro. e =,0 A(x) x Trapezodal a = 0, quando a x b ( a x). e a b e, quando b x c A( x) = ( d x). e, quando c x d d c 0, caso contráro. b c d A(x) c =,0 Gaussana A( x) = c. e 2 ( x a) b x a

49 A escolha destas funções, assm como a defnção de suas característcas, podem ser fetas das seguntes maneras: 3 Baseando-se no conhecmento especalsta; Emprego de métodos de otmzação (redes neuras e/ou algortmos genétcos); Defnção de uma metodologa. No unverso de dscurso de uma varável o ntervalo numérco tem que abranger todos os possíves valores reas que esta varável pode assumr. Assm, os produtos projetados com a lógca fuzzy possuem controles mas smples, são mas fáces de construr e testar e propcam um controle mas confável do que aqueles que usam sstemas convenconas [8]. Os controladores fuzzy estão sendo combnados com as técncas de Redes Neuras Artfcas (RNA s), com o objetvo de construr sstemas fuzzy com capacdade de aprendzado. Esses Sstemas Híbrdos (SH) estão descrtos no capítulo Conclusão Este capítulo ntroduzu concetos da lógca fuzzy, dscutu a natureza das mprecsões em problemas prátcos, mostrou como operações fuzzy são fetas e como as regras fuzzy podem ncorporar conhecmento heurístco e empírco em um sstema computaconal. A teora fuzzy pode ser agregada aos sstemas de redes neuras, os chamados sstemas neurofuzzy, que aumentam a capacdade de aprendzado através de nterface com dados numércos, detalhado nos capítulos 4 e 5. No lugar de equações matemátcas, a lógca fuzzy usa descrção lngüístcas, auxlando os projetstas a se concentrar nos objetvos funconas, e não na matemátca do sstema. Ela aproxma o modo de racocíno do computador à manera de pensar das pessoas. Tem sdo estmado que, até o ano de 2005, cerca de 60% de todos controladores serão embutdos com sstemas fuzzy operaconas [8].

50 CAPÍTULO 3 REDES NEURAIS ARTIFICIAIS Neste capítulo são apresentados os fundamentos teórcos das redes neuras artfcas, descrevendo sua célula básca, sua arqutetura e os algortmos de aprendzagem. 3. Introdução Este capítulo apresenta a fundamentação de concetos para mplementação de sstemas baseados em Redes Neuras Artfcas (RNA). A tecnologa de redes neuras busca uma smlardade entre o comportamento do neurôno bológco e um modelo de neurôno computaconal. Assm, será possível a realzação de tarefas tas como: a assocação, categorzação e percepção de traços marcantes realzados pelo homem [85]. As RNA's possuem outros nomes, como neurocomputação, processamento paralelo dstrbuído, sstemas neuro-mórfcos, computadores bológcos ou neuro-computadores. O fnal da década de 80 marcou o ressurgmento da área de RNA's, também conhecda como conexonsmo ou sstemas de processamento paralelo e dstrbuído [2]. Esta forma de computação é caracterzada por sstemas que, em algum nível, relembram a estrutura das redes neuras do cérebro humano [85]. As RNA's são mplementadas em hardware e software, que mtam as habldades computaconas do sstema nervoso bológco, usando um grande número de smples de neurônos artfcas nterconectados. Os neurônos artfcas smulam os neurônos bológcos, os quas recebem nformações de sensores ou de outros neurônos artfcas, produzndo operações smples sobre estes dados, e passam o resultado para outros neurônos artfcas [52]. As RN's funconam através de seus neurônos artfcas, que processam seus dados usando: Paralelsmo lógco: para todos os neurônos da mesma camada; Operações seras: quando a nformação de uma camada é transferda para neurônos de outra camada.

51 33 Exstem três característcas prncpas que descrevem uma RN bológca, e a que contrbuem para a sua habldade funconal: Topologa (arqutetura); Dnâmca; Aprendzado. As RN's estão sendo adotadas para uso em uma varedade de aplcações comercas e mltares que atnge desde o reconhecmento de padrões até otmzação e seqüencamento [6]. Realza tarefas bem melhor que outras tecnologas mas convenconas (nclundo sstema especalstas). O campo de estudo mantém dependêncas nterdscplnares com as cêncas cogntvas, a cbernétca, a pscologa, a neuro-bologa, a matemátca e a físca. 3.2 As Redes Neuras O funconamento da grande maora dos computadores dgtas em uso atualmente é baseado no prncípo de centralzar todas as operações em um processador poderoso e complexo. Essa é a déa básca da arqutetura Von Neumann, assm chamada, pos fo proposta por John Von Neumann, um dos poneros da computação, em 947. O poder de tal processador pode ser meddo em termos de sua velocdade e complexdade [52, 85] As redes neuras artfcas, dferentemente de computadores dgtas convenconas, executam suas tarefas usando smultaneamente um grande número de processadores, ou seja, esses processadores operam em paralelo. A representação do conhecmento é dstrbuída pelas conexões e o aprendzado é feto alterando-se os valores assocados com as conexões. Todava, os métodos de aprendzagem anda precsam ser programados e para cada problema específco um método de aprendzado aproprado deve ser escolhdo Hstórco das Redes Neuras Artfcas A hstóra das redes neuras artfcas é relatvamente recente. Conta com um pouco mas de meo século se consderarmos como poneros os trabalhos dos neuro-fsologstas Donald Hebb e Karl Lashley, por volta de 940, quando as prmeras smulações foram fetas com papel e láps [2].

52 34 O prmero modelo artfcal de um neurôno bológco fo fruto do trabalho ponero do psquatra e neuro-anatomsta Warren McCulloch e Walter Ptts em 943 [85]. O trabalho publcado em 943, "A logcal Calculus of the Ideas Immament n Nervous Actvty", é apresentada uma dscussão sofstcada das redes lógcas de neurônos e novas déas sobre máqunas de estados fntos, elementos de decsão de lmar lneares e representações lógcas de váras formas comportamento e memóra. Nos concetos da cbernétca, fez-se uma analoga entre células nervosas vvas e o processo eletrônco num trabalho publcado sobre os neurônos formas. O trabalho conssta num modelo de resstores varáves e amplfcadores representando conexões snáptcas de um neurôno. Parte da dscussão em RNA s gra em torno dos métodos de aprendzado para que neurônos possam ser capazes de executar uma determnada função. O trabalho menconado anterormente de McCulloch e Ptts se concentra muto mas em descrever um modelo artfcal de um neurôno e de apresentar as suas capacdades computaconas do que apresentar técncas de aprendzado. Os fatos báscos percebdos por McCulloch e Ptts, que tornaram possível a modelagem matemátca do neurôno [5, 6, 2, 85], foram: Neurônos comportam-se como "somadores algébrcos"; Adconam entradas exctatóras; Subtraem entradas nbtóras; Neurônos possuem uma propredade de "lmar", sto é, quando as entradas ntegradas excedem o lmar, dsparam um snal através do axôno; Neurônos comportam-se analogcamente enquanto o axôno comportam-se de forma dgtal. Dessa forma, um tratamento dscreto e bnáro utlzando o cálculo proposconal temporal podera ser empregado para modelar neurônos bológcos. O neurôno fo defndo como tendo dos estados: Verdadero e falso do cálculo da lógca proposconal de ordem zero; O zero e um da álgebra de booleana. O estado do neurôno é analsado a cada nstante de tempo, onde o neurôno está dsparado ou está natvo.

53 35 O prmero mecansmo de aprendzagem fo ncado por Donald Hebb, em 949. Ele propôs uma regra de aprendzagem conhecda hoje como regra de aprendzagem Hebbana. Hebb demonstrou que a capacdade de aprendzagem em RN's pode ser conseguda através da varação dos pesos das conexões entre os neurônos. A regra de Hebb dz que, quando um estímulo de entrada nfluênca na produção de estímulos de saída, o peso da conexão entre os neurônos deve ser ncrementado. A regra Hebbana tem sdo utlzada em város algortmos de aprendzagem de redes neuras artfcas. Mas tarde, Wdrow e Hoff sugerram uma regra de aprendzagem, conhecda com regra de Wdrow-Hoff ou Regra Delta, que é anda hoje bastante utlzada. Esta, por sua vez, é baseada no método do gradente para mnmzação do erro na saída de um neurôno com resposta lnear [6, 2, 85]. Os pesqusadores Wdrow e Hoff desenvolveram o Adalne (Adaptve Lnear Network Element) e o Madalne (Many Adalne) Perceptron como um dspostvo prátco para resolver tarefas de reconhecmento de padrões. O Adalne/Madalne usou saídas analógcas em vez de bnáras como orgnaramente proposto por McCulloch e Ptts. Pela prmera vez, mtava o cérebro humano com processadores paralelos em vez de uma únca CPU [52]. Em 958, Frank Rosenblatt em seu lvro "Prncples of Neurodynomcs", forneceu váras déas a respeto do perceptrons (novo modelo), que são RN's de lmar baseado no modelo de Mc-Culloch e Ptts [52]. O perceptron mas smples descrto por Rosenblatt possu três camadas: A prmera recebe as entrada do exteror e possu conexões fxas; A segunda recebe mpulsos da prmera através de conexões, cuja efcênca de transmssão (pesos) é ajustável; E por sua vez, enva saídas para a tercera camada (resposta). Uma das prncpas déas de Rosenblatt fo à elaboração da arqutetura back-coupled perceptron e o algortmo "back-coupled error correcton algorthm", que é capaz de adaptar os pesos de um conjunto de entradas de uma undade de assocação, de acordo com uma saída desejada. Tanto o algortmo "back-couple error conecton" quanto à regra delta de Wdrow- Hoff são métodos de aprendzagem para redes perceptron de apenas uma camada de neurônos [52]. Em 969, Marvn Mnsky e Seymour Papert fzeram um estudo desses algortmos e publcaram o lvro Perceptrons [2]. Provaram formalmente que uma rede formada de uma únca camada de neurônos, ndependente do algortmo de aprendzagem, é capaz apenas de

54 36 resolver o problema de assocação de padrões quando os conjuntos de pares de padrões são lnearmente separáves. Naquela época era sabdo que redes perceptron com mas de uma camada de neurônos, chamadas Mult Layer Perceptrons (MLP) ou anda redes feedforward, tnham o poder computaconal de aprender padrões lnearmente dependentes, contudo era desconhecdo um algortmo de aprendzagem que pudesse realzar tal assocação. Em partcular, demostraram que um perceptron é ncapaz sequer de dstngur a letra T de um C. Estes resultados e observações fetas por Mnsky e Papert foram devastadoras, e a abordagem conexonsta fcou em segundo plano durante a década de 70 até o níco da década de 80 [6, 2, 85]. Em 982 John Hopfeld, físco e bólogo do Insttuto de Tecnologa da Calfórna, deu um novo mpulso ás RN's. Usando uma pesqusa baseada no sstema neurológco de uma lesma de jardm, que apresentou um sstema computaconal neural composto de mutos elementos de processamento nterconectados, que buscam atngr um estado de energa mínma (em repouso). O modelo do físco representa a operação a partr de um determnado nível de exctação (lmar), mostrando que a memóra do sstema é armazenada na nterconexões entre as undades neuras [52]. A mportânca das redes perceptron na resolução do problema de assocação de padrões para um conjunto de padrões não lnear fo pratcamente elmnada por Rumelhart, Hnton e Wllans [6, 2, 25, 52, 85]. A solução encontrada fo a Regra Delta Generalzada, mas conhecda como algortmo de Correção de Erros Backpropagaton, em 986, para redes perceptron de multcamadas de neurônos com entradas e saídas analógcas. As funções de atvação foram substtuídas por funções contínuas sgmódes. Um resultado smlar já hava sdo encontrado ndependentemente por Parker, em 982, o qual fo chamado de "The Learnng Logc", porém sem repercussão na época [52, 85] Fundamentos Bológcos Sabe-se que o cérebro humano contém em torno de 0 neurônos aproxmadamente [85]. O neurôno possu um corpo e dversas ramfcações, cujas as funções são: Recebe nformações, ou mpulsos nervosos, orundos de outros neurônos, para conduz-los até o corpo celular;

55 37 No corpo celular a nformação é processada e novos mpulsos são gerados. Estes mpulsos são transmtdos a outros neurônos; A transmssão é feta através de um ponto chamado axon hllock (flamento axônco), onde surge um flamento comprdo que é o axôno. Este entra em contato com os dentrtos dos neurônos seguntes. O ponto de contato entre a termnação axônca de um neurôno e o dendrto de outro é chamado de snapse. As snapses lberadas pelos neurônos representam a funconaldade das RN's. As snapses funconam como válvulas, sendo capazes de controlar a transmssão de mpulsos. Isto é, o fluxo da nformação entre neurônos na rede neural (ver fgura 3.). O efeto das snapses é varável, e é esta varação que dá ao neurôno a capacdade de adaptação. Um neurôno é possível estar conectado a outros neurônos e gerar até snapses, ou seja, até conexões com neurônos adjacentes [2]. Fgura 3. Componente do neurôno bológco [2] O axôno pode transmtr mpulso elétrco em ambas as dreções, onde o fluxo de nformação va ao sentdo dos dentrtos para o axôno, onde há um mpulso elétrco no lado do axon hllock. Em condções normas, se uma corrente elétrca é aplcada em ponto do axôno, o seu potencal rá decar exponencalmente á medda que a corrente é propagada através do axôno. Há uma dferença de potencal entre o nteror e o exteror do neurôno, ocasonada pela dferença entre a concentração de potásso (nterna á célula) e sódo (externa á célula). A concentração de íons de potásso dentro da célula cra um potencal elétrco de -70 mv (potencal de repouso) em relação ao exteror. Para a que a célula dspare, produzndo um

56 38 potencal de ação (mpulso nervoso), é precso que os mpulsos das snapses reduzam este nível em cerca de -50 mv (ver fgura 3.2). Fgura 3.2 Potencal de ação em um neurôno [2] Quando as entradas chegam ao corpo da célula, ocorre um processo de ntegração (soma) dos estímulos de entrada, e como resultado pode ser gerado um mpulso elétrco que começa no axon hllock e se propaga até os termnas do axôno. O processo de controle da produção do mpulso elétrco é normalmente aceto como uma função de lmar que produz uma saída, caso a soma das entradas seja maor ou gual a um dado lmar Característcas de uma Rede Neural Exstem três característcas prncpas que descrevem umarn bológca, e a que contrbuem para a sua habldade funconal: a) Topologa do Sstema Neural: Os prncípos mportantes que podem ser encontrados subjacentes à organzação estrutural das áreas dferentes do cérebro: Camadas de elementos de processamento; Colunas de elementos de processamento; Especalzação do tecdo neural em sstemas específcos e não específcos.

57 39 Interfaces sensoras captam nformações do mundo para o cérebro. Os dados são passados através de níves múltplos do sstema nervoso, ou camadas de neurônos. Através desta transferênca de níves do funconamento cerebral ocorre a abstração, concetualzação e detecção de característca. Por exemplo, o sstema nervoso pode detectar característcas específcas, todava este também espalha nformação ambígua. Estas sensações não podem ser entenddas enquanto não forem processadas por mutas camadas nas váras áreas do cérebro. b) Dnâmca do Sstema Neural: Dversos processos dnâmcos que ocorrem no sstema neural bológco são ntegralmente lgados às estruturas destes sstemas: Representação dstrbuída de nformação; Codfcação temporal da nformação; Regra de nbção; Processamento feedforward e feedback. A nformação que é acessada por város sensores bológcos é dstrbuída para neurônos múltplos. Essa nformação é processada por uma parte do cérebro e envada para outra área do cérebro. Esta nova área processa e passa de volta a nformação para a locação orgnal ou através locações ntermedáras. c) Aprendzado no Sstema Neural: A habldade do sstema neural bológco de aprender adaptatvamente em resposta à experênca e ao ambente é um dos mas notáves aspectos deste sstema. Exstem alguns aspectos assocados com tal aprendzado: Aprendzado sobrepõe conexões rígdas; Concetualzação.

58 40 O cérebro é adaptatvo no níco da vda, contudo desenvolve uma fxação ou nflexbldade com a maturação. Apesar de uma relatva nflexbldade, na fase adulta, exste uma habldade contínua do cérebro em adaptar-se e aprender novas cosas. 3.3 Prncípos da Neurocomputação Apesar de uma rede neural ser smulada e executada em um computador seqüencal, a rede está muto mas para o funconamento cerebral do que para um computador. A RNA é algortmo computaconal, onde a camada de entrada recebe um conjunto de dados (prevamente seleconados e conhecdo), cujas sucessvas repetções faz com que um crtéro de convergênca ou parada ocorra. Assm, a rede é trenada e os parâmetros são ajustados e defndos nas camadas ntermedáras e de saída (ver fgura 3.4). Com sto, dz-se que a RNA aprendeu a reconhecer de modo generalzado um conjunto para o qual é prevamente trenada. Fgura 3.3 Modelo neural [85] Se uma rede aprende, ela deve reproduzr algum conhecmento. O seu conhecmento não está localzado em um endereço e, dessa forma, a rede não separa memóra de dados armazenados. O conhecmento armazenado está dstrbuído por toda a rede, da mesma forma que não se pode dssecar um cérebro para extrar conhecmento. O programa mplementado está prevamente condconado para tal atvdade, não fará outra cosa senão a estabelecda, ou seja, a atvdade trenada.

59 4 Ao se escrever um programa para realzar uma ação dante de um fato, tem-se que prever todas as stuações possíves para assocar as ações pertnentes a cada ação. Porém, como todos sabem, exstem certos casos que smplesmente não é possível prever exatamente todos os fatos, a começar pela quantdade de stuações dferentes que possam vr a ocorrer, dependendo do problema. Dessa forma, quando acontece uma dessas stuações nesperadas, o programa de computador tomara uma attude mprevsta, ou não tomara attude nenhuma, pos não sabera o que fazer. A culpa não é do programa, pos não é programado para reagr dante de stuações que anda não lhe foram apresentado, e muto menos do computador [2]. O cérebro não pensa assm, pos, baseado no conhecmento snaptcamente acumulado, tomará alguma ação perante a nova stuação, ponderando pelo julgamento dos elementos que aprendeu. O cérebro humano consome de 20 a 25% da energa corporal e possu um total de 0 blhões de neurônos, sendo que cada um faz entre ml e dez ml conexões com os neurônos adjacentes [85].O aprendzado snáptco é paralelo, que o torna flexível, rápdo e efcaz. Um comparatvo entre o cérebro e o computador, resulta, no quadro a segur, os seguntes valores (ver tabela 3.): Tabela 3. Comparatvo entre o cérebro humano e o computador [85] Parâmetro Cérebro Computador Materal Orgânco Metal e plástco Velocdade Mlsegundo Nanosegundo Tpo de Processamento Paralelo Seqüencal Armazenamento Adaptatvo Estátco Controle de Processos Dstrbuído Centralzado Número de elementos processados 0 a a 0 6 Lgações entre elementos processados <0 Dentro deste contexto, o estudo e a defnção das RNA's teve orgem nos fundamentos do cérebro humano e de suas conexões snáptcas.

60 Estruturas e Dnâmcas das Redes Neuras Artfcas O modelo de neurôno proposto por McCulloch e Ptts (MCP - neurôno artfcal) é uma smplfcação do que se saba a respeto do neurôno bológco naquela época [98]. A sua descrção matemátca resultou em um modelo (ver tabela 3.2), o comparatvo entre um neurôno artfcal e bológco. Tabela 3.2 Comparação entre o neurôno bológco e artfcal Parâmetros Neurôno Bológco Neurôno Artfcal Modelo Entrada Dentrtos x, x 2, x 3,..., x n Sada Axôno y Pesos Comportamento das snapses w, w 2, w 3,..., w n Efeto da uma Neurôno pós-snáptco s= snapse n = x. w O neurôno recebe um conjunto de snas de entrada de outros neurônos. Então, é computada a méda ponderada entre os snas de entrada e os pesos da conexões (cujos valores podem ser postvos ou negatvos, dependendo das snapses correspondentes serem nbtóras ou exctatóras). O resultado dsto é aplcado à função de atvação, também chamada de função de transferênca. O resultado fnal é chamado de atvação do neurôno. Normalmente, exste um valor de s que, quando atngdo, ocasona um dsparo súbto ocasonando pela função de atvação, seja ela contínua ou não. Este é chamado de valor lmar e é representado por L. Consderando a função de atvação do perceptron, o modelo matemátco do processamento é governado pelas equações 3.:

61 43 s= n = x. w e y= se f (s) = se s L s L (3.) onde: n é o número de entradas no neurôno; w é peso assocado à entrada x ; s é o lmar do neurôno. A operação de um neurôno artfcal com suas conexões é nsprada no modelo bológco, como mostrado a segur na fgura 3.4: Fgura 3.4 Modelo do neurôno artfcal [52] Os modos em que neurônos artfcas dferem um do outro, e que pode ser modfcados para nova performance ncluem: mudança da função de transferênca e adção, novos parâmetros ou funções para a rede (tas como vés, ganho e lmares adaptatvos). Já os aspectos que dferem as redes neuras são as conexões dos números de camadas e tpo de trenamento. Entre os modelos já publcados em revstas especalzadas, encontram-se, como clásscos, os modelos: Backpropagaton, Kohonen, Perceptron, Boltzman e outros [52]. O modelo de MCP apresenta algumas lmtações como: Redes MCP com apenas uma camada só conseguem mplementar funções lnearmente separáves; Pesos negatvos são mas adequados para representar dsparos nbdores; O modelo fo proposto com pesos fxos, não ajustáves.

62 44 O vés (bas) é uma entrada adconal que pode ser acrescentada ao neurôno artfcal, não provenente de nenhum outro neurôno, e de valor de entrada fxado em +. Seu peso de conexão w 0 é ajustável pelo aprendzado como qualquer outro peso da conexão. Toma-se como exemplo o perceptron, onde pode-se escrever as equações 3.2 e a fgura 3.5: s= n = x. w + w e 0 y= f (s) = se se s 0 s 0 (3.2) Fgura 3.5 Modelo do neurôno artfcal com entrada de vés [85] Embora o vés nexsta bologcamente, seu uso nos modelos artfcas provê meos de transladar o valor lmar da função transferênca Snas de Entrada e Saída O neurôno possu, a prncípo, um ou mas snas de entrada e um de saída. As entradas de neurôno artfcal podem ser comparadas como estímulos para o neurôno natural. Todos esses estímulos são envados até o neurôno smultaneamente, ou seja, se um neurôno possu cnco entradas, os snas das cnco entradas devem chegar até o núcleo de processamento ao mesmo tempo, sto quer dzer, paralelamente (ver fgura 3.6).

63 45 Fgura 3.6 Neurôno com n entradas e pesos defndos [85] O processamento paralelo em computadores seqüencas pode ser paradoxal. A smulação de um ambente paralelo é possível, e é desta forma que ocorre esse tpo de processamento nas RN. O modelo matemátco smula o paralelsmo da rede neural através de um algortmo e os pesos (w n ) da rede são ajustados por uma rotna de trenamento Pesos Os pesos, representados por w são valores que apresentam o grau de mportânca que determnada entrada possu em relação àquele neurôno. Quando uma entrada é bastante estmulada, acaba estmulando, também, o peso correspondente à sua conexão. Os pesos podem ser vstos, matematcamente, como um vetor de valores (w, w 2, w 3,..., w n ). Havendo mas um neurôno na rede, pode-se então ter uma coleção de vetores, ou seja, uma matrz de pesos, onde cada vetor, corresponde a um neurôno. O snal de exctação no neurôno é a soma das multplcações entre as entradas (x, x 2, x 3,..., x n ) e os pesos. As entradas multplcadas pelos pesos, recebem, depos desta operação, o nome de entradas ponderadas. A função do neurôno é, depos de acumulado o valor somado dos produtos ocorrdos entre as entradas e os pesos comparar esse valor com o lmar. Atngndo-o, o valor é então passado adante através da saída. A esse processo chama-se de função de transferênca. Caso contráro, se o valor não atnge o lmar, o snal não é transferdo adante.

64 Função de Atvação e Transferênca A função de atvação antecede a de transferênca, e tem por atrbução repassar o snal para a saída do neurôno. A função de atvação é uma função de ordem nterna, cuja atrbução é fazer acontecer um nível de atvação dentro do própro neurôno, ou seja, é uma decsão tomada pelo neurôno sobre o que fazer com o valor resultante do somatóro das entradas ponderadas [85]. Veja a segur um neurôno na fgura 3.7. Fgura 3.7 Um neurôno com as funções de atvação e transferênca [85] Em modelos smples de redes neuras, a função de atvação pode ser a própra função de soma das entradas ponderadas do neurôno. Em modelos mas complexos, a função de atvação possu um processamento atrbuído. Após o valor ter sdo processado pela função de atvação, é então passado para função de transferênca, que produzrá o valor da saída do neurôno [85]. A função de transferênca pode ter mutas formas e métodos, podendo ser smples ou complexa. A função de transferênca é conhecda como lmar lógco. Essa função é quem enva para fora do neurôno o valor passado pela função de atvação [52]. As funções de transferênca(y) mas conhecdas são apresentadas na fgura 3.8.

65 47 Fgura 3.8 Funções de transferênca mas empregadas [03] Algumas são especfcadas como: Degrau e rampa: possuem decsões ríspdas, prncpalmente para valores extremos. Essas funções refletem a saída dentro de uma faxa (dgamos entre 0 e ). Isto quer dzer que, ultrapassado um certo lmte, a função dspara o valor 0 ou, ou -, dependendo da função e da forma que será utlzada. Sgmóde: caracterzam-se pelo seu formato em letra S alongada, são contínuas e monotoncamente crescentes, lmtadas por duas assíntotas horzontas. Possuem a vantagem adconal de fornecer uma forma para controle automátco de ganho. À medda que a magntude cresce, o ganho decresce. Deste modo, snas de grande ampltude podem ser acomodados pela rede sem uma saturação abrupta, enquanto snas baxos passam sem excessva atenuação. As funções sgmodas são empregadas com sucesso como funções de transferêncas, porque apresentam a propredade de ser dervável em todos os pontos [25]. Esta característca é mportante para a le de aprendzagem backpropagaton (ver tem ou Apêndce I), que requer cálculo do gradente do vetor do erro. Conforme será vsto oportunamente, as trocas nos pesos das conexões são proporconas à dervada de atvação. Para as funções

66 48 sgmodas, o argumento soma das entradas ponderadas de alta magntude sgnfca dervadas de baxa magntude, e assm as trocas nos pesos das conexões durante a aprendzagem serão menores; já um argumento de baxa magntude para a função representa uma dervada de magntude maor e, conseqüentemente, uma maor quantdade de trocas nos pesos Camadas Esconddas Algumas vezes a saída do neurôno é conduzda para outros neurônos, em vez de ser conduzda como resposta fnal, ou seja, os snas da saída vão para uma próxma camada, chamadas também de ntermedáras ou ocultas. Essas camadas ntermedáras se stuam entre a camada de entrada e a camada de saída da rede neural (ver fgura 3.9). Fgura 3.9 Redes exemplfcando camadas esconddas ou ocultas [85] Essas camadas são compostas por neurônos que possuem exatamente a mesma estrutura que os neurônos da camada de saída. Não exste uma regra que defne o número de camadas esconddas Arquteturas das Redes Neuras Artfcas As conexões entre as camadas podem gerar dferentes estruturas. Cada conexão vsa tornar o snal de saída em um snal de entrada, tanto para um outro neurôno, quanto para o mesmo que o gerou. Fazem parte da defnção da arqutetura os seguntes parâmetros: a) Número de Camadas da Rede Alguns exemplos de arquteturas de RNA s quanto ao número de camadas:

67 49 Redes de camada únca: só exste um nó entre qualquer entrada e qualquer saída da rede, ver exemplos na fgura 3.0. (a) (b) Fgura 3.0 Redes de camada únca [2] Redes de múltplas camadas: exste mas de um neurôno entre alguma entrada e alguma saída da rede (ver fgura 3.). (a) (b) Fgura 3. Redes de múltplas camadas [2] (c) específca. O número de neurônos da camada escondda é lvre, não obedece nenhuma regra b) Redes Mult-Layer Perceptron (MLP) As redes de uma só camada resolvem apenas problemas lnearmente separáves [2]. A solução de problemas não lnearmente separáves passa pelo uso das redes com uma ou mas camadas ocultas. Segundo Cybenko, uma rede com uma camada ntermedára pode mplementar qualquer função contínua [45, 98]. A utlzação de duas camadas ntermedáras permte a aproxmação de qualquer função.

68 50 Porém, o problema passa a ser então como trenar estas redes, ou qual a defnção do erro dos neurônos das camadas ntermedáras. Para trenar as redes com mas de uma camada fo proposto um método que se basea em gradente descendente (backpropagaton) [6, 2, 70]. Afm de que este método possa ser utlzado, a função de atvação precsa ser contínua, dferencável e, de preferênca, não decrescente. A função de atvação deve nformar os erros cometdos pela rede para as camadas anterores com a maor precsão possível. A alternatva utlzada para superar os problemas acma ctados fo a utlzação de funções de atvação do tpo sgmodal (logístca e tangente hperbólca). O trenamento é supervsonado, e suas prncpas aplcações são: classfcação de padrões, predção e nterpolação. Com relação ao número de neurônos nas camadas ntermedáras, este é geralmente defndo emprcamente. Este número depende fortemente da dstrbução dos padrões de trenamento e valdação de rede. O número adequado de neurônos na camada oculta depende de város fatores, como: Número de exemplos de trenamento; Quantdade de ruído presente nos exemplos; Complexdade da função a ser aprendda; Dstrbução estatístca dos dados de trenamentos. O número de undades ntermedáras pode também crescer exponencalmente com o número de entradas. A solução neural mas efcente é aquele onde o número de undades cresce apenas polnomalmente com o aumento do número de undades de entradas [52]. c) Conexões dos Neurônos Alguns exemplos de arquteturas de RNA s quanto ao tpo de conexões dos nodos. Feedforward ou acíclca: a saída de um neurôno na -ésma camada da rede não pode ser usada como entrada de neurônos em camadas de índce menor ou gual a. Nesta rede não exste uma medda de establdade de rede, devdo à smplcdade de flur as nformações entre as camadas (ver fguras 3.0 (a) e (b), e 3. (a)).

69 5 Feedback ou cíclca: as saídas de algum neurôno -ésma camada da rede é usada como entrada de neurônos em camadas de índce menor ou gual a (ver fgura 3. (b) e (e), e 3.2).O snal pode ser usado tanto para exctar a camada ntera como também para exctar apenas um neurôno em partcular, ou até mesmo, o própro neurôno, que realzou o dsparo. Fgura 3.2 Redes feedback [85] Enfm, a arqutetura da rede neural é lvre, pode ser modfcada conforme crtéro ou necessdade do projetsta. 3.5 Aprendzado das Redes Neuras Artfcas Um conjunto de procedmentos bem defndos para adaptar os parâmetros de uma RNA para que a mesma possa aprender uma determnada função é chamado de algortmo de aprendzado. Como era de se esperar, não há únco algortmo de aprendzado. O que se tem é um conjunto de ferramentas representadas por dversos algortmos, cada qual com suas vantagens e desvantagens. Estes algortmos bascamente dferem pela manera de como o ajuste dos pesos é feto. A etapa de aprendzado consste em um processo teratvo de ajuste de parâmetros da rede, os pesos das conexões entre as undades de processamento, que guardam, ao fnal do processo, o conhecmento que a rede adquru do ambente em que está operando. Dversos métodos para trenamento de redes foram desenvolvdos, podendo estes serem agrupados em dos paradgmas prncpas: aprendzado supervsonado e nãosupervsonado [2, 85]. Outros dos paradgmas bastante conhecdos são os de aprendzado por reforço (caso partcular de aprendzado supervsonado) e aprendzado por competção (caso partcular de aprendzado não supervsonado).

70 Aprendzado Supervsonado Este método de aprendzado é o mas comum no trenamento das RNA s, tanto de neurônos com pesos, como os sem pesos, sendo chamado de aprendzado supervsonado. Porque a entrada e a saída desejadas para a rede são fornecdas por um supervsor externo (ver fgura 3.3). O objetvo é ajustar os parâmetros da rede, de forma a encontrar uma lgação entre os pares de entrada e saída fornecdos. Fgura 3.3 Aprendzado supervsonado [2] A rede tem sua saída calculada e comparada com a saída, recebendo nformações do supervsor sobre o erro da resposta atual. A cada padrão de entrada submetdo à rede, compara-se a resposta desejada com a resposta calculada, ajustando-se os pesos das conexões para mnmzar o erro exstente. A desvantagens do aprendzado supervsonado é que, na ausênca do professor, a rede não consegurá aprender novas estratégas para stuações não cobertas pelos exemplos do trenamento da rede. Os exemplos mas conhecdos de algortmos para aprendzado supervsonado são a regra delta e a sua generalzação para redes de múltplas camadas, o algortmo backpropagaton.

71 53 a) Regra Delta Procura mnmzar a dferença entre a soma ponderada das entradas pelo pesos (saída calculada pela rede) e a saída desejada, ou seja, o erro da resposta atual da rede. O termo e(t) do erro deve ser escrto pela equação (3.3): e( t) = d( t) y( t) (3.3) onde: d(t) é a saída desejada; y(t) resposta atual no nstante t. A forma genérca para alteração dos pesos pela regra delta é dada pela equação 3.4: w ( t+ ) = w ( t) + η. e( t). x ( t) (3.4) onde: w (t+) é o novo valor do peso; w (t) é o valor velho do pesos; índce da entrada; η constante de aprendzado; e(t) erro; x (t) é a entrada para o neurôno no nstante t. A cada novo padrão apresentado à rede o peso é atualzado. A constante de aprendzado η controla a establdade e velocdade de convergênca. Uma faxa prátca para sua escolha é 0. η. b) Algortmo Backpropagaton O algortmo backpropagaton é utlzado no trenamento de redes MLP, esse algortmo fo mportante no ressurgmento de nteresse em RNA s, por ocasão da publcação do lvro Parallel Dstrbuted Processng, mas conhecdo como PDP, em 986 [52]. O backpropagaton é baseado na regra delta proposta por Wdrow e Hoff, assm sendo chamada

72 54 de regra delta generalzada [85]. Os ajustes dos pesos são realzados utlzando o método do gradente [82]. As redes feedforward com algortmos de aprendzado tpo backpropagaton se tornaram muto populares, devdo à capacdade de resolver a maora dos problemas de reconhecmentos de padrões, além da utlzação em aplcações de sstema de controles [6]. Esse algortmo é supervsonado e utlzam pares (entrada, saída desejada) para, através de um mecansmo de correção de erros, ajustar os pesos da rede. O trenamento ocorre em duas fases, onde cada fase percorre a rede em um sentdo. Estas duas fases são chamadas de forward e backforward (ver fgura 3.4). Fgura 3.4 Fluxo de processamento do algortmo com as fases forward e backward [88] A fase forward é utlzada para defnr a saída da rede para um dado padrão de entrada, já a fase backward utlza a saída desejada e a saída fornecda pela rede para atualzar os pesos de suas conexões. Descrção Qualtatva do Backpropagaton O backpropagaton é um algortmo de aprendzado [98]. Uma rede neural com uma topologa feedforward, usando este algortmo para trenamento, tem uma camada de entrada, pelo menos uma camada escondda, e uma camada de saída. Uma redeopera em dos passos durante o trenamento. Incalmente, um padrão de entrada é apresentado à camada de entrada da rede. Há fluxo de atvdade, devdo as exctações dos neurônos através da rede, desde a camada de entrada até que a saída seja gerada. Então, o segundo passo é calcular o erro entre esse padrão de saída e o padrão esperado; esse erro é passado da camada de saída, para trás, com os pesos das conexões sendo alterados, conforme o erro se propaga para trás [5, 70, 82].

73 55 Um neurôno típco tem dversas entradas (x j ), cada uma das quas é multplcada pelos correspondentes pesos (w ), como mostrado na fgura 3.5 e a equação 3.5. Fgura 3.5 Estrutura de um elemento neurôno [85] s= n = w. x (3.5) Esse snal passa através da função de atvação que é tpcamente não-lnear, como uma função sgmodal. No backpropagaton, o trenamento da rede neural tem por objetvo estmar o erro, ou seja, a dferença entre os valores obtdos e os reas para um determnado estmulo na entrada. A redução deste erro é através da alteração dos pesos atrbuídos ao camnho do fluxo desse estmulo nas dversas camadas da rede. Descrção Analítca do Backpropagaton A segur é descrto o mecansmo nterno do backpropagaton. Para maores esclarecmentos matemátcos veja Apêndce I. A regra Delta Generalzada é um algortmo de aprendzado como segue na equação 3.6: E ωj = η. ω j (3.6) onde: w j representa o peso w da entrada x j ; w j é a varação ncremental de um peso partícula;

74 56 índce da entrada; j índce do neurôno; η é um coefcente de aprendzado; E é uma função de erro em relação ao peso que está sendo modfcado. como: Para conexões entre a camada escondda e a saída, o gradente de descda é expresso ω j desejado obtdo = η. E. y( s) = η.( y y ) y( s) j j j (3.7) O erro de saída que causa a alteração dos pesos é a dferença entre o valor desejado e o obtdo. Como a função y(s) é geralmente sgmodal (logístca ou tangente hperbólca), a sua dervada é dado por: dy( s) (3.8) = y( s).[ y( s)] ds A atualzação do vetor w depende dos valores: y j desejado, das entradas e da saída y j obtda. Este procedmento é lustrado com o dagrama de blocos da fgura 3.6, onde G(s) é a função de atvação. x (entrada) G(s) X ω y j obtdo η. y j obtdo. ( y j obtdo ) - + y j desejado Fgura 3.6 Dagrama de blocos da regra delta generalzada [45]

75 57 A equação 3.9 descreve a relação entre o erro na saída e um peso que esteja no camnho do fluxo de exctação. A varação das conexões entre a camada de entrada e a escondda é dada por: ω j = η. y ( s).[ y ( s)] ω k k n k jk. E saída k. y ( s) k (3.9) Nas superfíces de ordem elevada, o gradente de descda pode ser muto lento se o coefcente de aprendzado η for muto pequeno, e produz osclações se for muto alto [6, 2, 84]. A adção de um termo de momento α pode melhorar bastante a mplementação (ver equação 3.0). E ωj = η. + α.( ωj ) ω j anteror (3.0) A equação 3.7 é modfcada para nclur o termo de momento α, que nfluênca dretamente na nérca do aprendzado Aprendzado Não-Supervsonado Neste tpo de aprendzado não há um supervsor para acompanhar o processo de aprendzagem. No algortmo, somente os padrões de entrada estão dsponíves para a rede (ver fgura 3.7). Fgura 3.7 Aprendzado não-supervsonado [2] No aprendzado supervsonado é necessáro um conjunto de trenamento que contenha os pares de entrada e saída.

76 Aprendzado por Competção Neste aprendzado, é dado um padrão de entrada e se faz com que as undades de saída dsputem entre s para serem atvadas. Assm, há uma competção entre as undades de saída para decdr qual delas será a vencedora e que conseqüentemente, terá sua saída e seus pesos atualzados no trenamento [2]. As undades de entradas são dretamente conectadas às undades de saída, sendo que estas últmas também podem estar lgadas entre s va conexões lateras nbtóras, ou negatvas. A undade de saída com maor atvação ncal, terá maor chance de vencer a dsputa entre outras undades, onde, a undade mas forte, fca anda mas forte e seu efeto nbdor sobre as outras undades de saída torna-se domnante. Com o tempo, todas as outras undades de saída fcarão completamente natvas, exceto a vencedora [2, 25]. Um problema neste algortmo é que uma undade da saída pode se tornar domnante e fcar atva todo o tempo, podendo captar para s todo o espaço de entradas. A solução para tal problema é lmtar os pesos, ou seja, a soma dos pesos sobre as lnhas de entrada de uma undade é lmtada em [2]. Para aumentar o peso de uma conexão, é precso dmnur o peso de alguma outra, conforme descrto na equação 3.: w j = η. x M η. w j j (3.) onde: j =, 2,..., n; w j é o peso da conexão da undade de entrada j com a undade atva; x j é o valor do j-ésmo bt de entrada; M é o número de undades de entrada atvas no vetor de entrada; η é a taxa de aprendzado. O aprendzado por competção é base dos modelos de ART (Adaptatve Resonance Theory) de Grossberg e dos mapas de Kohonen [2].

77 Aprendzado por Reforço A prncpal dferença entre o aprendzado supervsonado clássco e o aprendzado por reforço é a medda de desempenho usada em cada um dos sstemas [80]. No aprendzado supervsonado, a medda de desempenho é baseada no conjunto de respostas desejadas usando um crtéro de erro conhecdo, enquanto que no aprendzado por reforço o desempenho é baseado em qualquer medda que possa ser fornecda ao sstema [2, 80]. No aprendzado por reforço, a únca nformação de realmentação fornecda à rede é se uma determnada saída está correta ou não (ver fgura 3.8). Fgura 3.8 Aprendzado por reforço [2] Exemplfcando esse aprendzado, basta pensar na analoga do aprendzado de um anmal, em que, se ele faz algo correto, ele é recompensado. Se fzer algo ncorreto, é pundo. Estes são os estímulos (recompensa ou punção) que servem como feedback para que a rede neural aprenda. 3.6 Processo de Trenamento O crtéro de parada defne como a rede atnge uma aprendzagem acetável do conjunto de padrões de trenamento, este é avalado a partr das respostas da rede em relação às saídas desejadas.

78 60 Após a aprendzagem ser concluída, um outro conjunto de dados, o conjunto de teste, contendo pares de vetores de entrada e saídas desejadas, deverá ser utlzado para testar a efcênca da rede. Se o resultado do teste for nsatsfatóro, o conjunto de trenamento é nsufcente. Logo, devem-se nclur novos exemplares no conjunto de trenamento e trenar novamente a rede neural. No trenamento de uma rede há uma concepção errônea relatva ao processo teratvo. No caso do supertrenamento, deve-se trenar a rede para reduzr o erro, mas para sso é necessáro aumentar o conjunto de trenamento, a fm de aumentar seu desempenho [70]. Embora parcalmente verdadera esta afrmação, o super ajustamento do conjunto de trenamento pode levar a uma má generalzação [50, 52, 70, 03]. A fgura 3.9 mostra o erro de uma rede neural para o conjunto de trenamento e para o conjunto de teste. Fgura 3.9 Análse do supertrenamento [52] O aumento do tamanho da camada escondda pode melhorar o desempenho da rede para os dados de trenamento, porém podem prejudcar a precsão da rede para os novos dados. Esse é um fenômeno de memorzação, ou seja, a rede procura juntar grupos de dados específcos para cada neurôno da camada escondda, perdendo no entanto a capacdade de generalzação. Deve-se sempre comparar o erro obtdo, com os dados para trenamento, com os novos dados, os quas devem ser da mesma ordem de grandeza [52, 50, 70, 03]. 3.7 Projeto de uma Rede Neural A fgura 3.20 mostra um dagrama de blocos com as etapas necessáras para se trenar e desenvolver uma rede neural.

79 6 Fgura 3.20 Fluxograma do desenvolvmento de uma rede neural [85] A topologa ncal da rede depende da experênca do projetsta. Na prátca é melhor ncar com um número pequeno de nós na camada escondda e gradualmente aumentar o tamanho dessa camada através de tentatvas e erro. 3.8 Conclusão Neste capítulo foram apresentados a base bológca e artfcal dos neurônos, e os métodos de aprendzagem, que correspondem ao ajuste dos pesos das conexões snáptcas. Na ausênca de modelos matemátcos de processo, as redes neuras podem utlzar um hstórco de dados para se construr modelos predtvos, ou seja, um modelo que pode predzer as reações do processo a novas condções. As RNA s consttuem uma área emergente de estudos que tomou vulto de forma explosva, e que tem como base a realzação de tarefa de alto nível mental em nível de máquna, através de uma computação massvamente paralela através de neurônos artfcas.

80 CAPÍTULO 4 SISTEMAS HÍBRIDOS A smbose das técncas fuzzy e neural serão descrtas neste capítulo. Alguns sstemas neurofuzzy já desenvolvdos e conhecdos na lteratura são apresentados e classfcados segundo uma taxonoma aqu proposta. 4. Introdução A abordagem convenconal para a modelagem de sstemas tem como prncpal suporte as ferramentas matemátcas. O uso de ferramentas matemátcas (equações dferencas, equações de dferenças, funções de transferêncas, etc) é aproprado quando o sstema é smples ou bem defndo [82]. Contudo, à medda que o sstema cresce e torna-se complexo, as ferramentas matemátcas tornam-se menos efetvas, e em alguns casos mprópras. Isto ocorre devdo ao fato das expressões matemátcas se tornarem muto complcadas para serem tratadas, ou as relações entre as varáves do sstema tornarem-se obscuras e mprecsas. Para contornar os problemas encontrados pelos métodos convenconas de modelagem, propostas alternatvas surgram nas últmas décadas, tas como a modelagem por Lógca Fuzzy (LF) e Redes Neuras Artfcas (RNA s). Essas duas técncas de modelagem têm sdo empregadas com sucesso em váras áreas, onde a abordagem convenconal tem falhado em fornecer soluções satsfatóras [27, 58]. As RN são apropradas para a cração de modelos a partr de um conhecmento mplícto embutdo em um conjunto de dados, os sstemas fuzzy são adequados para a cração de modelos a partr de um conhecmento explícto, orgnáro de especalstas humanos. Portanto, mutos pesqusadores têm tentado ntegrar essas duas técncas de modelagem para gerar um modelo híbrdo que possa assocar as vantagens de cada abordagem e mnmzar suas defcêncas. Por exemplo, as RNA s demandam tempo de projeto, devdo à necessdade de ajustes dos seus parâmetros (números de camadas esconddas, números de nodos em cada camada, etc). Isto leva à utlzação de técncas híbrdas, que utlzam as vantagens de cada uma, nclusve aprovetando o conhecmento do modelo do sstema para dmnur o tempo do

81 63 projeto [7]. Com sto, surgem os sstemas híbrdos [73]. A tabela 4. apresenta, sob alguns parâmetros e característcas das RNA s e dos SF s. Tabela 4. Comparação entre os sstemas fuzzy e neural [82] Parâmetros Sstemas Fuzzy Redes Neuras Aqusção de conhecmento Especalstas humanas Dados numércos Método de trenamento Interação/ndução Algortmos/ajuste de pesos Tpo de ncertezas Qualtatva/quanttatva Quanttatva Racocíno Busca heurístca Computação paralela Interface lngüístca Explícta Não evdente Tolerâncas a falhas Não evdente Alta Robustez Alta Alta Recentemente, dversas arquteturas híbrdas têm sdo propostas na lteratura [23, 3, 84]. Estas arquteturas dferem bascamente no tpo neurôno utlzado, no tpo de nformação processada pela rede e na natureza das conexões. Algumas arquteturas utlzam neurônos lógcos, processam snas reas e utlzam pesos snáptcos também reas. Outras arquteturas processam snas fuzzy e/ou empregam pesos fuzzy e utlzam neurônos do tpo perceptron com alguma função de atvação não-lnear. Este tpo de arqutetura emprega artmétca fuzzy para realzar operações de soma e multplcação e usa o prncípo da extensão para computar a saída de um neurôno. Dentre os pesqusadores desta nova área, podemos destacar Jang (ponero), Nauck e Vuormaa, que craram respectvamente os modelos ANFIS (Adaptve Network Based Fuzzy Inference Systen) [6, 33, 35, 70, 84, 9], NEFCLASS (Neuro Fuzzy Classfcaton) [6, 72, 84] e FSOM (Fuzzy Self-Organzed Map) [6, 84, 9]. Todos os modelos são sstemas adaptatvos, como as redes neuras, e são nterpretáves através de regras da lógca fuzzy. Os modelos adaptatvos são assm chamados por possuírem um algortmo de aprendzado capaz de ajustar os seus parâmetros e/ou sua estrutura a partr dos dados da entrada real. 4.2 Descrção dos Sstemas Híbrdos O nteresse que tas sstemas têm despertado na comundade centífca deve-se à snerga obtda pela combnação de duas ou mas técncas de modelagem. Esta snerga

82 64 reflete-se na obtenção de um sstema mas poderoso e com menos defcêncas. Um método pode ser aplcado para melhorar o desempenho do outro, como é mostrado a segur: As RNA s podem ser utlzadas para aprender regras fuzzy; As regras fuzzy podem ser utlzadas para ncalzar a estrutura de uma RNA a fm de acelerar o trenamento e melhorar a generalzação; As RNA s podem ser usadas para refnar regras fuzzy e funções de pertnênca. A déa básca de um sstema neurofuzzy é mplementar um Sstema de Inferênca Fuzzy, numa arqutetura paralela dstrbuída de tal forma que os paradgmas de aprendzado comuns às RNA s possam ser aprovetadas nesta arqutetura híbrda. A fgura 4. é uma rede neurofuzzy com duas entradas (x, x 2 ), onde as entradas são normalzadas e escalonadas dentro do ntervalo numérco de 0 a. Este ntervalo é dvddo em três níves: baxo, médo e alto, os níves estão assocados à etapa de fuzzfcação, que ndcam os pesos da rede neural para cada entrada. A camada 3 é defnda por 5 regras, a camada 4 são os conseqüentes fuzzy das regras e a etapa 5 é a defuzzfcação, que defne o valor numérco de saída. x y x 2 Fgura 4. Arqutetura de um sstema neurofuzzy [83]

83 65 Uma outra forma de se ncorporar concetos fuzzy em uma topologa neural é pelo rearranjamento das conexões e funções de atvação, fazendo com que uma operação fuzzy seja executada nternamente em cada neurôno da rede [82] Taxonoma dos Sstemas Híbrdos A taxonoma para os Sstemas Híbrdos (SH) está baseada nas característcas das RNA s e SF [84]. Logo, propôs-se a dvsão da taxonoma em duas categoras: característcas fuzzy do sstema (ver fgura 4.2) e as característcas da aprendzagem (ver fgura 4.3). Fgura 4.2 Taxonoma quanto às característcas fuzzy do sstema [84] Os modelos fuzzy se dstnguem pela a estrutura das regras fuzzy, prncpalmente no tpo do conseqüente e no procedmento de defuzzfcação. A função trangular tem a vantagem de ser computaconalmente smples, ou seja, descrto por três varáves: lmte esquerdo (LE), centro (C) e lmte dreto (LD). Já as funções de pertnênca sngleton são muto freqüentes entre os conseqüentes dos SH [82, 84]. Este

84 66 formato compreende uma função de pertnênca que apresenta o grau de pertnênca gual a, em apenas um ponto do seu domíno, e o grau 0 (zero) nos demas pontos. Sua prncpal vantagem é smplfcar o processo de defuzfcação do sstema fuzzy. As varáves de entrada/saída dos sstemas de nferênca fuzzy são dvddas em város termos lngüístcos que são utlzados pelas regras fuzzy. O partconamento do espaço de entrada ndca a forma como as regras fuzzy estão relaconadas com este espaço. O partconamento do espaço de saída costuma ser mas smples e está assocado aos conseqüentes das regras. Os partconamentos do espaço E/S fuzzy box e fuzzy cluster são muto usados em SH [84]. O prmero aparece no SH chamado Fuzzy Self Organzed Map (FSOM), de Vuormaa. O segundo é gerado por RN s do tpo das redes de Funções de Bases Radas (Radal Bass Functon RBF) [84]. Após a avalação das regras fuzzy, deve-se determnar o valor real da saída do sstema fuzzy. Este processo é chamado de defuzzfcação. Fgura 4.3 Taxonoma quanto às característcas de aprendzado [84]

85 67 No aprendzado off-lne a atualzação dos parâmetros/estrutura só acontece após a apresentação de todo o conjunto de trenamento. Já o aprendzado on-lne atualza os parâmetros para cada par de trenamentos apresentado. A dentfcação da estrutura está relaconada à determnação de um número adequado de regras fuzzy e de um partconamento de entrada/saída satsfatóro, com esboço ncal das funções de pertnênca. O perfl das funções de pertnênca dos antecedentes das regras fuzzy é geralmente ajustado por um algortmo supervsonado de retropropagação do erro. Um exemplo típco é o NEFCLASS de Nauck [72, 84]. Os sstemas com dentfcação dos antecedentes e conseqüentes representam a grande maora dos sstemas neurofuzzy [83]. Neste caso o peso de cada regra é fxo e de valor untáro, o que permte uma fácl nterpretação do sgnfcado das regras. Um exemplo novador desse tpo de SH é o FSOM. Este utlza um algortmo supervsonado chamado LVQ (Lnear Vector Quantzaton) no ajuste dos antecedentes e um algortmo gradente descendente no ajuste dos conseqüentes (ver Apêndce II) Sstemas Neurofuzzy A junção entre as técncas fuzzy e neural é bascamente dada por regras do tpo Se - Então, que relaconam as entradas (antecedentes) com as saídas (conseqüentes) [82]. A fgura 4.4 mostra uma rede neural estruturada por um conjunto de regras (premssas), onde se ndcam três conjuntos fuzzy (pequeno, médo e grande) para as duas varáves de entrada (largura (W) e altura (H)). A função de pertnênca ndcada pela letra f pode ser do tpo trangular, trapezodal, gaussana, etc. Já o neurôno ndcado com a letra π é um nó que mplementa a multplcação dos snas de entrada. Se a multplcação é uma t-norma, então é possível mplementar a operação lógca E no neurôno. Assm, os resultados da operação E das nove possíves combnações (regras) estão dsponíves nos nós de saída. Cada saída representa o grau de verdade da regra da premssa E.

86 68 Fgura 4.4 Estrutura neural para as premssas de uma rede fuzzy neural [82] A partr da fgura 4.4 é ncorporado um método de defuzzfcação (método pelas alturas) na estrutura do sstema baseado em regras, que pode ser vsto na fgura 4.5, onde os pesos w f são os valores de pco dos respectvos conseqüentes e a saída é a soma dos valores verdades de cada regra, que multplcam tas valores de pco (méda ponderada).

87 69 Fgura 4.5 Rede fuzzy neural baseada em regras [82] Um outro exemplo de rede neurofuzzy é do tpo paramétrca mostrada na fgura 4.6, com uma arqutetura de duas entradas (x, x 2 ) e duas saídas (y, y 2 ), onde as entradas aconam as nove regras do sstema e atvam relações lneares entre as entradas x e x 2.

88 70 Fgura 4.6 Topologa de uma rede fuzzy neural em forma paramétrca [82] A mportânca de uma rede neurofuzzy deve-se à combnação do processamento numérco de uma rede neural com a facldade de descrção lngüístca de um sstema fuzzy.

89 Modelos de Sstemas Neurofuzzy Nesta seção serão descrtos de forma sucnta os três mas conhecdos sstemas neurofuzzy: o ANFIS, o FSOM e o NEFCLASS. Com sto, espera-se tornar clara a compreensão de um sstema neurofuzzy. a) Adaptve Network Based Fuzzy Inference System (ANFIS): O ANFIS é uma rede neurofuzzy que fo crada por Jang [32, 33, 34, 35, 70, 83, 84], cuja arqutetura pode ser usada na mplementação de sstemas para prevsão e aproxmação de funções (ver fgura 4.7). Fgura 4.7 Arqutetura neurofuzzy ANFIS [88] A segur apresenta-se a descrção das camadas que compõem a estrutura da rede neurofuzzy ANFIS. Camada : Computa o grau de pertnênca das entradas x, x 2 e x 3, baseada nas funções de pertnênca (A = alto e B = baxo). Os parâmetros que defnem os parâmetros das curvas de pertnênca são consderados como pesos fuzzy. Cada entrada tem apenas dos termos lngüístcos (alto e baxo), porém, nada mpede que este número seja maor.

90 72 Camada 2: Cada nó desta camada corresponde a uma regra e calcula com que grau de pertnênca o conseqüente da regra está sendo atenddo. S = A (x ) * A 2 (x 2 ) * A 3 (x 3 ) S 2 = B (x ) * B 2 (x 2 ) * A 3 (x 3 ) S 3 = B (x ) * B 2 (x 2 ) * B 3 (x 3 ) onde: * representa o operador t-norma. (4.) Camada 3: Esta camada realza uma normalzação nos níves de dsparo das regras. S = S / (S + S 2 + S 3 ) S 2 = S 2 / (S + S 2 + S 3 ) S 3 = S 3 / (S + S 2 + S 3 ) (4.2) Camada 4: As saídas dos neurônos são calculados pelo produto entre os níves de dsparo normalzados e valor do conseqüente da regra. h = S. C h 2 = S 2. C 2 (4.3) h 3 = S 3. C 3 onde: os C s correspondem aos conseqüentes, por exemplo, funções de pertnênca sngletons. Camada 5: A últma camada calcula a saída do sstema, ou seja, a defuzzfcação. Z = h + h 2 + h 3 (4.4) Este sstema utlza o partconamento fuzzy-grd adaptatve [79], seu aprendzado é feto em duas etapas que se repetem até o crtéro de parada: Etapa : Fxam-se os parâmetros dos antecedentes, e os conseqüentes são ajustados pelo método MQO (Mínmos Quadrados Ordnáros) [3, 62];

91 73 Etapa 2: Fxam-se os parâmetros dos conseqüentes e os parâmetros dos antecedentes são ajustados pelo método GD (Gradent Decrescent) [98]. Geralmente, as funções de pertnênca utlzadas são do tpo gaussana. A déa do sstema ANFIS é mplementar um modelo fuzzy numa rede neural [70]. b) Fuzzy Self Organzed Map (FSOM): Fo desenvolvdo por Vuormaa e utlza o partconamento fuzzy-box no espaço de entrada [6, 83, 84]. As funções de pertnênca utlzadas nos antecedentes das regras têm perfl trangular. Os conseqüentes das regras são sngletons ou combnações lneares das entradas. A fgura 4.8 mostra um sstema com 2 entradas e uma saída. Fgura 4.8 Arqutetura de um FSOM com duas entradas e uma saída [88] A segur apresenta-se a descrção das camadas que compõem a estrutura da rede neurofuzzy Fuzzy Self Organzed Map. Camada C: A regra do sstema é baseada no formato. If x ε U, and x 2 ε U,2 then y = S

92 74 onde: x j entrada da rede; U j conjuntos fuzzy. Camada C2: Está relaconado ao nível de dsparo das regras. α = mn {µ u, (x ), µ u,2 (x 2 )} (4.5) Camada C3: Normalza os níves de dsparo das regras. α = α / (α + α 2 ) e α 2 ' = α 2 / (α + α 2 ) (4.6) Camada C4: Produto dos níves de dsparo normalzado pelo conseqüentes. H = α '. S e H 2 = α 2 '. S 2 (4.7) onde: S j correspondem aos conseqüentes das regras. Camada C5: Cálculo da defuzzfcação, onde o método empregado é o da méda ponderada. y = m m α. S ) /( = = ( α ) (4.8) onde: S são os sngletons referentes à saída de cada regra; α são os níves de dsparo das regras; m é o número de regras. O método de trenamento deste sstema neurofuzzy é realzado em três etapas: Etapa : Os valores dos centros (c) das funções de pertnêncas (trangulares) são autoorganzados pelo algortmo FSOM de Kohonen, detalhado no capítulo 6; Etapa 2: Os conjuntos fuzzy são formados em volta destes centros, usando-se uma largura constante ω 0, de forma que a largura esquerda é Le = c+ ω 0, e a largura dreta é Ld = c+ ω 0. Etapa 3: Os conjuntos fuzzy dos antecedentes são ajustados por um algortmo semelhante ao LVQ (ver Apêndce II), também crado por Kohonen.

93 75 A descrção das camadas deste sstema neurofuzzy é semelhante às do sstema ANFIS, exceto pelo fato deste sstema utlzar o partconamento do tpo fuzzy box. c) Neuro Fuzzy Classfcaton (NEFCLASS): Foram desenvolvdos por Nauck e Kruse [6, 70, 72, 84], e sua aplcação básca é em sstemas de classfcação. A fgura 4.9 mostra um sstema com duas entradas, cnco regras e duas classes de saída.. Fgura 4.9 Sstema NEFCLASS [72] A segur apresenta-se a descrção das camadas que compõem a estrutura da rede neurofuzzy NEFCLASS. As regras são da forma: If x εµ and x 2 εµ 2 then pattern (x, x 2,, x n ) belongs to

94 76 Camada de Entrada: Dreconar os valores x pertnênca dos antecedentes das regras; e x 2 para as entradas das funções de Camada de Antecedentes: Gera os graus de pertnênca dos antecedentes das regras. O unverso de dscurso de cada varável de entrada está dvddo em três conjuntos fuzzy (alto, médo e baxo). O partconamento do espaço de entrada mplementado por esta camada é o adaptve fuzzy-grd, detalhes em [84]; Camada de Regras: Esta camada gera o nível de dsparo de cada regra através da operação t- norma; Camada de Saída: As saídas são obtdas pela operação de t-conorma entre os níves de dsparo da camada de regras. Os pesos que nterlgam a camada de regras e a camada de saída ndcam que regras têm um mesmo grau de mportânca entre s. O aprendzado do sstema é realzado em duas etapas separadas: Etapa : Utlza um algortmo para crar a camada de regras. Esta camada pode ser ncalzada a partr de um conhecmento prévo ou ser ncalzada com um conjunto vazo de regras e crescer com aprendzado ncremental de regras. Etapa 2: A segunda etapa utlza um algortmo supervsonado GD (gradente decrescente) para ajustar perfs das funções de pertnêncas dos antecedentes [98]. A arqutetura NEFCLASS é uma rede híbrda que herda todas as característcas de uma rede neural do tpo Perceptron Multcamadas (MLP) [72]. 4.3 Análse dos Sstemas Híbrdos A lógca fuzzy provê uma nterface de alto nível e amgável para se desenvolver programas, auxlando os projetstas a se concentrarem nos objetvos funconas em vez dos detalhes matemátcos. Por sua vez, as redes neuras artfcas são convenentes para o manuseo massvo de dados numércos.

95 77 As tecnologas fuzzy e neural estão dentro da área denomnada computação suave [82], mostrando um enorme potencal para aplcações que combnem conhecmento qualtatvo com robustez. 4.4 Lmtações dos Sstemas Híbrdos Os SH trabalham com um reduzdo número de entradas. Este fato ocorre em função da chamada explosão combnatóra das regras devdo ao partconamento em forma de grade. Suponha-se uma rede neurofuzzy com quatro varáves de entrada e cada uma delas tenha seu unverso de dscurso em três conjuntos fuzzy. Com este sstema de partconamento pode-se chegar a um total de 8 (3 4 ) regras. Suponha-se agora que se tenha 0 entradas. Chega-se a um total de regras, o que é mpratcável. A construção da própra estrutura é lmtada ou nexste. Algumas têm estrutura fxa arbtrára a pror, e não se permte que ela vare. Outros sstemas neurofuzzy têm alguma capacdade de alterar sua estrutura, permtndo que se altere o número de dvsões no unverso de dscurso de algumas de suas varáves de entrada e, conseqüentemente, o número de regras. Esta habldade é reduzda e anda o mantém refém do prmero tpo de lmtação. 4.5 Conclusão Nos últmos anos os potencas de manuseo de ncertezas e de controle de sstemas complexos se tornaram possíves com a lógca fuzzy, e estão sendo combnados com redes neuras artfcas, que por sua vez, possuem característcas de adaptação e aprendzagem. Assm, surgram os sstemas híbrdos artfcas. Logo, efetuou-se um trabalho de pesqusa envolvendo defnções dos sstemas híbrdos (fuzzy e redes neuras), seus algortmos de aprendzagem, suas formas de partconar os espaços de entrada/saída, os formatos das funções de pertnênca e métodos de defuzzfcação. No capítulo 6 é apresentado um sstema neurofuzzy (Neo-Fuzzy-Neuron Modfcado por Kohonen) para ajustar as funções de pertnênca com um algortmo de agrupamento (mapa auto-organzável de Kohonen).

96 CAPÍTULO 5 IDENTIFICAÇÃO DE SISTEMAS O capítulo descreve a Intelgênca Artfcal aplcada a técncas de controle, especfcamente em dentfcação e modelagem de sstemas. 5.Introdução A dentfcação de sstemas é uma área que estuda técncas alternatvas de modelagem matemátca de sstemas. A modelagem matemátca é área do conhecmento que estuda maneras de desenvolver e mplementar modelos matemátcos de sstemas reas. A dentfcação de sstemas é um dos problemas báscos em teora de controle. No caso de sstemas lneares, uma abordagem para dentfcação é construr uma função de transferênca representando o comportamento do processo, em tempo dscreto ou contínuo, usando o Prncípo da Superposção descrto abaxo [3, 6], sendo que o estado ncal é suposto ser zero. As funções de transferênca são funções que modelam o comportamento dnâmco de um par entrada-saída de um sstema, ou seja, descrevem como uma determnada entrada é dnamcamente transferda para a saída do sstema. Prncípo da Superposção: Consdere um sstema que ao ser exctado pela entrada µ ( t ) produz a saída y ( ) e quando exctado por µ ( ) produz y ( ). Se tal sstema satsfzer o t 2 t 2 t prncípo da superposção então, quando exctado por a µ ( t) + b. µ ( ), sua saída será. 2 t a y ( t) + b. y ( ), sendo a e b constantes reas. Por defnção, um sstema é lnear se ele. 2 t satsfaz o prncípo da superposção. A dentfcação de sstemas não-lneares é dfícl, pos, o prncípo da superposção não pode ser usado, e a relação entrada-saída pode depender do estado atual e/ou hstórco do sstema. Além dsso, o sstema pode ter mutos estados para os quas a saída é constante ou zero.

97 79 O processo de modelagem de um determnado sstema dnâmco pode resultar num modelo de estrutura complexa. Em tas casos, métodos de redução de modelos podem ser utlzados para se obter uma representação mas smples do processo. Os sstemas híbrdos ntelgentes representam um dreconamento alternatvo para a solução de problemas em sstemas de controle e dentfcação, prncpalmente aqueles que envolvem não-lneardades. 5.2Sstemas de Controle Um sstema de controle dnâmco envolve sempre o controle de um processo cujas varáves evoluem de acordo com um conjunto de equações dferencas especfcadas pelas les físcas que as governam. Os objetvos do controle, neste caso, são dscplnar a evolução destas varáves de acordo com certos crtéros de engenhara: establzá-las ou mpor trajetóras nomnas ou de referênca [45]. A fgura 5. apresenta uma representação bastante genérca de um sstema de controle dnâmco. A entrada do sstema são os snas que o processo recebe do meo externo. A saída é a sua resposta, a qual é comparada com uma trajetóra de referênca. Na medda em que é dferente desta, produz um erro, utlzado pelo controlador para determnar uma ação de controle, ou seja, elmnar este erro. Entrada + - Sstema ou Processo Saída Real Controlador da Planta Erro + - Fgura 5. Sstema de controle Referênca

98 80 O projeto de um controlador depende dretamente da descrção matemátca do processo, ou seja, a sua modelagem. Não é possível projetar um controlador sem que se tenha alguma nformação sobre a dnâmca do processo. Este requsto aparentemente trval pode não estar satsfeto a pror em uma classe ampla de problemas de nteresse prátco. Para estes casos colocam-se os problemas de dentfcação de sstemas. 5.3 Identfcação de Sstemas A dentfcação pode ser colocada como o problema de determnar um vetor de parâmetros tal que a saída do sstema (y desejado ) e a saída do modelo (y obtdo ) estejam próxmas segundo algum crtéro adotado, por exemplo: y desejado y obtdo < ε. O crtéro pode ser baseado em algum algortmo aproprado, que procura dentfcar a parametrzação que mas adequadamente representa a dnâmca do sstema. Esta medda de adequação é através da mnmzação do erro que é usada para reajustar os parâmetros do modelo de dentfcação (ver fgura 5.2). Entradas Sstema ou Processo Saída Real - Erro Modelo de Identfcação + Saída Obtda Fgura 5.2 Identfcação de um sstema dnâmco O processo de teração é fnalzado quando o erro de estmação é sgnfcatvamente pequeno e o modelo de dentfcação obtdo pode então ser usado como um modelo do sstema real [70].

99 8 O grau de conhecmento sobre o processo a ser dentfcado determna a classe de modelo a ser utlzado [3]. De acordo com nível de nformações sobre o processo dentfcado podem-se classfcar as classes de modelos em: Modelos Caxa-Branca : ndcam que exste um conhecmento total sobre o processo, ou seja, se conhece toda a relação entre as varáves que descrevem o comportamento dnâmco do sstema. Estes modelos não são realístcos porque, mesmo sabendo-se com exatdão as equações que regem a dnâmca do processo, sempre exstrão parâmetros que têm seus valores modfcados com o passar do tempo, como a temperatura, atrto, etc; Modelos Caxas-Cnzas : ndcam que exste algum conhecmento sobre o processo, mas não se conhecem alguns parâmetros ou algumas relações entre as varáves que descrevem o comportamento dnâmco do sstema. Estes modelos são mas realístcos que os modelos caxa-branca; Modelos Caxa-Preta : ndca uma falta total de conhecmento sobre o processo. Pertence a uma famíla de estrutura de modelos com uma flexbldade adequada e hábl em aproxmar uma grande classe de relações entrada/saída. Em outras palavras, o modelo caxa-preta é uma estrutura padrão que pode ser utlzada para aproxmar uma grande varedade de sstemas. De fato, estmar o número/valores de parâmetros é uma tarefa árdua que requer conhecmento sobre a complexdade do problema. Logo, as redes neuras artfcas têm sdo empregadas em dentfcação por serem modelos de caxa-preta. O problema de dentfcação de sstemas dnâmcos pode ser vsto como mapeamento de um espaço de entradas para um espaço de saídas [48]. 5.4 Intelgênca Artfcal em Identfcação de Sstemas As redes neuras artfcas têm sdo exploradas na dentfcação de sstemas dnâmcos não-lneares devdo a serem modelos caxas-pretas não-lneares, com habldade de aproxmar complexos mapeamentos [6, 9]. O tpo mas comum de rede neural usada para controle é o perceptron multcamadas (MLP), com função de atvação sgmodal. Quando comparados a técncas desenvolvdas para o tratamento de problemas de dentfcação lnear, o emprego de

100 82 redes neuras pode ser consderado como uma abordagem muto flexível, nclusve por não requerer nformação préva do modelo. Para a tecnologa de dentfcação clássca, o usuáro deve especfcar a natureza do relaconamento entre as entradas e saídas. Utlzando redes neuras em dentfcação, o usuáro deve somente especfcar a topologa da rede que é sufcente para descrever o mapeamento das entradas-saídas. Se há uma mudança no comportamento do sstema ou em seu ponto de operação, sto exgra a readaptação dos parâmetros do modelo de dentfcação, sob pena de o sstema de dentfcação sofrer uma degradação de desempenho. Para evtar sto, algumas redes neuras baseadas no esquema de dentfcação necesstam de les de ajuste dos parâmetros do modelo para o tempo de operação, mantendo-se fxa a dmensão da rede, a qual deve ser sufcentemente elevada para contemplar todos os possíves requstos de comportamento que podem se estabelecer [50, 58, 03]. Em [45] e [98] é demonstrado que uma rede MLP com uma únca camada ntermedára é sufcente para aproxmar unformemente qualquer função contínua que se encaxe em um hpercubo untáro. O teorema afrma que um perceptron de múltplas camadas com únca camada ntermedára é capaz de realzar uma aproxmação unforme, dado um conjunto de trenamento sufcentemente sgnfcatvo para representar a função. Por outro lado, o teorema não afrma que uma rede MLP com uma únca camada é ótmo no sentdo de tempo de processamento, facldade de mplementação efcênca na representação [45, 98]. Os modelos convenconas de redes neuras artfcas apresentam lmtações, prncpalmente a três fatores: Não há um modo sstemátco para determnar a estrutura de modelagem requerda para um dado sstema; O algortmo teratvo de aprendzagem (ajuste dos pesos), nem sempre leva à convergênca em dreção à solução global, ou a uma solução local de boa qualdade; A característca dstrbutva e não-lnear do processamento dfculta e até pode mpedr a análse efcente dos modelos conexonstas resultantes, durante e após o trenamento da rede. Na tentatva de propor soluções para tas problemas, o trabalho apresenta um modelo híbrdo ntelgente, o Neo-Fuzzy-Neuron Modfcado por Kohonen (NFN-MK), que mescla as

101 83 técncas de redes neuras artfcas e lógca fuzzy. Neste modelo é possível assocar um conjunto de regras fuzzy, que permte a extração de conhecmento na forma lngüístca e também permte o modelo aprender por meo de exemplos, característca das redes neuras. A mplementação da rede de Kohonen tem o propósto de ndcar a localzação ncal das funções de pertnênca mas apropradas para cada aplcação. Logo, o modelo NFN-MK é aplcado no contexto de aproxmação de funções. A vantagem do modelo proposto é o reduzdo esforço computaconal quando comparado às RNA s convenconas, com convergênca superor a estas. Este resultado é evdencado no capítulo Aprendzado e Generalzação O prncpal objetvo do aprendzado em RNA s e sstemas neurofuzzy é a obtenção de modelos com boa capacdade de generalzação tendo como base o conjunto de dados. Em problemas de aproxmação, classfcação e predção, o conjunto de trenamento é composto por pares de entrada e saída (x, y desejado ), sendo caracterzada prevamente a saída desejada (y desejado ) para um determnado vetor de entrada x. O ajuste de pesos deve modfcar a saída y obtda de forma que a dferença entre y obtda e y desejado, ou seja, o erro, dmnua a cada teração. No entanto, a mnmzação pura e smples do erro pode não levar a resultados satsfatóros [25, 70, 98]. No modelamento da rede pode ocorrer um ou dos efetos de resposta, conhecdo como overfttng e underfttng. O overfttng é uma stuação que ocorre quando há sobreparametrzação da rede, ou seja, quando a rede tem mas parâmetros (pesos) do que necessáro para a resolução do problema. Por sua vez, o underfttng ocorre quando a rede tem menos parâmetros do que necessáro. O objetvo do trenamento deve ser então o de encontrar o ajuste deal na frontera entre o overfttng e o underfttng. No entanto, estmar o número de parâmetros é uma tarefa árdua que requer conhecmento sobre a complexdade do problema. Este conhecmento normalmente não está dsponível, prncpalmente tratando-se de problemas multdmensonas, pos mutas vezes é este conhecmento que se deseja obter por meo do processo de modelagem [70, 98]. Qual deve ser o tamanho deal do conjunto de trenamento? Como regra prátca, podese calcular o número de pesos na rede e tornar o seu dobro para obter o número mínmo de exemplos de trenamento. Dobre-se este valor novamente para se obter um tamanho melhor de exemplos de trenamento. Alguns cudados são necessáros na escolha dos pares de

102 84 trenamento, como as varações que a rede deve abstrar, prncpalmente sem esquecer de nclur casos fronterços, muto próxmos aos lmtes de decsão, para que a rede possa aprender a estabelecer estes lmtes. Senão, a rede pode responder com saídas que dexam dúvda a que padrão pertence à entrada apresentada [52]. Após a aprendzagem ser concluída, um outro conjunto de dados, o conjunto de teste, contendo pares de vetores de entrada e saídas desejadas, deverá ser utlzada para testar a efcênca da rede. Caso dexe a desejar, provavelmente o conjunto de trenamento deve ter sdo nsufcente, e então se deve nclur novos exemplos no conjunto de trenamento e retrenar a rede Crtéro de Convergênca A aproxmação de função por RNA mplca em város fatores como: número de neurônos e camadas esconddas, tempo de processamento (alto para mapeamentos complexos), modelo das funções de atvação, ganhos da função de atvação, ncalzação dos pesos e taxa de aprendzagem. A escolha ndevda de alguns destes fatores (prncpalmente a ncalzação dos pesos) pode mplcar que o programa fque preso em um mínmo local (ml), onde o desejado é o mínmo global (mg). A convergênca dos métodos de otmzação não-lneares depende da condção ncal e do comportamento da função objetvo. Por exemplo, a fgura 5.3 apresenta a equação 6., que possuí um mínmo local e seu mínmo global para x [-2, 2]. 4 2 f ( x) = 3. x 5. x 3. x+ 6 (5.)

103 85 Função Escalar 40 f(x) = 3.(x^4) - 5.(x^2) - 3.x + 6 Varável de Saída Mínmo Local Mínmo Global Varável x Fgura 5.3 Função com mínmo local e global O par do mínmo local para a equação 5. é ml = (-.528; ); já do mínmo global é mg = (.628; ). Como as redes neurofuzzy possuem a propredade de aproxmação unversal, fo proposto o sstema Neo Fuzzy Neuron Modfcado por Kohonen (NFN-MK). Do ponto de vsta computaconal o NFN apresenta tempo de processamento nferor às redes MLP e solucona o problema de mínmos locas, porque a função objetva a ser mnmzada no processo de trenamento é quadrátca e convexa. A segur será dscutdo algum caso prátco envolvendo a aproxmação de funções. 5.5 Conclusão Os modelos lneares têm sdo amplamente usados em dentfcação de sstemas. Entretanto, mutos sstemas de controle encontrados na prátca são não-lneares. As aproxmações produzdas por modelos lneares não são convenentes para representar estes sstemas. O emprego do método Neo Fuzzy Neuron Modfcado por Kohonen (NFN-MK) pode ser consderado como uma abordagem flexível, nclusve por não requerer nformação préva do modelo e mpõem poucas restrções na defnção do modelo, quando comparado às redes neuras artfcas e outras técncas de aproxmações.

104 CAPÍTULO 6 O MODELO NFN-MK Este capítulo apresenta a proposta de estudo que é ajustar as funções de pertnênca do tpo trangulares para o modelo Neo Fuzzy Neuron Modfcado por Kohonen (NFN-MK), as quas representam o comportamento dnâmco de um sstema dentfcado. A obtenção das funções é feta com o mapa auto-organzável de Kohonen, que encontra os vértces das curvas trangulares. 6. Introdução A estrutura do modelo Neo Fuzzy Neuron Modfcado por Kohonen (NFN-MK) é aplcada ao contexto de dentfcação de sstemas, que está apresentado na fgura 6.. Este modelo computaconal permte ajustar as funções de pertnênca do tpo trangulares, as quas modelam o sstema dentfcado. O sstema neurofuzzy proposto é uma reestruturação do Neo- Fuzzy-Neuron (NFN), proposto por Yamakawa [96] e a modfcação é pelo uso do mapa autoorganzável de Kohonen. A motvação ao uso do NFN orgnal fo por apresentar tempo de processamento bastante nferor, uma das motvações quando comparados à estrutura das redes neuras multcamadas [9, 47, 48].

105 87 Entradas Processo Não-Lnear Saída Desejada - Erro Rede NFN-MK + Saída Obtda Ajuste dos Pesos Fgura 6. - Dagrama de blocos do trenamento do NFN O bloco do processo da fgura 6. é um sstema real e tpcamente não-lnear. Logo, essa não lneardade aumenta a dfculdade de modelagem através de equações matemátcas clásscas. Uma das soluções para tal problema é utlzar o NFN-MK para obter o sstema desejado, sem a necessdade de técncas de lnearzação que podem comprometer os resultados fnas para determnadas entradas. A capacdade de representar mapeamentos complexos das redes neuras cresce, em geral, com o número de camadas e neurônos. Entretanto, este aumento leva a um maor tempo de processamento, o que é um fator mportante em mplementação em tempo real. Além dsso, o trenamento das redes neuras multcamadas, utlzando o algortmo backpropagaton, consste na mnmzação de uma função não-lnear (sgmóde). A convergênca dos métodos de otmzação não-lnear depende da condção ncal e do comportamento da função objetvo. Para o trenamento das redes neuras estes dos pontos são crítcos, pos a condção ncal é atrbuída aleatoramente e a função objetvo não é estrtamente convexa, apresentando mínmos locas. Neste caso, a convergênca não é assegurada, podendo às vezes apresentar um erro sgnfcatvo mesmo após longo tempo de trenamento [6, 9]. Já o sstema Neo-Fuzzy-Neuron (NFN), resolve o problema de mínmos locas, pos a função-objetvo a ser mnmzada é quadrátca e convexa [6, 48]. Portanto, este algortmo é utlzado em váras aplcações como: prevsão de temperaturas para almentos em congelamento, dentfcação de sstemas, predção de comportamentos caótcos e observação de estados em aconamentos elétrcos [73].

106 88 A rede NFN orgnal tem funções de pertnênca fxas do tpo trangular, e não exste algortmo para ajustá-las. No entanto, o modelo NFN-MK usa a rede de Kohonen para ajustar as funções de pertnênca. O ajuste é com base nos dados de entradas/saídas do sstema real, assm representando uma maor precsão e conhecmento sobre o sstema em estudo. 6.2 Descrção do Modelo NFN-MK O modelo Neo-Fuzzy-Neuron Modfcado por Kohonen é um sstema híbrdo que faz a smbose entre a lógca fuzzy e as redes neuras artfcas. Uma das etapas da lógca fuzzy é a fuzzfcação, que tem o propósto mplementar as funções de pertnênca, cuja tarefa é trabalhosa. As técncas usando RN e/ou AG estão dsponíves para auxlar na geração e/ou ajuste das curvas de pertnênca. Tas sstemas são dotados de capacdade de aprendzagem, a partr dos conjuntos de dados de entrada, com os quas dentfcam a posção e formato das funções de pertnênca [82]. Então, é mplementada a rede de Kohonen, com o propósto de ndcar a localzação ncal das funções de pertnênca mas apropradas para cada aplcação. A construção de sstemas híbrdos leva a assocação de duas ou mas técncas de IA [84]. Neste trabalho são usadas duas formas báscas de assocação: a) Sstema Híbrdo Incorporado: combnam dos paradgmas de IA, os sstemas fuzzy e as redes neuras artfcas, onde não há uma separação vsível entre os dos subsstemas. A fgura 6.2 traz uma representação deste modelo. Sstema Fuzzy (Técnca ) Entrada + = NFN Saída Redes Neuras Artfcas (Técnca 2) Fgura 6.2 Modelo híbrdo ncorporado

107 A rede neurofuzzy NFN tem um sstema de nferênca fuzzy que é mplementado segundo a estrutura de uma rede neural artfcal. 89 b) Sstema Híbrdo Auxlar: Nesta assocação um outro paradgma, a rede de Kohonen é chamada pelo subsstema mplementado (NFN) para realzar alguma tarefa auxlar. A fgura 6.3 lustra este conceto de hbrdzação. Rede Neurofuzzy NFN (Subsstema) Saída Entrada Rede de Kohonen (Técnca 3) Fgura 6.3 Modelo híbrdo auxlar A proposta do trabalho é mplementar a rede neurofuzzy NFN, onde a rede de Kohonen auxlará no ajuste dos centros/formatos das funções de pertnênca do sstema de nferênca do NFN. A fgura 6.4 mostra as etapas de trenamento entre as redes NFN e de Kohonen, aplcada à dentfcação de um sstema real.

108 90 Processo Saída Desejada Não-Lnear Rede NFN-MK - Erro Entrada S 2 Rede Neurofuzzy NFN + Saída Obtda Ajuste dos Pesos S Método de Kohonen Ajuste dos Centros das Funções de Pertnênca Fgura 6.4 Estrutura da rede neurofuzzy NFN-MK. As etapas de trenamento do modelo NFN-MK empregado na dentfcação de um sstema real são: a) Etapa : Chave S fechada e S 2 aberta Nesta etapa as varáves de entrada e seus respectvos domínos são defndas por sete funções de pertnênca trangulares, unformemente dstrbuídas. Com o auxílo da rede de Kohonen é possível gerar novos vértces para cada uma das curvas trangulares, tornando-as não unformemente dstrbuídas com um trenamento não-supervsonado. Os pesos da rede correspondem aos valores dos vértces das funções de pertnênca. Já o número de neurônos na camada de processamento corresponde ao número de subconjuntos fuzzy para cada coordenada.

109 9 b) Etapa 2: Chave S aberta e S 2 fechada Após o posconamento dos sete vértces das curvas trangulares pela rede de Kohonen, são determnados: os graus de pertnênca para as entradas de trenamento (processo de fuzzfcação); construção das regras fuzzy do tpo Se - Então ; processo de defuzzfcação; e atualzação dos pesos para cada padrão de entrada/saída, de modo que o erro possa ser mnmzado. O trenamento desta etapa é supervsonado, análogo ao backpropagaton clássco. O aprendzado da rede só é fnalzado quando se completa o número de épocas desejado, quando o NFN-MK obtdo pode ser usado como replcador do processo real. 6.3 Estrutura do Neo-Fuzzy-Neuron O Neo-Fuzzy-Neuron fo proposto a partr do neurôno fuzzy, ou seja, um neurôno utlzado que representa regras fuzzy, cujas nformações de entrada podem ser fuzzfcadas [6, 7, 8, 9, 48, 73, 96, 97]. A vantagem do uso de redes neuras sobre os sstemas baseados em regras é a capacdade de generalzação [63]. A estrutura do Neo-Fuzzy-Neuron é mostrada na fgura 6.5. Fgura 6.5 Estrutura do sstema Neo-Fuzzy-Neuron [96]

110 92 onde cada f (x ) é ndcado em detalhe na fgura 6.6, representando um neurôno fuzzy. Fgura 6.6 Estrutura do neurôno fuzzy [96] onde: x : entrada da rede; f : unverso de dscurso da entrada x ; µ j (x ): subconjunto fuzzy da entrada x ; w j : peso da conexão da entrada e subconjunto fuzzy j ; y : soma dos termos µ j (x ). w j (=,..., n; j=,..., p), gera uma saída fuzzfcada; n: número das entradas do sstema (rede); p: número de subconjuntos fuzzy de uma determnada entrada; y: soma dos termos y a y n (processo de defuzzfcação). As característcas de cada snapse são representadas por uma função não lnear f (x ), determnada a partr de nferênca fuzzy e defuzzfcação. Os snas snáptcos dexam de ser caracterzadas por uma função sgmodal, como nas redes convenconas, passando a ser obtdos smplesmente por uma soma algébrca. Tal analoga é apresentada na tabela 6..

111 93 Tabela 6. Comparação entre o neurôno artfcal e fuzzy Parâmetros Neurôno Artfcal Neo-Fuzzy-Neuron Modelo Entrada x, x 2, x 3,..., x n x,...,x,...,x n Saída y y Pesos w, w 2, w 3,..., w n w,...,w j,...,w np Efeto de uma Snapse Recodfcação do Snal s= n = x. w Função de Transferênca (geralmente logístca e/ou tangente hperbólca) y = f ( x ) n p j j= = p µ ( x ). w j= y ( x ) = j µ ( x ) n = = j f ( x ) Sendo assm, a função erro do NFN é quadrátca e convexa em relação aos pesos que são ajustados durante o seu trenamento. Logo, o mínmo local é mínmo global, como será demonstrado posterormente [7, 9, 48, 96, 97]. Os valores y são determnados a partr de um conjunto de regras fuzzy do tpo Se- Então. Consderando que o unverso de dscurso da entrada x é dvddo em subconjuntos fuzzy, descrtos por funções de pertnênca do tpo trangular (ver fgura 6.7), as regras são do tpo: R : Se x é A Então y é w R 2 : Se x é A 2 Então y é w 2... R p : Se x é A p Então y é w p

112 94 Para este conjunto de regras, as varáves x e y, são determnístcas e Aj são conjuntos fuzzy, defndos por µ j (x ). Isto exge etapas de fuzzfcação para x e defuzzfcação para determnar os valores de y. Consderando as funções de pertnênca complementares (ver fgura 6.7), os valores das funções de pertnênca são dferentes de zero para, no máxmo, duas funções vznhas. Isto equvale a dzer que, para cada valor da varável de entrada x, no máxmo duas das p regras são atvadas, sendo ndexadas por k e k +. Fgura 6.7 Funções de pertnênca do tpo trangular unformemente espaçadas [9] Utlzando o esquema de nferênca max-mn (ver fgura 6.8), e o método do centro de gravdade para obter a defuzzfcação, pode-se encontrar o valor numérco da saída. Fgura 6.8 Inferênca fuzzy em uma snapse não-lnear do Neo-Fuzzy-Neuron [96]

113 95 Os valores de f (x ) podem ser determnados da segunte forma: f ( x ) = µ f ( x ) = p µ ( x ). w j j= p j= k µ ( x ) ( x ). w j k k j + µ µ ( x ) + µ k+ k+ ( x ). w ( x ) k+ (6.) Como as funções de pertnênca vznhas são complementares, a soma de µ ( x ) ( x ) =, então 6. se smplfca em: k + µ k+ f µ µ (6.2) ( x ) = k ( x ). + + ( ). wk k x wk + Para o caso de um sstema com duas entradas (x, x 2 ), a equação 6.2 pode se reescrta com um relaxamento da notação matemátca em: f µ µ µ µ ( x, x2) = m( x ). wm + m+ ( x). wm+ + n( x2). wn + n+ ( x2). wn+ (6.3) onde m e m + são os índces das curvas de pertnênca, as quas são complementares na fuzzfcação de x. Analogamente, tem-se as curvas n e n + para a entrada x 2. Somente as curvas de pertnênca atvadas são relevantes para o processamento da rede. Assm, só um ou dos pesos correspondentes aos ramos atvados são ajustados durante o trenamento do Neo-Fuzzy-Neuron. Este mecansmo sugere que o Neo-Fuzzy-Neuron deve exbr período de trenamento nferor ao das redes neuras convenconas Ajuste dos Pesos De forma smlar à rede neural, o método de aprendzagem do NFN consste em um ajuste de seus parâmetros [7, 9, 48, 96]. O aprendzado supervsonado é adotado para ajustar os parâmetros w j, conseqüentes das regras fuzzy, chamados de pesos (ver fgura 6.9).

114 96 Entradas Sstema ou Processo Saída Desejada - Erro Rede Neo-Fuzzy-Neuron + Saída Obtda Ajuste dos Pesos Fgura 6.9 Ajuste dos pesos para a rede NFN Os algortmos de trenamento aplcáves ao NFN podem ser por lote e local. A segur, um comentáro sobre as formas de trenamento: Trenamento em Lote: são apresentados ao NFN todos os padrões (de trenamento), onde cada padrão consste no par {x, y}, em que x é o vetor de entradas da rede de um determnado padrão e y a saída desejada. Para cada vetor de entrada x apresentado à rede, esta fornecerá um valor de saída y que será comparada com o valor desejado y. O erro quadrátco desta comparação é usado para ajustar os parâmetros da rede após a apresentação de todos os padrões (ver fgura 6.9). Estes passos são repetdos até que a rede tenha aprenddo; Trenamento de Modo Local: os parâmetros são atualzados a cada apresentação do par {x, y} à rede. Além dsso, o trenamento pode ser on-lne ou off-lne: Trenamento Off-Lne: os parâmetros varam durante a etapa de trenamento e são mantdos fxos na etapa de valdação;

115 97 Trenamento On-Lne: os parâmetros são ajustados para cada padrão apresentado. Convém salentar que o trenamento off-lne pode ser em lote ou de modo local, enquanto que o trenamento on-lne só pode ser feto de modo local. O trenamento das redes de Kohonen e do NFN que formam o modelo proposto, o NFN-MK, são off-lne e a apresentação dos padrões de entrada/saída é em lote Atualzação dos Pesos com Taxa de Aprendzado Ótma O procedmento de atualzação dos pesos descrto a segur é com base no trabalho de [6, 9], que consste em uma atualzação local. Seja X = (x, x 2,..., x,...x n ) o padrão aplcado à entrada do Neo-Fuzzy-Neuron, y a saída calculada e y d seu respectvo valor desejado. O erro quadrátco para o padrão de entrada é defndo como: d 2 ( y y ) =. e ( W ) 2 ε = = ε 2 2 (6.4) Onde: w = (w, w 2,... w j,..., w np ). O algortmo de trenamento consste na atualzação dos pesos, para cada padrão de entrada, de modo que o erro ε possa ser mnmzado. O problema a ser resolvdo pode ser descrto da segunte forma: mn ε( Wj ) Wj R =,..., n; j=,..., p (6.5) Para cada coordenada de entrada x dentre as entradas apresentadas ao NFN, somente as funções µ k (x) e µ (k+) (x ) são dferentes de zero. Assm, pode-se reescrever a equação 6.5 como: mn ε( Wj ) Wj R =,..., n; j = k, k + (6.6)

116 98 A vantagem de resolver a equação 6.6 ao nvés da 6.5 é que a função a ser mnmzada possu 2.n varáves, não dependendo do número de partções fuzzy, ao passo que em 6.6 o número de varáves é np, que é maor ou gual a 2n, sendo n o número de entradas e p o número de neurônos da prmera camada. Como fo dto anterormente, a função a ser mnmzada é quadrátca e convexa [7]. A função ε(w j ) é não-lnear e a equação 6.6 é um problema de programação não-lnear onde a convergênca para a solução ótma depende do ponto ncal, da dreção de busca, e do tamanho do passo. Para o sstema Neo-Fuzzy-Neuron a condção ncal será nula, sem comprometer a convergênca do algortmo. A escolha das dreções caracterza um algortmo de mnmzação. O método padrão é o do gradente, sendo por sso o adotado aqu. Para este método a dreção é determnada da segunte forma: h j = ε ( w j ) (6.7) j j onde: ε( w ) é o vetor gradente de ε ( w ). Portanto, uma componente w k é atualzada da segunte forma: w w j+ k j+ k = w = w j k j k ε ( w j α. j ( w j α.( y j t j k k ) ) y ). µ d t k ( x t ) (6.8) (6.9) O tamanho do passo (α), que no caso de trenamento de redes neuras ou neurofuzzy é chamado de taxa de aprendzado, pode ser determnado emprcamente, ou utlzando algum método de busca undreconal ndreto (Secção Áurea e/ou Fbonacc [62, 98]) ou dreto (aproxmação polnomal [98]). Em [6, 9, 48] é proposto uma alternatva para obtenção da taxa de aprendzado a partr do resultado do teorema. Teorema : Obtenção da Taxa de Aprendzado Dado um padrão de entrada X = (x, x 2,..., x,..., x n ), e y d, o valor desejado para o mapeamento y = f (X), é possível determnar uma expressão fechada para a taxa de aprendzado α.

117 99 Demonstração: Dado w 0 o objetvo é obter α tal que o erro: + = = = = = + d n k k k k d y w x w x e e y y 2 2 ). ( ). ( 0 ).( 2 ).( 2 µ µ ε (6.0) (6.) Para, ) (.. ) ( k k k k k k x e w w x e w w = = µ α µ α (6.2) (6.3) Multplcando os dos lados da equação 6.2 por ) ( k x µ e 6.3 por ) ( k x + µ, obtém-se: )] (.[. ) (. ) (. )] (.[. ) (. ) (. k k k k k k k k k k x e x w x w x e x w x w = = µ α µ µ µ α µ µ (6.4) (6.5) Para =, 2,...,n, somando as 2n equações, tem-se: [ ] [ ] + + = + = + = + + = + + n k k n k k k k n k k k k x x e x w x w x w x w ) ( ) (.. ) (. ) (. ) (. ) (. µ µ α µ µ µ µ Logo, a taxa de aprendzagem que proporcona erro de aproxmação nulo é dada por: = + + = n k k x x 2 2 ) ( ) ( µ µ α (6.6) A equação 6.6 será usada no capítulo 7 como a taxa de aprendzagem em problemas de aproxmação das funções sen(x), chapéu mexcano e radal Análse da Complexdade dos Algortmos NFN Versus RNA Para avalar as duas estruturas, serão consderadas as expressões que permtem calcular as saídas em função das entradas, que são:

118 00 Neo-Fuzzy-Neuron: n y l = µ k.( x ). w kl + µ k x +.( ). w( k+ ) l = (6.7) Rede Neural: 3 2 [ W Γ[ W Γ[ W Χ ] Y =Γ (6.8) onde: Y (m), X (n), W (n, p), W 2 (p,q) e W 3 (q,m) são as dmensões dos vetores e matrzes; Γ[ ] é uma função não lnear, geralmente uma função sgmóde (logístca ou tangente hperbólca). Com base nas expressões 6.7 e 6.8 é possível fazer uma análse da complexdade dos algortmos, relaconando o número de operações báscas envolvdas e o número de cálculos de funções. Esta metodologa de análse comparatva é sgnfcatva, pos ndepende do software e hardware empregados [6, 9]. A tabela 6.2 resume o número de operações envolvdas utlzando as duas estruturas. A rede neural é defnda pelos parâmetros [n,p,q,m], sendo n o número de entradas, p o número de neurônos da prmera camada oculta, q o número de neurônos da segunda camada oculta e m o número de saídas. Tabela 6.2 Comparação entre a RNA e o NFN [6] Estrutura Operações de Multplcação Operações de + e/ou - Cálculos de Funções RNA [n,p,q,m] NFN [n,p,m] n.p + p.q + q.m n.p + p.q + q.m p + q + m (função sgmóde) 2.n.m n.m + n n (função lnear) Como pode ser constatado, o número de operações e cálculo de funções no Neo- Fuzzy-Neuron é bem menor que na rede neural artfcal. As funções de pertnênca calculadas envolvem uma operação de soma e uma de multplcação para cada cálculo. Como as funções são complementares, para os quatro cálculos são necessáras quatro operações de soma e duas

119 de multplcação. Levando em consderação estes resultados conclu-se que o tempo de processamento do NFN é nferor, quando comparado com a RNA Sstema Neo-Fuzzy-Neuron Generalzado A estrutura do NFN mostrada na fgura 6.5 apresenta apenas uma saída. Portanto, permte um mapeamento não-lnear entre um espaço multdmensonal e um espaço undmensonal. Para o caso de sstemas MIMO ( Mult Input Mult Output ), o mapeamento deve ser de um espaço multdmensonal para outro. Assm, pode-se utlzar L sstemas NFN ndependentes para um sstema com L saídas. Dessa forma, a etapa de fuzzfcação deverá ser feta L vezes [48]. Usando a estrutura em forma de rede chamada de Neo-Fuzzy-Neuron Generalzada (NFNG) (fgura 6.0), a etapa de fuzzfcação é feta apenas uma vez, a cada passo de cálculo. Fgura 6.0 a) Dagrama de blocos do NFNG b) Bloco F (x ) [48]

120 02 De manera análoga ao Neo-Fuzzy-Neuron, as saídas y l e y l do NFNG são dados por: = µ µ (6.9) ( j) ( j) ( j) f l ( x ) k ( x ). wk l + ( k x + ) ( ). w ( k+ ) l y ( j) l = I = y ( j) l = I = f ( x l ( j) ) (6.20) Se y é saída calculada e y l d é o seu respectvo valor desejado, onde l =,2,...L (L é o número de saídas), podem-se defnr os L erros quadrátcos como: ( j) d 2 ( ( y y ) ε ( W ) ( j ) l pl j) ε l = l l = 2 (6.2) O trenamento do NFNG consste na mnmzação dos l erros (para cada padrão apresentado) acma. O novo peso é calculado pela equação W + ) ( j ) ( j) ( j) d ( ) = W α.( y y ). ( x ) (6.22) ( j j k l k l l l µ k Devdo ao fato do NFNG possur mas de uma saída, em analoga às RNA s, o NFNG pode ser encarado como uma rede NFN Taxonoma do Sstema NFN Conforme as fguras 4.2 e 4.3 do capítulo 4, um sstema neurofuzzy contempla as característcas fuzzy e o aprendzado de uma rede neural. Nesta seção é apresentada a taxonoma da rede NFN. Com relação às característcas fuzzy o NFN é dvddo em quatro sub-classes, quanto: a) Modelo Fuzzy Implementado: As regras fuzzy formam a parte fundamental da estrutura de conhecmento em um sstema fuzzy de nferênca. O formato de regra fuzzy adotado no NFN é o modelo de Takag- Sugeno [70, 77, 82, 84, 9]. Por smplcdade, somente uma entrada e uma saída serão consderadas: R p : Se x é A p Então y é f(x)

121 A saída de cada regra é uma função das varáves de entrada. Geralmente, a função que mapea a entrada e saída para cada regra é uma combnação lnear da entrada, equação y = p. x + r (6.23) 03 No caso em que p = 0, tem-se y = r (fuzzy sngleton), ou seja, a varável r pode ser o peso (w ) de uma conexão da estrutura neural. b) Formato das Funções de Pertnênca: O NFN mplementa a função de pertnênca do tpo trangular (equação 6.24) para os antecedentes da regra e a função sngleton (equação 6.25) para o conseqüente. ( x C ( x µ( x) = C LE), SL x C LE LD), C x LD LD 0, outros (6.24) µ( x ) = w (6.25) onde: µ é o nível de dsparo da regra; x é a varável de entrada; C é o centro; LE é o lmte esquerdo; LD é o lmte dreto; w é o conseqüente da regra, no caso da rede NFN é chamado de peso. A vantagem do perfl trangular é de ser computaconalmente smples. Já a prncpal vantagem do fuzzy sngleton é smplfcar o processo de defuzzfcação do sstema.

122 04 c) Partconamento do Espaço de E/S: As varáves de entrada/saída do sstema de nferênca fuzzy são dvddos em város termos lngüístcos, por exemplo: baxo, médo e alto, que são usados pelas regras fuzzy. O partconamento do espaço de entrada ndca a forma como as regras fuzzy estão relaconadas com este espaço. O partconamento do espaço de saída costuma ser smples e está assocado aos conseqüentes das regras. A defnção do método de partconamento tem nfluênca sobre o desempenho dos SNF no que dz respeto as suas característcas, tas como: precsão, generalzação, geração das regras e grau de nterpretabldade [84]. A rede NFN usa o partconamento fuzzy grd, que é fxo, ou seja, não permte o ajuste nas funções de pertnênca. Os sstemas que a utlzam ajustam apenas os parâmetros dos conseqüentes. d) Método de Defuzzfcação Após a avalação das regras fuzzy, deve-se determnar o valor real da saída do sstema fuzzy, este processo chama-se de defuzzfcação. O NFN usa a técnca da méda ponderada que é usada quando os conseqüentes das regras são sngletons (ver equação 6.26). f ( x ) p j j= = p µ ( x ). w j= j µ ( x ) j (6.26) onde: f (x ) é a saída do processo de defuzzfcação para a entrada x. p é o número de regras fuzzy; µ é o nível de dsparo da regra ; w j é o valor do sngleton (peso). Este método é naturalmente ndcado, pos combna os conseqüentes das regras com o nível de dsparo de cada uma delas.

123 Com relação às característcas de aprendzagem o NFN é dvddo em três sub-classes, quanto: 05 a) Apresentação dos padrões de Trenamento: A apresentação dos padrões de trenamentos é on-lne, ou seja, a atualzação dos parâmetros acontece após cada par de trenamento ter sdo apresentado. Esta estratéga de aprendzado é ndcada para sstemas com característcas varantes ou quando não se tem prevamente um conjunto de dados de trenamento. b) Método de Identfcação da Estrutura: A dentfcação do NFN está relaconada à determnação de um número adequado de regras fuzzy e de um partconamento de entrada/saída satsfatóro, que represente o comportamento do sstema. Há duas vertentes prncpas para promover a dentfcação da estrutura de um sstema neurofuzzy. Alternatvas para Identfcação Préva: Este tpo de dentfcação precede o ajuste dos parâmetros do sstema [84]. Utlza-se um conhecmento prévo sobre o sstema a ser utlzado. Pode-se destacar três métodos para realzar tal tarefa: Método com Apoo do Especalsta: Neste método, o conhecmento prévo é explícto e provenente de especalsta(s). A cração das regras e o esboço prelmnar das funções de pertnênca envolve um domíno de conhecmento de nteresse específco, o apoo de um ou mas especalstas neste domíno e um engenhero de aplcação capaz de extrar este conhecmento do especalsta e expressá-lo em termos de proposções fuzzy e varáves lngüístcas; Método Auto-Organzado e Aprendzado Compettvo: Aqu o conhecmento prévo é mplícto e provenente de um conjunto de dados de trenamento. Utlzase, ncalmente, um algortmo neural não-supervsonado e auto-organzado (por

124 06 exemplo: Self Organzed Map de Kohonen), que determna os valores ncas dos centros das funções de pertnênca. Em seguda, cram-se algumas regras, a partr dos prmeros padrões apresentados no trenamento. O antecedente das regras é crado tomando-se os conjuntos fuzzy que tverem maor grau de pertnênca para o padrão sob trenamento. Havendo conflto entre as regras, aplca-se um processo baseado em competção entre estas. Por exemplo, aplca-se um padrão na entrada do sstema e verfca-se qual regra exbe maor grau de dsparo. Esta regra será a vencedora para o algortmo de aprendzado; Método da Dstrbução Unforme das Funções de Pertnênca: Neste método as funções de pertnênca são cradas através de uma dstrbução unforme sobre o unverso de dscurso das característcas do espaço de entrada/saída. Após esta etapa o aprendzado compettvo é usado para cração das regras fuzzy. Alternatvas para Identfcação Automátca: Na dentfcação/geração automátca o aprendzado das regras pode ser feto de forma ncremental ou decremental. Aprendzado Incremental: Partr de um determnado número de regras e adconar novas regras segundo uma determnada heurístca. Isto só é possível se a saída desejada é conhecda (aprendzado supervsonado); Aprendzado Decremental: Inca-se com um conjunto superestmado de regras, o que pode gerar um sstema nconsstente. Usa-se então um algortmo de poda para elmnar as regras supérfluas, tornando o sstema consstente. Tal procedmento é computaconalmente dspendoso, mas pode ser feto quando não há nformação dsponível sobre a saída desejada. A proposta do trabalho é usar um algortmo de agrupamento (mapa auto-organzável de Kohonen) para ndcar a localzação ncal das funções de pertnênca mas aproprada para cada aplcação.

125 07 c) Aprendzado dos Parâmetros: O aprendzado dos parâmetros entende-se como o ajuste dos parâmetros do sstema, tas como os pesos fuzzy que defnem os perfs das funções de pertnênca dos antecedentes e conseqüentes das regras fuzzy. No NFN os conseqüentes (pesos) são ajustados por um algortmo supervsonado, o método do gradente. O número de subconjuntos fuzzy (mplca nas regras do sstema) nem sempre é acompanhado de uma melhor precsão. Quando exste dferença de comportamento dnâmco em um sstema, pode ser nteressante utlzar números dferentes de subconjuntos para as entradas do NFN-MK. Assm, as funções de pertnênca do modelo NFN-MK são ajustadas e determnadas pela rede neural de Kohonen (algortmo não-supervsonado). Os conseqüentes do modelo computaconal NFN-MK também são ajustados pelo método do gradente. 6.4 Redes de Kohonen Em 984, Teuvo Kohonen [85] desenvolveu uma famíla de redes, SOM Self Organzng Map, as quas possuem a capacdade de auto-organzação. Essas redes neuras são do tpo feedfoward e o trenamento é não supervsonado [6]. As redes de Kohonen se dstnguem das demas estruturas por terem duas camadas: uma de entrada e outra de processamento [7], conforme a fgura 6..

126 08 Camada de Entrada Camada de Processamento w d w 2 2 d 2 x Cálculo da dstânca Eucldana (d) d vencedor Aprendzado Não- Supervsonado w j w n j d j n d n Ajuste dos Pesos Fgura 6. Topologa da rede de Kohonen Os neurônos da camada de processamento competem entre s para serem os vencedores. O neurôno cujo vetor de pesos gerar a menor dstânca Eucldana com o vetor de pesos de entrada é o vencedor [80], o cálculo da dstânca é dado por: d ( p) j = n j= ( x ( p) w j j ( p)) 2 (6.27) onde: d: é a dstânca do neurôno; : índce do neurôno; j: índce das entradas e dos pesos; n: número de entradas; x j (p): entrada j; w j (p): peso j do neurôno. A rede nca com os pesos snáptcos (w j ) em off, ou seja, contém valores aleatóros e um snal de entrada x (p) é provdo para a rede sem que se especfque a saída desejada.

127 09 Em cada passo do aprendzado, o neurôno que melhor responde (menor dferença), deverá ser ajustado para responder anda mas àquela entrada. O processo de adaptação da rede de Kohonen é dado pela equação 6.28, onde η(p) é um ganho de adaptação de valor escalar, tal que 0< η(p) <, que é decrementado a cada padrão de entrada. w ( p+ ) = j w j ( p) + η( p).( x( p) w w ( p), se j j V ( p)), se V (6.28) Se o ganho de adaptação é escolhdo como lnear, usa-se a expressão 6.29 para calcular seu valor a cada nstante de p, dado que se conhece o número total de terações T no processo de aprendzagem [6]. p η( t) = η(0). T (6.29) Neste trabalho o ganho de adaptação η(p) é determnado com base nos estudos de [9], conforme a equação η ( t) = η( p ) (6.30) A rede de Kohonen é usada neste trabalho para encontrar os centros das funções de pertnênca do tpo trangular, sendo que os pesos da rede correspondem aos valores dos centros das curvas trangulares e o número de neurônos da camada de processamento corresponde ao número de subconjuntos fuzzy para cada entrada da rede NFN. 6.5 Ajustes das Funções de Pertnênca Exstem dos tpos de dstrbução de curvas de pertnênca: Tpo : Funções trangulares unformemente dstrbuídas (fgura 6.2); Tpo 2: Funções trangulares não unformemente dstrbuídas (fgura 6.3).

128 0 Para os dos tpos, as funções de pertnênca são complementares, ou seja, a soma de duas funções de pertnênca sucessvas é gual a l. A vantagem em se trabalhar com funções complementares é uma redução do tempo de processamento, já que o cálculo de graus de pertnênca ca pela metade [5, 6, 8, 9, 3] Curva do Tpo Neste caso, têm-se funções de pertnênca como as representadas na fgura 6.2, que são defndas pelos parâmetros x mn e x max. O centro da função de pertnênca ndexada por r é a r, que corresponde ao ponto onde a função possu o valor máxmo. F F r F Np x p a = x mn a r a Np = x max Fgura 6.2 Funções de pertnênca tpo Da fgura 6.2, tem-se que: = X max X mn (6.3) p Com sto, defne-se uma função de pertnênca r da segunte forma:

129 ( x ar ) +, ar x ( x ar ) +, ar x µ j ( x ) = 0, outros a a r r (6.32) Defnda a equação 6.32, pode-se mplementar as funções de pertnênca unformemente dstrbuídas, conhecendo-se apenas o lmte nferor (x mn ) e o superor (x max ) Curva do Tpo 2 A utlzação de funções de pertnênca do tpo pode não ser nteressante em stuações onde há concentração de padrões em determnadas regões e dspersão em outras. Isso podera exgr utlzação de um número grande de subconjuntos fuzzy [5, 6, 8, 9, 3]. Uma alternatva para este problema é trabalhar com funções não unformemente dstrbuídas (ver fgura 6.3). Fgura 6.3 Funções de pertnênca tpo 2 [5] A fgura 6.4 (a) mostra uma função não-lnear, a qual deseja-se aproxmar. As técncas de fuzzfcação são usadas no unverso de dscurso [0, 0], dvdndo em város subconjuntos fuzzy, gualmente espaçados (fgura 6.4 (b)). A partr do ntervalo [5, 0], a função começa a dmnur a sua não-lneardade. Com sto, pode-se tratar com um menor número de

130 subconjuntos fuzzy (fgura 6.4 (c)). Uma manera de fazer o ajuste das curvas de pertnênca é usar um algortmo de agrupamento, as redes de Kohonen. 2 y (a) Análse de uma função não-lnear µ(x) (b) Incalzação das Funções de Pertnênca (unformemente dstrbuídas) 0 µ(x) 5 0 REDE DE KOHONEN (c) Após trenamento (não unformemente dstrbuídas) Fgura 6.4 Determnação das funções de pertnênca O algortmo de agrupamento utlzado é baseado na rede neural auto-organzável de Kohonen (ver fgura 6.5), onde são empregadas m estruturas uma para cada coordenada de entrada. O número de neurônos na camada de processamento corresponde ao número de subconjuntos fuzzy para -ésma coordenada [5, 6, 7, 8, 9, 3]. Com o trenamento da rede este número pode ser reduzdo.

131 3 Camada de Entrada Camada de Processamento Fgura 6.5 Rede de Kohonen para determnar os centros das funções trangulares [9] O trenamento da rede de Kohonen da fgura 6.5 é não-supervsonado e compettvo. Somente o peso da conexão do neurôno vencedor é ajustado. Ao fnal do trenamento, aqueles neurônos que tveram um baxo índce de desempenho, sto é, venceram poucas vezes, são elmnados da rede. Este procedmento permte determnar o número de funções de pertnênca adequado, e seus respectvos centros. A segur, o algortmo de trenamento da rede de Kohonen para ajustar as curvas de pertnênca [6, 9]. Os Passos do Procedmento de Kohonen:. Incalzações dos pesos, ou seja, dos centros da curvas de pertnêncas: Pesos a r Intervalo de análse: [x mn, x max ]; a r = x mn, lmte nferor; = X max p X mn, passo para gerar novas funções de pertnênca; a r = a (r-) +, para r =2,3,...,p (p representa o número de funções); Índce de desempenho: d (r)=0, para r =, 2,...,p; as funções de pertnênca ncas são do tpo (ver fgura 6.4 (b)). Este

132 4 procedmento de ncalzação geralmente proporcona uma convergênca mas rápda que a ncalzação aleatóra [6, 9]. 2. Processo teratvo de aprendzagem: 2. Apresentar um padrão p à rede e atualzar o peso da conexão do neurôno vencedor da segunte forma: a L ( p+ ) = a ( p) + η ( p).[ x a ( p)] (6.33) L L onde: L é o índce do neurôno vencedor, que é aquele cujo peso da conexão possu o valor mas próxmo de x, ou seja: { x ar } L = arg mn (6.34) 2.2 Reduzr o passo η(p); 2.3 Atualzar o índce de desempenho do neurôno vencedor, fazendo: Id ( L) = d( L) + (6.35) 2.4 Verfcar o teste de parada (a j (t) a j (t-) ε para todo j: Se não é satsfeto volte ao passo 2.; 3. Fm. Se é satsfeto vá para o passo 3. Uma vez defndos o número de funções de pertnênca e seus respectvos centros, o cálculo das mesmas pode ser feto com um número reduzdo de operações, utlzando o conjunto de parâmetros (a r, α e e α dr ), onde: α α er dr = a = a r r a a r r+ (6.36) (6.37) As equações 6.36 e 6.37 são as dervadas da curva de pertnênca à esquerda e dreta de a r. Com estes parâmetros o cálculo das funções de pertnênca é smplfcado, envolvendo duas operações de soma e uma de multplcação.

133 5 α er.( x α dr.( x µ j ( x) = a r a r ) +, a ) +, a r r 0, outros x x a a r r+ (6.38) Assm, as funções de pertnênca são ajustadas dstrbundo-se não unformemente sobre um unverso de dscurso, (ver fgura 6.4 (c)). No próxmo capítulo o modelo NFN-MK é aplcado a estudos de caso, especfcamente em aproxmação de funções. Os resultados da efcênca do NFN-MK é comparado com outras propostas híbrdas e com as RNA s. 6.6 Conclusão Neste capítulo foram mostradas as estruturas dos sstemas: neurofuzzy Neo-Fuzzy- Neuron (NFN), com o seu respectvo algortmo de aprendzagem e o algortmo de agrupamento ou redes de Kohonen. A proposta é apresentar uma nova estrutura para a rede NFN de Yamakawa, que permte ajustar as curvas de pertnênca pelas redes de Kohonen. Assm o novo sstema proposto fo chamado de Neo Fuzzy Neuron Modfcado por Kohonen (NFN-MK) que será aplcado à aproxmação de funções.

134 CAPÍTULO 7 VALIDAÇÃO E ESTUDOS DE CASOS Este capítulo apresenta estudos de casos realzados com o modelo computaconal híbrdo, o Neo Fuzzy Neuron Modfcado por Kohonen (NFN-MK). Os estudos estão assocados a problemas de aproxmações de funções, os quas serão descrtos por um conjunto de funções fuzzy. 7. Introdução Os aproxmadores de funções são normalmente módulos de um sstema mas complexo de modelagem, como os de tomada de decsão e de controle [70]. Em tas sstemas, freqüentemente é necessáro o cálculo de valores de funções ou de suas dervadas em pontos específcos. As expressões analítcas destas funções podem ser de dfícl cálculo ou mesmo não estarem dsponíves. Nestes casos, são necessáros sstemas capazes de aproxmar o comportamento de tas funções a partr de dados prátcos exstentes. As funções do sstema são desconhecdas, sendo possível apenas obter amostras ou estmatvas do valor de cada função para vetores de entrada, defndos de forma a explorar adequadamente o espaço de aproxmação. Nas funções multvaráves fo adotado o mesmo procedmento utlzado por Hwang (HWANG, 994 apound LIMA; LIMA, 998), sto é, para produzr um conjunto de dados de trenamento, foram gerados pares de entrada (x, x 2 ), com base em uma dstrbução unforme em um ntervalo [x mín, x max ]. Na valdação do modelo NFN-MK, foram realzados quatro expermentos. A escolha dos mesmos deve-se ao fato de serem empregados por outros autores na área de dentfcação de sstemas com técncas híbrdas de IA. Os sstemas modelados como sstemas reas têm seus comportamentos descrtos pelas curvas: seno ( caso), chapéu mexcano (2 caso), radal (3 caso) e não-lnear (4 caso). As curvas seleconadas como estudo de casos apresentam algumas motvações:

135 7 Estas curvas foram casos de outros trabalhos, como [25, 50, 58, 70, 84, 9]; A função sen(x) representa os fenômenos cíclcos e peródcos encontrados na natureza; A curva snc(x, x 2 ), conhecda como chapéu mexcano, lustra um fenômeno próxmo à ruptura de superfíces quando submetdas a forças nternas, dstrbuídas em uma regão/área; Já a curva radal apresenta a forma de gota em uma superfíce líquda; A função não-lnear do 4 caso é a composção das funções: rampa, degrau e dente de serra. Os três prmeros expermentos são consderados quase que clásscos, logo mportantes na lteratura da área. 7.2 Estudos de Casos Esta seção apresenta os resultados expermentas da efcáca do NFN-MK, em casos prátcos de aproxmações de funções. Os resultados obtdos dos três prmeros casos são comparados com as técncas das redes neuras, bem como outros sstemas híbrdos. Já o últmo caso é comparado com a rede NFN orgnal de Yamakawa [96]. O modelo proposto NFN-MK e as redes neuras apresentadas nesta seção foram mplementados computaconalmente, usando Vsual Basc(VB). O software Matlab auxlou nas smulações das funções de multvaráves Estudo de Caso: Função Seno Neste caso a função f x) sen( x) ( =, vsta na fgura 7. descreve o comportamento de um sstema real típco, com característcas peródcas. Assm, ( x) f ( x) = sen será aproxmada pelo NFN-MK proposto, e para contrastar quanto à sua efcênca, esta função será também avalada com uma RNA clássca.

136 8 Estudo de Caso : Função de Saída Varável de Entrada Função sen(x) Fgura 7. Função f x) sen( x) ( = a ser aproxmada O domíno da função é defndo dentro de um arco real, mas neste estudo será analsada no ntervalo de [0, 6.3], com a magem compreendda entre [-, ], ou seja, em período completo da função [0, 2π]. a) Modelo NFN-MK: A estrutura do NFN-MK para a função sen( x) é dada na fgura 7.2. A mesma será aproxmada com sete funções de pertnênca do tpo trangular, unformemente dstrbuídas no ntervalo de dscurso [0, 6.3]. O modelo mescla as técncas fuzzy, redes neuras e a rede de Kohonen. A lógca das chaves S e S 2 esta descrta no capítulo 6, seção 6.2. No trenamento da rede neurofuzzy com rede de Kohonen (chaves S fechada e S 2 aberta), novas curvas trangulares são obtdas, as quas representam uma maor precsão e conhecmento sobre o sstema em estudo [64].

137 9 Modelo NFN-MK F w F 2 w 2 S 2 F 6 w 6 y F 7 w 7 x Rede NFN a d a 2 2 d 2 S a 6 6 d 6 Geração dos novos centros das funções de pertnêncas a 7 7 d 7 Rede de Kohonen Fgura 7.2 Rede NFN-MK usada na aproxmação da função sen( x) Na fgura 7.2: x é a entrada da rede NFN-MK; F p a função de pertnênca da etapa NFN; w p os pesos da etapa NFN; a p centro das funções de pertnênca F p ; d p é a dstânca Eucldana, entre a entrada e o centro da curva de pertnênca; é o número de entradas e p o número de funções de pertnênca; y é a saída da rede NFN-MK.

138 20 As quantdades das funções de pertnênca no unverso de dscurso estão baseadas nas experêncas de [82], que mostraram que uma mudança de 5 conjuntos trangulares para 7 aumenta a precsão em torno de uns 5%. A partr de valores maores não há melhoras sgnfcatvas. Os rótulos tradconas num sstema ndustral para sete conjuntos de pertnênca são: Negatvo Grande (NB), Negatvo Médo (NM), Negatvo Pequeno (NS), Zero (ZE), Postvo Pequeno (PS), Postvo Médo (PM) e Postvo Grande (PB). O formato trangular das funções é devdo à facldade de geração e tratamento na fuzzfcação e defuzzfcação. Assm, para cada varável pode-se ter um conjunto de funções de pertnênca dferente, com dversas dstrbuções. Os parâmetros do algortmo de trenamento da rede NFN-MK, descrta no capítulo 6, pode ser vsta na tabela 7.. Tabela 7. Dados de trenamento do NFN-MK Dados de Trenamento da Rede NFN-MK Número de entradas: ; Lmte nferor da entrada:0; Lmte superor da entrada: 6.3; Número de saídas: ; Número de funções de pertnênca: 7; Passo p: número de padrões; Fator de aprendzado ncal: ; Fator de aprendzado da rede de Kohonen: η ( p) = η( p ) ; Crtéro de convergênca da rede de Kohonen: 0.; Incalzação dos pesos: ; Número de padrões: 64; Crtéro de convergênca da rede da NFN: 00 épocas; Trenamentos: Não-supervsonado (etapa de Kohonen) e supervsonado (etapa NFN). Na geração das funções de pertnênca é precso determnar os parâmetros N s (número de funções de pertnênca),, x mn, e x max, para = (número de entradas). Da tabela 7. pode-se extrar os valores de x mn = 0 e x max = 6.3. Com sto, tem-se:

139 x max x mn (7.) =.05 7 = = N s 2 As funções de pertnênca ncadas são unformemente dstr buídas para a coordenada x, como pode ser vsto na fgura 7.3. Curvas Incas do Sstema Funções de Pertnêncas Varável de Entrada Negatvo Grande (NB) Negatvo Médo (NM) Negatvo Pequeno (NS) Zero (ZE) Postvo Pequeno (PS) Postvo Médo (PM) Postvo Grande (PB) Fgura 7.3 Funções trangulares eqüdstantes para f ( x) = sen( x) Após a geração das curvas trangulares é aplcada a rede Kohonen para gerar os novos centros das funções trangulares. Na fgura 7.4, são mostradas as novas curvas de pertnênca com seus centros deslocados em relação às curvas ncas (ver fgura 7.3). Curvas Obtdas pelo Sstema NFN-MK Funções de Pertnêncas Varável de Entrada Negatvo Grande (NB) Negatvo Médo (NM) Negatvo Pequeno (NS) Zero (ZE) Postvo Pequeno (PS) Postvo Médo (PM) Postvo Grande (PB) Fgura 7.4 Funções trangulares não unformemente dstrbuídas para f ( x) = sen( x)

140 22 Em resumo, os vértces das curvas trangulares são encontrados va rede de Kohonen, com as chaves S fechada e S 2 aberta. As sete funções ncadas pelo modelo foram ajustadas para ses. Na tabela 7.2 são mostrados os novos parâmetros para os centros (C), lmtes à esquerda (LE) e à dreta (LD) das funções de pertnênca e os pesos ncas ( w ncal ) e fnas ( w fnal ) da rede NFN. No trenamento do NFN-MK, os valores de entrada (x) foram gerados aleatoramente no ntervalo [0, 6.3]. Tabela 7.2 Parâmetros da modelagem da função f ( x) = sen( x) Parâmetros Incas Novos Parâmetros Curvas LE C LD w ncal LE C LD w fnal NB NM NS ZE PS PM PB A atualzação dos pesos (w ) é realzada para cada padrão de entrada (x ), conforme equação 7.2, onde, µ é o grau de pertnênca de um subconjunto fuzzy. No capítulo 6 são evdencados os procedmentos de atualzação dos pesos e a obtenção da taxa de aprendzado. j+ j j j d w = w α.( y y ). ( x ) (7.2) k k t t µ k t O passo (α), que no trenamento de redes neuras ou sstemas neurofuzzy é chamado de taxa de aprendzado, é determnado pela equação 7.3. Este método de obtenção dnâmca é proposto por [9] (ver seção 6.3.2), porque a função objetvo do NFN a ser mnmzada é quadrátca e convexa. α = n = µ ( x ) k 2 + µ k+ ( x ) 2 (7.3)

141 23 A fgura 7.5 lustra a nfluênca da escolha da taxa de aprendzado na convergênca do modelo NFN-MK, onde se mostra a evolução do erro quadrátco médo para dferentes tpos de taxa de aprendzagem. Para uma melhor vsualzação dos resultados foram apresentados até a sexta época. Influênca da Taxa de Aprendzado Erro Quadrátco Médo Taxa Dnâmca Taxa = 0.5 Taxa = 0.2 Taxa = 0.8 Número de Épocas Fgura 7.5 EQM para dferentes taxas de aprendzagem. A tabela 7.3 mostra o erro quadrátco médo após as 00 épocas de trenamento. Cada época consste na apresentação dos 64 padrões de entradas, dstrbuídos no ntervalo [ 0,6.3]. Tabela 7.3 EQM fnal Taxas de Aprendzagem Erro Quadrátco Médo (EQM) Taxa Dnâmca Taxa = Taxa = Taxa = No entanto, a taxa ajustada dnamcamente (equação 7.3) possblta uma melhor convergênca. Após a obtenção das curvas de pertnênca e do trenamento, a rede NFN-MK é submetda a um teste com 33 amostras (ver fgura 7.6).

142 24 Fase de Teste da Rede NFN-MK Função de Teste Sen(x) Fase de Teste Varável de Entrada Fgura 7.6 Fase de teste do NFN-MK para f ( x) = sen( x) Assm, pode-se avalar a capacdade de generalzação do mapeamento NFN-MK com relação ao tpo de entrada do sstema. A tabela 7.4 apresenta análse dos valores analítcos (função f x) sen( x) ( = ) e valores obtdos pelo teste do modelo NFN-MK. Tabela 7.4 Análse de resultados da função f ( x) = sen( x) Entradas Arbtráras Saída Real (Valor Analítco) Saída do Modelo (NFN-MK) Erro (Valor Absoluto) Após a apresentação de alguns valores, será lustrado manualmente o cálculo da entrada x = 4.2 no modelo computaconal NFN-MK, onde o valor a ser calculado reproduz o comportamento do sstema real. Este valor é fuzzfcado e cruza as curvas de pertnênca PS e PM da fgura 7.4, resultando nas pertnêncas µ = 0. 6 e µ = A partr da defnção das curvas de pertnênca PS e PM, os pesos são obtdos pela últma coluna da tabela 7.2. Assm, aplcando-se a equação 7.4, apresentada no capítulo 6, PS PM f µ µ (7.4) ( x ) = k ( x ). + + ( ). wk k x wk +

143 25 tem-se: f ( x= 4.2) = (0.6).( 0.60) + (0.4).(.9) = (7.5) Na tabela 7.4 pode-se obter o valor analítco, dado por e o valor smulado dado por , próxmo ao valor acma. A dferença deve-se à precsão numérca da máquna. Na fase de teste pode-se ver que o modelo proposto conseguu modelar a função f x) sen( x) ( =, apesar de poucas épocas usadas na etapa do trenamento. b) Método das RNA s: A fgura 7.7 mostra a arqutetura da RN usada para modelar a função f x) sen( x) ( =. A estrutura da rede escolhda possu uma entrada x, uma saída y e sete neurônos na camada escondda (ntermedára), com algortmo de trenamento clássco backpropagaton para ajustar os pesos w. A defnção da arqutetura da RNA com sete neurônos na camada ntermedára é em analoga com o modelo computaconal NFN-MK, que usa sete funções de pertnênca para modelar a função f x) sen( x) ( =.

144 26 Varáves de Entradas Camada Escondda Neurôno de Saída Varável de Saída w w 3 w w 8 w 28 x w 4 4 w 38 w 48 8 f(x) w 5 w 58 5 w 68 w 6 6 w 78 w 7 7 Fgura 7.7 RNA utlzada na aproxmação da função sen(x) A função de atvação (transferênca) escolhda para os neurônos da camada escondda fo à função tangente hperbólca (equação 7.6); já para o neurôno de saída é a função lnear (equação 7.7). β. x β. e e f ( x) = β. x β. e + e x x = tanh ( β. x) (7.6) f ( x) = δ. x (7.7) onde: β é o ganho da função tangente hperbólca; δ é o ganhos da função lnear; x é a varável de entrada.

145 27 O algortmo backpropagaton utlza as dervadas das funções de atvação. A equação 7.8 mostra a dervada da função tangente hperbólca. 2 f ( x)' = β.( f ( x) ) (7.8) Verfca-se que a arqutetura do tpo perceptron com uma únca camada ntermedára e sete neurônos nesta camada fo capaz de aproxmar a função f x) sen( x) ( =. A apresentação dos padrões de trenamento da rede é do tpo aprendzado off-lne (ver tabela 7.5). Tabela 7.5 Dados de trenamento da função f ( x) = sen( x) Dados Utlzados Para Trenamento Número de entradas: ; Número de saídas: ; Incalzação dos pesos: ; Fator de aprendzado: 0.5; Ganho da função de atvação tangente hperbólca (β): 0.8; Ganho da função de atvação lnear (δ): 0.5; Número de padrões: 64; Crtéro de convergênca da RN: 00 épocas; Aprendzado: Backpropagaton (supervsonado). Os parâmetros adotados na rede foram escolhdos aleatoramente. Então, o processo de mnmzação do erro não tem convergênca garantda, e não possu um crtéro de parada bem defnda. Uma forma smples de reduzr as chances de se fcar preso em um mínmo local é escolhendo um conjunto de parâmetros ótmo [50]. Segundo [50], varar o ganho da função de atvação é equvalente a varar a taxa de aprendzagem junto ao vetor de parâmetros ajustáves (pesos). Isto smplfca a regra de aprendzagem elmnando um destes parâmetros. O fator de aprendzado controla a velocdade da aprendzagem, aumentando ou dmnundo o ajuste dos pesos que é efetuado a cada teração durante o trenamento. Logo, fo usado um algortmo genétco (desenvolvda por Johan Holland no fnal dos anos 60) para encontrar o ganho deal das funções de atvação, no caso os parâmetros β e δ das equações 7.6 e 7.7. Essa técnca vem sendo aplcadas com sucesso nos mas dversos problemas de otmzação e aprendzagem de máquna [6, 2, 64,

146 28 77, 9]. O software utlzado fo o Goal, que permte programar em Vsual Basc. Na tabela 7.6 podem-se ver os valores otmzados do ganhos das funções de atvação. Tabela 7.6 Ganhos otmzados pelo algortmo genétco Dados Otmzados por Algortmo Genétcos Número de entradas: ; Número de saídas: ; Incalzação dos pesos: ; Fator de aprendzado: 0.5; Ganho da função de transferênca tangente hperbólca (β*): ; Ganho da função de transferênca lnear (δ*):.2897; Número de padrões: 64; Crtéro de convergênca da RN: 00 épocas; Trenamento:Backpropagaton (supervsonado). Na smulação, para se obter os ganhos deas das funções de atvação foram usados os seguntes parâmetros para o software Goal: Tamanho da População: 30; Número de Gerações: 00; Etapa da Reprodução: crossover por dos pontos; Taxa de Reprodução: 0.85; Etapa da Mutação: taxa = 0.005; Taxa de Seleção: A fgura 7.8 mostra a função tangente hperbólca em um ntervalo [-5, 5], para os ganhos atrbuídos aleatoramente (β ) e os ganhos obtdos pelo algortmo genétco (β *).

147 29 Função Tangente Hperbólca Varável de Saída,5 0,5 0-0,5 - Ganho aleatóro Ganho obtdo pelo método AG -, Varável x Fgura 7.8 Função tangente hperbólca Já na fgura 7.9 é mostrado o comportamento das suas dervadas, que são usadas no cálculo de aprendzagem (algortmo backpropagaton). Dervada da Função Tangente Hperbólca 2 Varável de Saída,5 0,5 0-0, Varável x Ganho aleatóro Ganho obtdo pela técnca AG Fgura 7.9 Dervada da função tangente hperbólca A fgura 7.0 mostra a função na fase de trenamento, onde foram usados 64 pontos de trenamento (pares de entradas/saídas desejadas).

148 30 Fase de Trenamento Função Sen(x) Varável de Entrada Sen(x) Ganhos Arbtráros Ganhos Obtdos por AG Fgura 7.0 Fase de trenamento da RN para os ganhos arbtráros e obtdos por AG A rede neural com os ganhos obtdos pela técnca de AG modelou a curva analítca ( x) f ( x) = sen mas corretamente que a rede com ganhos arbtráros. A comparação entre a saída desejada (y d ) e a saída da rede (y obtda ) é realzada pela função do Erro Quadrátco Médo (EQM), ver equação 7.9. EQM = N d obtdo 2. ( y( t) y ( t)) (7.9) N t= onde N é o número de padrões e para cada N padrões de treno tem-se uma época. Já a fgura 7. mostra a evolução do EQM para 00 épocas, observa-se que houve uma redução no EQM devdo aos ganhos otmzados pelo AG.

149 3 Comparação dos EQM Erro Quadrátco Médo (EQM) Épocas Ganhos Arbtráros Ganhos Obtdos por AG Fgura 7. Evolução do EQM para os ganhos arbtráros e obtdos por AG No entanto, estmar o número/valores de parâmetros é uma tarefa árdua que requer conhecmento sobre a complexdade do problema [3]. Este conhecmento normalmente não está dsponível, prncpalmente tratando-se de problemas multdmensonas. A capacdade de mapeamentos complexos das redes neuras cresce com o número de camadas e neurônos. Entretanto, este aumento acarreta maor tempo de processamento, o que é um fator mportante em mplementação em sstemas de tempo real. A convergênca de métodos de otmzação não-lnear depende da condção ncal e do comportamento da função objetvo. Logo, a convergênca não é assegurada, podendo às vezes apresentar um erro sgnfcatvo mesmo após um período tempo de trenamento [6, 70]. A fgura 7.2 apresenta o resultado da fase de teste da rede neural da fgura 7.7. As consderações sobre esta RN foram fetas ao longo desta seção, como parâmetros e topologa.

150 32 Fase de Teste da Rede Neural Função de Teste Varável de Entrada Sen(x) Fase de Teste Fgura 7.2 Fase de teste da rede neural Já a fgura 7.3 mostra a evolução do EQM em função das épocas (na fase de trenamento) do modelo proposto NFN-MK, e da RN com os ganhos obtdos por AG e RN com ganhos arbtráros. Para uma melhor vsualzação o gráfco fo plotado até a décma época. Evolução do EQM Erro Quadrátco Médo Épocas RNA RNA + AG NFN-MK Fgura 7.3 Comparação entre os erro quadrátco médo Pode-se observar que o EQM para o NFN-MK é menor quando comparado com a RNA e RNA + AG (ver fgura 7.3). Na performance da rede neural fo necessáro utlzar uma técnca de apoo, o AG. Já a rede neurofuzzy NFN-MK proposta na dssertação dspensa o

151 33 auxílo do AG e tem a vantagem de convergr para uma aproxmação com poucas épocas. Esta rápda convergênca possblta a utlzação da rede NFN-MK em tempo real. A tabela 7.7 resume o número de operações envolvdas nas duas estruturas (para detalhes ver tabela 6.2). Tabela 7.7 Comparação entre a RNA e o NFN-MK para a função f ( x) = sen( x) Modelos Avalados RNA [n,p,m] = [,7,] NFN-MK [n,p,m] = [,6,] Operações de Multplcação Operações de + e/ou - Cálculos de Funções n.p + p.m = 4 n.p + p.m = 4 p + m = 8 (funções tangente hperbólca e lnear) 2.n.m = 2 n.m + n = 2 n = (função lnear) O número de operações e cálculo de funções no NFN MK é menor que na RNA. Assm o tempo de processamento do sstema NFN-MK é nferor, comparado com a RNA. Isso faz com que seja uma opção atraente em sstemas de tempo real e em trenamento on-lne. O modelo NFN-MK aparece como uma solução promssora para os problemas encontrados nas redes neuras Estudo de Caso: Função Chapéu Mexcano Uma função matemátca com algum nteresse em fenômenos reas é a função chapéu mexcano [79], descrta pela equação 7.0. sen( x) sen( x2) f ( x, x2) =. = sn c( x, x2) x x 2 (7.0) Neste estudo de caso as entradas (x, x 2 ) vararam dentro da área delmtada pelo quadrado [-0, 0] x [-0, 0] e a saída f x, x ) = sn c( x, ) varou no ntervalo [-0.2, ] ( 2 x2 (ver fgura 7.4). Este ntervalo de análse fo escolhdo para se poder comparar com os resultados obtdos por [84].

152 34 Estudo de Caso 2: Função f(x, x2) Varável x Varável x 2 Fgura 7.4 Curva chapéu mexcano O modelo computaconal proposto, o NFN-MK, fo comparado com outros sstemas ntelgentes: o NFHQ (Neuro-Fuzzy Herárquco Quadtree) e FSOM de Vuormaa, apresentados por [84] e a rede neural da fgura 7.7. a) Modelo NFN-MK: NFN-MK da fgura 7.5. A função f x, x ) = sn c( x, ) fo ncalmente aproxmada pelo sstema ( 2 x2

153 35 x Entradas Rede NFN-MK da Fgura 7.2 f(x ) = y f(x, x2) = y (saída do modelo) x 2 Rede NFN-MK da Fgura 7.2 f(x 2 ) = y 2 Fgura 7.5 Rede NFN-MK usada na aproxmação do chapéu mexcano Na fuzzfcação das entradas (x, x 2 ), foram usadas sete funções de pertnênca do tpo trangulares, unformemente dstrbuídas no ntervalo de dscurso [-0, 0] x [-0, 0], conforme fgura 7.6. Curvas Incas do Sstema Funções de Pertnêncas,2 0,8 0,6 0,4 0,2 0-0,00-6,67-3,33 0,00 3,33 6,67 0,00 Varável de Entrada Negatvo Grande (NB) Negatvo Médo (NM) Negatvo Pequeno (NS) Zero (ZE) Postvo Pequeno (PS) Postvo Médo (PM) Postvo Grande (PB) Fgura 7.6 Funções trangulares para f x, x ) = sn c( x, ) ( 2 x2 Na mplementação da rede de Kohonen novas funções de pertnênca foram obtdas (ver fgura 7.7). O modelo otmzou o sstema para ses funções, que representam uma maor precsão e conhecmento sobre o sstema em estudo. No trenamento foram usados 225 padrões de entradas/saídas.

154 36 Curvas Obtdas pelo Sstema NFN-MK Funções de Pertnêncas,2 0,8 0,6 0,4 0,2 0-0,0-8,0-6,0-4,0-2,0 0,0 2,0 4,0 6,0 8,0 0,0 Varável de Entrada Negatvo Grande (NB) Negatvo Médo (NM) Negatvo Pequeno (NS) Zero (ZE) Postvo Pequeno (PS) Postvo Médo (PM) Postvo Grande (PB) Fgura 7.7 Funções trangulares não unformes para f x, x ) = sn c( x, ) ( 2 x2 A tabela 7.8 apresenta as grandezas usadas na fase de aprendzagem da rede de Kohonen e NFN. Os parâmetros usados para as duas entradas (x, x 2 ) do modelo computaconal são dêntcos. Tabela 7.8 Dados de trenamento do NFN-MK Dados de Trenamento da Rede NFN-MK Número de entradas: 2; Lmte nferor da entrada:-0; Lmte superor da entrada: 0; Número de saídas: ; Número de funções de pertnênca: 7; Passo p: número de padrões; Fator de aprendzado ncal: ; Fator de aprendzado da rede de Kohonen: η ( p) = η( p ) ; Crtéro de convergênca da rede de Kohonen: 0.; Incalzação dos pesos: ; Número de padrões: 225; Crtéro de convergênca da rede da NFN: 0 épocas; Trenamentos: Não-supervsonado (etapa de Kohonen) e supervsonado (etapa NFN).

155 37 As funções trangulares unformemente dstrbuídas (ncadas pelo algortmo) são ajustadas pela rede de Kohonen. A tabela 7.9 apresenta os novos parâmetros para os centros (C), lmtes esquerdo (LE) e lmtes dreto (LD) das funções trangulares; os parâmetros são guas para as duas entradas, pos o ntervalo é o mesmo. Já os pesos ncas w ) são ajustados pela rede NFN, onde (, 2ncal wfnal representa os pesos fnas para as entradas x e x 2. Tabela 7.9 Parâmetros da modelagem da função f x, x ) = sn c( x, ) ( 2 x2 Parâmetros Incas Novos Parâmetros Curvas LE C LD w,2 ncal LE C LD w fnal w 2 fnal NB NM NS ZE PS PM PB Após a obtenção das novas funções de pertnênca e da fase de trenamento (225 padrões de entrada/saídas e 0 épocas), a rede NFN-MK é submetda a um teste de aproxmação, com 88 pontos de entrada (ver fgura 7.8). A taxa de aprendzado do modelo em estudo é obtda pela equação 7.3, ou seja, a taxa dnâmca.

156 38 Fgura 7.8 Fase de teste em 3D da função chapéu mexcano O gráfco da fgura 7.9 é mostrado em 2D para uma melhor vsualzação dos resultados apresentados. Fase de Teste da Rede NFN-MK.2 Função de Teste Entradas Função Chapéu Mexcano Fase de Teste Fgura 7.9 Fase de teste em 2D da função chapéu mexcano A tabela 7.0 apresenta análse de valores analítcos (função f x, x ) = sn c( x, ) ) e valores obtdos pelo teste do modelo computaconal NFN-MK. ( 2 x2

157 39 Tabela 7.0 Análse de resultados função f x, x ) = sn c( x, ) ( 2 x2 Entradas Arbtráras x x 2 Saída Real (Valor Analítco) Saída do Modelo (NFN-MK) Erro (Valor Absoluto) Após a apresentação de alguns valores, será lustrado manualmente o cálculo para as entradas x = -0. e x 2 = 0., no modelo computaconal NFN-MK, onde o valor a ser calculado reproduz o comportamento do sstema real. As entradas são fuzzfcadas e cruzam as curvas de pertnênca ZE e NS para a entrada x = -0., resultando nas pertnêncas µ = e µ = Já para a entrada x 2 = 0., tem-se as ZE NS pertnêncas µ = e µ = O gráfco 7.7 mostra as funções de pertnênca ZE NS em questão. A partr da defnção das curvas de pertnênca ZE e NS, os pesos são obtdos pelas duas últmas colunas da tabela 7.0. Assm, aplcando-se a equação 6.3, tem-se: f ( x = 0.) = (0.0294).( ) + (0.9706).(0.554) = f ( x 2 = 0.) = (0.0882).(0.032) + (0.98).(0.4973) = (7.) f = f ( x = 0.) + f ( x 2 2 = 0.) = Na tabela 7.0 pode-se obter o valor analítco, dado por e o valor smulado dado por , próxmo ao valor acma. A dferença deve-se à precsão numérca da máquna. O modelo NFN-MK aproxmou a função f x, x ) = sn c( x, ) satsfatoramente na ( 2 x2 fase de teste; na etapa de trenamento foram usadas 0 épocas e 225 pares de entradas/saídas.

158 40 b) Método NFHQ: A fgura 7.20 mostra a arqutetura da rede usada para aproxmar a função em estudo. Na fase de trenamento fo utlzado um conjunto de dados de 225 amostras. O modelo NFHQ começou com uma célula e sua estrutura fo crescendo para mnmzar o EQM. Ao todo, foram utlzados 64 parâmetros lvres, relatvos aos sngletons (pulsos) dos conseqüentes das regras e alocadas 2 células NFHQ. A função sngleton é freqüentemente usada como função de pertnênca para saídas de controladores fuzzy, que smplfcam os cálculos dos métodos de defuzzfcação. Célula NFHQ Conseqüentes das Regras Fgura 7.20 Rede NFHQ usada na aproxmação da curva chapéu mexcano [84] Esta seção utlza o EQM da rede NFHQ o qual é comparado com o erro do modelo NFN-MK. Detalhe sobre a rede NFHQ pode ser encontrado no trabalho [84]. O erro quadrátco médo obtdo pela rede na fase de trenamento é A rede NFHQ utlza como método de trenamento o gradente decrescente.

159 4 c) Método FSOM: A topologa usada para aproxmar a função pode ser vsta na fgura 7.2, para maores detalhes seção (b). No trenamento também foram utlzados 225 dados de amostras. Fgura 7.2 Rede FSOM na aproxmação da curva chapéu mexcano [88] As funções de pertnênca usadas nos antecedentes das regras são trangulares e os conseqüentes das regras são sngletons (pulsos). O FSOM utlzou 00 parâmetros lvres, relatvos aos sngletons dos conseqüentes. Já o erro quadrátco médo obtdo após a fase de trenamento é Maores nformações podem ser encontradas no trabalho [84]. A apresentação dos padrões são off-lne, e usam o método do gradente decrescente para ajuste dos conseqüentes. c) Método das RNA s: A topologa da rede neural defnda para modelar a função f x, x ) = sn c( x, ) é a ( 2 x2 mesma da fgura 7.22, com duas entradas x, ), sete neurônos na camada escondda e um ( x 2 na camada de saída. A defnção da arqutetura é em analoga com o modelo computaconal NFN-MK.

160 42 Varáves de Entradas Camada Escondda Neurôno de Saída Varável de Saída w 2 w 8 w 3 w 2 w 22 w 2 3 w 28 x w w 23 4 w 24 w5 4 w 38 w 48 8 f(x, x 2 ) x 2 w 25 w 26 5 w 58 w 68 w 7 w 27 w 6 6 w 78 7 Fgura 7.22 RNA utlzada na aproxmação da função f x, x ) = sn c( x, ) ( 2 x2 A apresentação dos padrões de trenamento da rede é do tpo aprendzado off-lne. A função de atvação usada nos neurônos da camada escondda é a tangente hperbólca (equação 7.6). O neurôno de saída usa uma função lnear (equação 7.7) e os parâmetros foram ajustados pelo método backpropagaton (detalhes encontram-se na tabela 7.9).

161 43 Tabela 7. Dados de trenamento da curva chapéu mexcano Dados Utlzados Para Trenamento Número de entradas: 2; Número de saídas: ; Incalzação dos pesos: 0.2 a ; Fator de aprendzado: 0.5; Ganho da função de atvação tangente hperbólca (β): 0.5; Ganho da função de atvação lnear (δ): 0.8; Número de padrões: 225; Crtéro de convergênca da RN: 0 épocas; Aprendzado: Backpropagaton (supervsonado). A fgura 7.23 mostra a rede na fase de trenamento, em que são usados 225 padrões de trenamento (entradas/saídas) e 0 épocas. Fgura 7.23 Fase de trenamento da RN para a curva chapéu mexcano A quantdades de operações matemátcas envolvdas na RNA da fgura 7.22 é superor ao modelo NFN MK (detalhes encontram-se na tabela 7.2).

162 44 Tabela 7.2 Comparação entre a RNA e o NFN-MK para f x, x ) = sn c( x, ) ( 2 x2 Modelos Avalados RNA [n,p,m] = [2,7,] NFN-MK [n,p,m] = [2,6,] Operações de Multplcação Operações de + e/ou - Cálculos de Funções n.p + p.m = 2 n.p + p.m = 2 p + m = 8 (funções tangente hperbólca e lnear) 2.n.m = 4 n.m + n = 4 n = 2 (função lnear) Portanto, o tempo de processamento do modelo NFN-MK é nferor, quando comparado com a RNA. Na tabela 7.3 são comparadas as técncas de aproxmações: Neo-Fuzzy-Neuron Modfcado por Kohonen (NFN-MK), NFHQ (Neuro-Fuzzy Herárquco Quadtree), FSOM de Vuormaa e RNA s. Tabela 7.3 Comparação dos resultados para a função f x, x ) = sn c( x, ) ( 2 x2 Modelos Testados Número de Padrões Erro Quadrátco Médo (EQM) NFN-MK NFHQ FSOM RNA s O modelo NFN-MK é uma opção atratva quando se deseja utlzar técncas ntelgentes de aproxmação de funções, apesar das redes NFHQ e FSOM terem obtdo os menores EQM s. A explcação para tas resultados é que as redes NFHQ e FSOM usaram um maor número de parâmetros Estudo de Caso: Função Radal A função descrta pela equação 7.24 e representada na fgura 7.24, conhecda como radal. As entradas (x, x 2 ) deste trabalho são analsadas no ntervalo [0, ] x [0, ], com base no trabalho de Lma (2000).

163 [ r.(0,75 )] f ( x, x2 ) = 24,234. r, onde r = ( x 0,5) + ( x2 0,5) (7.2) Estudo de Caso 3: Função f(x, x2) Varável x Fgura 7.24 Curva radal [50] 2 2 A função f ( x, x ) 24,234. [ r.(0,75 )] = é aproxmada pelo modelo NFN-MK. e 2 r pela técnca das redes neuras artfcas. Varável x a) Modelo NFN-MK: A função radal é ncalmente aproxmada pelo modelo NFN-MK da fgura 7.5. As entradas (x, x 2 ) foram fuzzfcadas em sete subconjuntos fuzzy unformemente dstrbuídos no ntervalo de [0, ] x [0, ], conforme a fgura 7.25.

Exibir mais