Redes Neurais Artificiais

Documentos relacionados

Curso de Data Mining

Modelos Pioneiros de Aprendizado

MLP (Multi Layer Perceptron)

Redes Neurais. A IA clássica segue o paradigma da computação simbólica

Complemento II Noções Introdutória em Redes Neurais

Dica : Para resolver esse exercício pegue o arquivo pontosm.txt, na página do professor.

COEFICIENTES DE ATRITO

Projeto de Redes Neurais e MATLAB

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida

ATIVIDADES PRÁTICAS SUPERVISIONADAS

Memória Cache. Prof. Leonardo Barreto Campos 1

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

IN Redes Neurais

Redes Neurais. Profa. Flavia Cristina Bernardini

Aula 2 RNA Arquiteturas e Treinamento

Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante

INF 1771 Inteligência Artificial

Do neurônio biológico ao neurônio das redes neurais artificiais

Utilização do SOLVER do EXCEL

Exercícios Teóricos Resolvidos

Arquitetura de Rede de Computadores

Exame II. Citações e Notificações CURSO DE EMPREGADOS FORENSES DE AGENTE DE EXECUÇÃO. A preencher pelo formando:

x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?

Metodologia de Cálculo da Inércia Inflacionária e dos Efeitos do Choque dos Preços Administrados

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

PROCESSAMENTO DOS DADOS DE DIFRAÇÃO DE RAIOS X PARA MEDIÇÃO DE TENSÕES

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

DOSAGEM DE TRAÇOS DE CONCRETO PARA OBRAS DE PEQUENO PORTE, PELO MÉTODO ACI/ABCP E MODELO PROPOSTO POR CAMPITELI. Junio de Matos Torres

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

Bancos de Dados Distribuídos

Redes Neurais. Mapas Auto-Organizáveis. 1. O Mapa Auto-Organizável (SOM) Prof. Paulo Martins Engel. Formação auto-organizada de mapas sensoriais

computador-cálculo numérico perfeita. As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

Morfologia Matemática Binária

Redes Neurais Artificiais na Engenharia Nuclear 2 Aula-1 Ano: 2005

AS LEIS DE NEWTON PROFESSOR ANDERSON VIEIRA

Hoje estou elétrico!

Conforme explicado em 2.4.3, o sinal de voz x(n) às vezes é alterado com a adição de ruído r(n), resultando num sinal corrompido y(n).

Notas de Cálculo Numérico

3. REDES DE CAMADA ÚNICA

Variantes sobre o método Simplex: Método do grande M

LÓGICA DE PROGRAMAÇÃO PARA ENGENHARIA INTRODUÇÃO À ORGANIZAÇÃO DE COMPUTADORES

Fig. 1 Fenômeno da refração. Fonte:

Módulo 4. Construindo uma solução OLAP

2. Representação Numérica

Utilizando o EXCEL Solver

IC Inteligência Computacional Redes Neurais. Redes Neurais

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

Método Simplex - Variantes V 1.1, V.Lobo, EN / ISEGI, 2008

Fração como porcentagem. Sexto Ano do Ensino Fundamental. Autor: Prof. Francisco Bruno Holanda Revisor: Prof. Antonio Caminha M.

Resposta Transitória de Circuitos com Elementos Armazenadores de Energia

Modelagem no Domínio do Tempo. Carlos Alexandre Mello. Carlos Alexandre Mello 1

Departamento de Engenharia Química e de Petróleo UFF

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2

Análise de Arredondamento em Ponto Flutuante

O caso estacionário em uma dimensão

A lógica de programação ajuda a facilitar o desenvolvimento dos futuros programas que você desenvolverá.

IBM1018 Física Básica II FFCLRP USP Prof. Antônio Roque Aula 6. O trabalho feito pela força para deslocar o corpo de a para b é dado por: = =

Regressão Linear Multivariada

ESTUDO DO ACOPLAMENTO DE GRUPOS MOTOR-GERADOR COM UNINTERRUPTIBLE POWER SUPPLY APLICANDO WAVELETS E REDES NEURAIS ARTIFICIAIS

A máscara de sub-rede pode ser usada para dividir uma rede existente em "sub-redes". Isso pode ser feito para:

A aparição. Série Matemática na Escola. Objetivos 1. Introduzir o conceito de logaritmo 2. Mostrar algumas aplicações e utilidades do logaritmo

IA: Problemas de Satisfação de Restrições. Prof. Msc. Ricardo Britto DIE-UFPI

3 Metodologia de Previsão de Padrões de Falha

Algoritmos e Estrutura de Dados III. Árvores

Equações do primeiro grau

Equações do segundo grau

O Princípio da Complementaridade e o papel do observador na Mecânica Quântica

Disciplina: Unidade III: Prof.: Período:

Aritmética Binária e. Bernardo Nunes Gonçalves

ANALÓGICA X DIGITAL. Vamos começar essa aula estabelecendo os dois tipos de eletrônica: Eletrônica Analógica. Eletrônica Digital

Métodos Matemáticos para Gestão da Informação

Curso de Redes Neurais utilizando o MATLAB

ISO/IEC 12207: Gerência de Configuração

PARANÁ GOVERNO DO ESTADO

Resolução de sistemas lineares

Correlação e Regressão Linear

1. Introdução. 1.1 Introdução

IBM1018 Física Básica II FFCLRP USP Prof. Antônio Roque Aula 3

Projeto e Análise de Algoritmos Projeto de Algoritmos Tentativa e Erro. Prof. Humberto Brandão humberto@bcc.unifal-mg.edu.br

A escolha do consumidor sob incerteza

Dadas a base e a altura de um triangulo, determinar sua área.

Comportamento Inter-temporal de Consumo

XI Encontro de Iniciação à Docência

Contagem I. Figura 1: Abrindo uma Porta.

PROGRAMA DE ENRIQUECIMENTO INSTRUMENTAL (PEI)

Jogos. Redes Sociais e Econômicas. Prof. André Vignatti

Notas de aula número 1: Otimização *

Relatório de uma Aplicação de Redes Neurais

Aprendizagem de Máquina

a 1 x a n x n = b,

Sistemas Operacionais e Introdução à Programação. Vetores e matrizes

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

Unidade 5: Sistemas de Representação

PROVA DE FÍSICA 2º ANO - 3ª MENSAL - 1º TRIMESTRE TIPO A

SIG. Uma plataforma para introdução de técnicas emergentes no planejamento urbano, regional e de transportes

Dificuldades de Modelos de PNL. Onde está a solução ótima? Outro exemplo: Condição ótima Local vs. Global Quinta-feira, 25 de abril

SISTEMA. Tecnologia. Software. Hardware. Prazos. Pessoas. Qualidade. Custo GERENCIAMENTO DE RISCO: COMO GARANTIR O SUCESSO DOS PROJETOS DE TI?

Transcrição:

Redes Neurais Artifiiais Thomas Walter Rauber epartamento de Informátia Universidade Federal do Espírito Santo Av. F. Ferrari, 29065-900 Vitória - ES, BRASIL Tel.: (+55)(27) 3352654 Fax: (+55)(27) 3352850 E-mail: thomas@inf.ufes.br WWW-homepage: http://www.inf.ufes.br/~thomas Resumo: Este doumento apresenta uma introdução para a área de redes neurais artifiiais (RNA). Em primeiro lugar motiva-se o paradigma da neuroomputação pelas apaidades ognitivas de redes neurais biológias, inspirado pelo onheimento da neuroiênia. Os fundamentos das RNA são o modelo de um neurônio, a topologia da rede e os paradigmas de aprendizagem. O modelo de MCulloh e Pitts serve omo modelo básio de um neurônio artifiial. Propagação para frente e redes om realimentação onstituem as prinipais topologias de redes. Paradigmas de aprendizagem apresentados são a aprendizagem supervisionada e aprendizagem nãosupervisionada. Em relação às regras para a adaptação dos pesos distingue-se entre a regra de Hebb, a regra de delta e a aprendizagem ompetitiva. A lasse de redes de propagação para frente é representada pelo pereptron, o AALINE e o pereptron om uma amada esondida. Nas regras de aprendizagem do AALINE apresentam-se duas ténias prinipais para adaptar os pesos, a solução determinístia linear pela pseudoinversa e a desida de gradiente. O algoritmo de retropropagação do erro é a ferramenta fundamental para treinar o pereptron multiamada. Redes om realimentação que apresentam um omportamento dinâmio são representadas pelo modelo de Hopfield. Motiva-se a topologia e funionalidade da rede e analisa-se a estabilidade dos pesos. A introdução de uma função de energia por Hopfield junto om pesos simétrios garante a estabilidade da rede. Um exemplo de apliação desse tipo de rede é o armazenamento e reuperação de imagens binárias. Redes ompetitivas onluem a apresentação. entro de uma amada ompetitiva existe um venedor que mostra a maior oinidênia om o sinal de entrada. O mapa de preservação topológia de Kohonen adiionalmente ao uso da aprendizagem ompetitiva impõe uma ordem topológia sobre os neurônios individuais.

ÍNICE I INTROUÇÃO I.1 A Inspiração da Neuroiênia I.2 História da Neuroomputação I.3 Referênias para Aprofundamento na Matéria de Redes Neurais II FUNAMENTOS II.1 Modelo de Neurônio Artifiial II.2 Topologia de Redes de Neurônios Artifiiais II.3 Paradigmas de Aprendizagem II.3.1 Aprendizagem supervisionada II.3.2 Aprendizagem não-supervisionada II.4 Regras de Adaptação dos Pesos II.4.1 Aprendizagem pela Regra de Hebb II.4.2 Aprendizagem pela Regra de elta II.4.3 Aprendizagem Competitiva II.5 Taxinomia de Redes III REES E PROPAGAÇÃO PARA FRENTE III.1 Pereptron III.2 AALINE III.2.1 O erro quadrátio mínimo III.2.2 Solução determinístia III.2.3 Solução iterativa: esida de Gradiente III.3 Pereptron Multi-Camada e Retropropagação de Erro III.3.1 Arquitetura III.3.2 Adaptação dos pesos IV REES COM REALIMENTAÇÃO IV.1 Modelo de Hopfield IV.2 Assoiatividade de Padrões na Rede de Hopfield IV.3 Estabilidade e Aprendizagem de Pesos IV.4 Relaxação, Minimização de Energia IV.5 Apliação: Reuperação de Imagens V REES COMPETITIVAS V.1 eterminação do Venedor V.2 Adaptação dos Pesos V.3 O Mapa de Preservação Topológia de Kohonen VI CONCLUSÕES BIBLIOGRAFIA

I. INTROUÇÃO Uma das áreas de pesquisa mais fasinante presentemente é a simulação de apaidades ognitivas de um ser humano. Projetam-se máquinas apazes de exibir um omportamento inteligente, omo se fossem reações humanas. A inteligênia do ser humano é a mais avançada dentro do universo das riaturas e o loal dessa inteligênia dentro do orpo humano é o érebro. As entidades básias são os neurônios, interonetados em redes o que permite a troa de informação entre eles, riando a inteligênia biológia. Uma ambição óbvia que surge desses fatos é a tentativa de opiar a estrutura e o funionamento do érebro em um ambiente ténio. Isso signifia que a pesquisa tenta entender o funionamento da inteligênia residente nos neurônios e mapeá-la para uma estrutura artifiial, por exemplo uma ombinação de hardware e software, assim transformando as redes neurais biológias em redes neurais artifiiais. Foram definidas uma quantidade extensa de modelos de redes neurais artifiiais e os métodos assoiados para adaptá-los às tarefas a serem resolvidas. Um aviso prévio é o fato que os modelos artifiiais têm pouo em omum om as redes neurais reais. Por outro lado existem paralelos entre os dois mundos que prometem que as redes neurais artifiiais sejam uma aproximação apropriada para resolver problemas ognitivos omplexos. Neste material tenta-se dar uma breve introdução ao ampo de omputação neural. As restrições de espaço permitem uniamente a apresentação de alguns dos modelos e algoritmos de redes neurais artifiiais. Tenta-se dar uma idéia básia sobre as apaidades e limitações desse área de pesquisa e engenharia. Para o leitor interessado dão-se referênias para o aprofundamento da matéria. I.1 A Inspiração da Neuroiênia Quais são as qualidades do érebro humano que o apaitam de um omportamento inteligente? Os seguintes tópios refletem as mais importantes araterístias que são espeialmente atrativas para serem simuladas em uma rede neural artifiial: Robustez e tolerânia a falhas: A eliminação de alguns neurônios não afeta a funionalidade global. Capaidade de aprendizagem: O érebro é apaz de aprender novas tarefas que nuna foram exeutadas antes. Proessamento de informação inerta: Mesmo que a informação forneida esteja inompleta, afetada por ruído ou parialmente ontraditória, ainda um raioínio orreto é possível. Paralelismo: Um imenso número de neurônios está ativo ao mesmo tempo. Não existe a restrição de um proessador que obrigatoriamente trabalhe uma instrução após a outra. O proessamento loal de informação no érebro efetua-se em era de unidades (os neurônios) que têm uma estrutura relativamente simples. Na Figura 1 apresenta-se o modelo simplifiado de um únio neurônio real. O neurônio é uma élula om núleo e orpo (soma) onde reações químias e elétrias representam o proessamento de informação. A saída da informação do soma é realizada por impulsos elétrios que se propagam através do axônio. No final do axônio existem inúmeras ramifiações que distribuem a informação para outros neurônios vizinhos. A ligação om outros neurônios é realizada através de sinapses que estão onetadas a um dendrite do neurônio reeptor. A sinapse dispara uma substânia químia 10 11

quando for exitada pelo impulso do axônio. A substânia se transmite entre sinapse e dendrite realizando a onexão entre dois neurônios vizinhos. Conforme as exitações (ou inibições) que élulas vizinhas transmitem para a élula em onsideração ela proessa a informação novamente e a transmite via seu axônio. sinapse núleo soma axônio dendrites I.2 História da Neuroomputação Figura 1 - Neurônio biológio Um ponto marante na história das redes neurais artifiiais foi a apresentação de um modelo de um neurônio artifiial por [MCulloh and Pitts, 1943]. As atividades nessa linha de pesquisa ulminaram na onepção do pereptron por [Rosenblatt, 1958] e em um modelo pareido, o adaline por [Widrow and Hoff, 1960]. O pereptron é apaz de lassifiar entre lasses que são linearmente separáveis. Foi usado para reonheer por exemplo arateres. Essa apliação foi realizada em uma máquina hamada MARK I PERCEPTRON e ausou uma grande euforia ertamente exagerada em relação a imaginação das apaidades de futuros robôs inteligentes. A araterístia importante do pereptron foi a apresentação de um algoritmo de aprendizagem apaz de adaptar os pesos internos do neurônio de maneira que seja apaz de resolver o problema de lassifiação linear, em aso da separabilidade linear das lasses. O aso exemplar das limitações do pereptron é o problema Ou exlusivo (XOR) ( f ( 0, 0) = f ( 1, 1) = 0, f ( 0, 1) = f ( 1, 0) = 1 ) que prova que uma função tão simples de lassifiação não pode ser alulada pelo pereptron. Essa rítia entrou-se no livro Pereptrons de [Minsky and Papert, 1969]. O impato dessa rítia foi tão grande que a omunidade ientífia abandonou a área das redes neurais artifiiais, om a exeção de alguns pesquisadores por exemplo Fukushima, Grossberg, Hopfield e Kohonen. A solução para o problema XOR já era onheida. Bastava aresentar mais uma amada de neurônios na rede (uma amada esondida). O que faltava era um algoritmo que fosse apaz de treinar os pesos dessa rede multi-amada para que pudesse lassifiar orretamente problemas mais omplexos. Várias soluções equivalentes foram desobertas durante os anos seguintes, más só a publiação do algoritmo de retropropagação de erro (error bakpropagation) por [Rumelhart et al., 1986] popularizou uma solução de aráter universal para esse tipo de problema. A partir desse momento, surgiram os modelos que foram desenvolvidos durante os anos tranquilos da pesquisa e inúmeros outros modelos de redes neurais artifiiais junto om algoritmos de aprendizagem foram apresentados. Espera-se para o futuro que o paradigma da neuroomputação prove ser uma ferramenta potente para resolver problemas omplexos.

I.3 Referênias para Aprofundamento na Matéria de Redes Neurais Além de uma idéia superfiial, este texto não pode transmitir muita informação sobre esse tema altamente interessante e desafiador. O leitor interessado deve ser dirigido para uma esolha boa de livros de texto e reursos eletrônios. Leitores om aesso a Internet deveriam ler as Questões mais perguntadas ( FAQ Frequently Asked Questions ) do grupo de disussões USENET om o endereço news:omp.ai.neural-nets. Nessas questões dão-se reomendações de livros e artigos para uma maior espeialização. Reomenda-se [Hinton, 1992] omo artigo de introdução mais popular na área. Livros para iniiantes, parialmente junto om ódigo, inluem [Masters, 1994], [Fausett, 1994] e [Anderson, 1995], de nível intermediário e avançado [Bishop, 1995], [Hertz et al., 1991], [Haykin, 1994] e [Ripley, 1996]. Além das reomendações de livros enontram-se expliações básias relaionadas aos tópios de redes neurais artifiiais (RNA), por exemplo respostas às perguntas: O que é uma rede neural?, O que se pode fazer om redes neurais artifiiais e o que não?, Quais são as apliações possíveis?, entre outras. A maioria das implementações de RNA é feita em software. Existem uma série de simuladores publiamente disponíveis, om ódigo fonte e manual. Um simulador espeialmente potente para o sistema operaional UNIX, que obre a maioria das arquiteturas e algoritmos de aprendizagem é o Stuttgart Neural Network Simulator (SNNS). O programa está implementado em C e possui uma interfae gráfia extensa. O endereço na internet desse software é ftp://ftp.informatik.uni-stuttgart.de/pub/snns. II. FUNAMENTOS Uma rede neural artifiial (RNA) tem duas faetas elementares: a arquitetura e o algoritmo de aprendizagem. Essa divisão surge naturalmente pelo paradigma omo a rede é treinada. Ao ontrário de um omputador om arquitetura de von Neumann que é programado, a rede é treinada por exemplos de treino. O onheimento sobre o problema em onsideração está guardado dentro dos exemplos que têm que estar obrigatoriamente disponíveis. O algoritmo de aprendizagem generaliza esses dados e memoriza o onheimento dentro dos parâmetros adaptáveis da rede, os pesos. Assim o onstrutor de um sistema baseado em RNA tem dois graus de liberdade, a definição sobre o tipo de rede para resolver o problema em onsideração e o algoritmo para treinar a rede, i.e. para adaptar os pesos da rede. A omposição da rede é feita pelos neurônios. Normalmente o tipo de proessamento de um únio neurônio é a ombinação linear das entradas om os pesos seguida pela passagem da ombinação linear por uma função de ativação. A natureza do problema a ser resolvido normalmente define restrições em relação aos tipos de redes e algoritmos de aprendizagem possíveis. Neste texto distinguem-se redes om propagação do fluxo de informação para frente, redes reorrentes (om realimentação das saídas para as entradas) e redes ompetitivas. Em relação aos algoritmos de adaptação, vamos distinguir entre aprendizagem supervisionada e aprendizagem não-supervisionada. II.1 Modelo de Neurônio Artifiial Em primeiro lugar, vamos introduzir o modelo simplifiado de um neurônio e as apaidades de proessamento assoiadas. Na Figura 2 mostra-se o modelo de um neurônio artifiial de [MCulloh and Pitts, 1943]. Este modelo tenta simular as realidades biológias que oorrem dentro de uma élula do sistema nervoso, ompare Figura 1. A informação forneida por

outros neurônios entra em entradas (=sinapses) no neurônio proessador. O x j proessamento onsiste de uma ombinação linear das entradas j = 1 net = w 1 x 1 + w 2 x 2 + + w x = w j x j = w T x. A ada entrada está assoiada um w j x j peso que reflete a importânia da entrada. O resultado dessa ombinação linear é o valor net. Se esse valor ultrapassar um limiar µ, o neurônio dispara o valor 1 na saída binária y, se não ultrapassar o limiar a saída fia passiva em y = 0. A omparação de net om o limiar µ é realizada pela função de Heaveside (função de esada) Θ( x) = 1 se x 0 e Θ( x) = 0 aso ontrário. y = Θ( w j x j µ ) j = 1 (1) ENTRAAS x 1 PESOS w 2 w x x 2 w 1 Σ net FUNÇÃO E ATIVAÇÃO µ COMBINAÇÃO LIMIAR LINEAR NEURÔNIO ARTIFICIAL y SAÍA Figura 2 - Modelo de um neurônio de MCulloh e Pitts A função de ativação no aso do modelo de [MCulloh and Pitts, 1943] não é a únia maneira de produzir o valor de saída do neurônio. Figura 3 mostra diferentes tipos de funções de ativação. A função linear produz uma saída linear ontínua, a função de esada, uma saída binária (não-linear disreta) e a função sigmoidal, uma saída não-linear ontínua. y( net) y( net) y( net) net net net LINEAR ESCAA SIGMOIAL A definição da função sigmoidal é Figura 3 - Funções de Ativação 1 Função sigmoidal: g( z) = --------------- (2) 1 + e z e tem um onjunto de propriedades que se mostrarão muito úteis nos álulos relaionados à aprendizagem dos pesos e ao mapeamento realizado pela rede:

Não linear Contínua e diferençiável em todo o domínio de R erivada tem forma simples e é expressa pela própria função: Estritamente monótona: z 1 z 2 g( z 1 ) g( z 2 ) Em termos do domínio dos valores alulados distingue-se basiamente entre saídas binárias om y i { 0, 1} ou y i { 1, 1} e saídas ontínuas om y i R. Eventualmente o neurônio possui uma memória loal, i.e. o estado de ativação anterior é tomado em onsideração no álulo da ativação atual. Esse tipo de proessamento dinâmio está fora do âmbito desse texto. II.2 Topologia de Redes de Neurônios Artifiiais g' ( z) = g( z) ( 1 g( z) ) Aabamos de definir uma entidade de proessamento relativamente simples que alula uma função de saída y a partir das entradas x j e dos pesos w j, om uma função de ativação predefinida. O potenial e flexibilidade do álulo baseado em redes neurais vêm da riação de onjuntos de neurônios que estão interligados entre si. Esse paralelismo de elementos om proessamento loal ria a inteligênia global da rede. Um elemento da rede reebe um estimulo nas suas entradas, proessa esse sinal e emite um novo sinal de saída para fora que por sua vez é reebido pelos outros elementos. y i SAÍAS CAMAAS ESCONIAS ENTRAAS Propagação para Frente Realimentação Figura 4 - Topologias prinipais de redes neurais artifiiais Uma ategorização fundamental da topologia dos neurônios pode ser feita em relação ao método de propagação da informação reebida, veja Figura 4. Pode-se distinguir entre redes de propagação para frente (feedforward) e redes realimentadas (reurrent). No aso das redes de propagação para frente o fluxo de informação é unidireional. Neurônios que reebem a informação simultaneamente agrupam-se em amadas. Camadas que não estão ligadas às entradas e nem às saídas da rede hamam-se amadas esondidas. Exemplos para esse tipo de rede são o pereptron [Rosenblatt, 1958], o pereptron multi-amada [Rumelhart et al., 1986] e

o AALINE [Widrow and Hoff, 1960]. Uma rede que adiionalmente tem uma relação topológia de vizinhança entre os neurônios é o mapa auto-organizável de Kohonen [Kohonen, 1972], [Kohonen, 1990]. Redes realimentadas têm ligações entre os neurônios sem restrições. Ao ontrário das redes sem realimentação, o omportamento dinâmio desempenha o papel fundamental nesse modelo. Em alguns asos os valores de ativação da rede passam por um proesso de relaxação até hegarem a um estado estável. O modelo que se apresentará omo representante é a rede auto-assoiativa de [Hopfield, 1982]. II.3 Paradigmas de Aprendizagem Uma vez definida a rede neural, essa tem que ser treinada. Isso signifia que os graus de liberdade que a rede dispõe, para soluionar a tarefa em onsideração, têm que ser adaptados de uma maneira ótima. Normalmente, isso signifia que temos que modifiar os pesos entre o neurônio i e o neurônio j, segundo um algoritmo. Um onjunto finito T de n exemplos de treino está à nossa disposição para adaptar os pesos durante a fase de treinamento da rede. Uma distinção prinipal em relação ao paradigma de aprendizagem que é válido para todo tipo de sistemas om apaidade de adaptação é aprendizagem supervisionada e aprendizagem não-supervisionada. II.3.1 Aprendizagem supervisionada Na aprendizagem supervisionada ada exemplo de treino está aompanhado por um valor que é o valor desejado. Isso signifia que o onjunto de treino T está omposto por n pares de n exemplos ( x p, y p ) onde T = {( x p, y p )} p = 1. A dimensão do vetor de entrada é, i.e. as variáveis de entrada estão agrupadas em um valor multidimensional (vetor de oluna), normalmente do domínio dos números reais: x = ( x 1,, x j,, x ) T, x j R. (A transposição (.) T é usada para eonomizar espaço esrevendo um vetor em uma linha). As variáveis de saída estão agrupadas em um vetor de saída y = ( y1,, yi,, y ) T. w ij y * * * * * * ( x 1, y 1 ) ( x n, y n ) * y = w 0 + w 1 x x Figura 5 - Regressão linear Um exemplo de uma tarefa de aprendizagem supervisionada é a regressão linear. Usamos o aso unidimensional para failitar a ilustração, veja Figura 5. Nesse problema o onjunto de treino onsiste em pares de números reais ( x p, y p ). O objetivo da aprendizagem é a determinação de oefiientes w 0 e w 1 da reta y = w 0 + w 1 x. O algoritmo de aprendizagem

tenta minimizar a disrepânia entre o valor desejado e o valor que é a resposta y' = w 0 + w 1 x p do sistema, e isso em média para ada exemplo ( x p, y p ). II.3.2 Aprendizagem não-supervisionada Quando a únia informação disponível são os valores ( ) a tarefa de aprendizagem é desobrir orrelações entre os exemplos de treino ou lasses não está definido a priori. Isso signifia que a rede tem que ahar atributos estatístios relevantes, ela tem que desenvolver uma representação própria dos estímulos que entram na rede. Um sinônimo para aprendizagem não-supervisionada é aglomeração ( lustering ). Um exemplo da área de mediina é a deteção de doenças a partir de imagens, por exemplo imagens de raio-x. Existem várias regiões dentro da imagem que se deixam atribuir ao mesmo material, por exemplo osso. O número dos materiais (das aglomerações) não é onheido a priori. O objetivo do sistema é desobrir o número dos materiais diferentes e ao mesmo tempo ategorizar ada ponto da imagem para o respetivo material. A entrada para a rede seriam os pontos da imagem, por exemplo uma pequena janela de 5 por 5 pontos. A resposta ideal da rede seria o material a qual pertene essa região da imagem. II.4 Regras de Adaptação dos Pesos urante o proesso de aprendizagem os pesos normalmente perorrem uma modifiação iterativa. O peso entre neurônio i e neurônio j seja w ij, veja Figura 6. Na iteração l o peso w ij influenia a função alulada pela rede. O algoritmo de aprendizagem julga a qualidade do peso e eventualmente determina se o peso deve sofrer uma modifiação no seu valor de uma diferença na próxima iteração l + 1. Assim, se define a regra básia de adaptação dos pesos: w ij ( l + 1) w ij Adaptação de peso: = + (3) Costuma-se iniializar os pesos aleatoriamente. O algoritmo de aprendizagem perorre um número fixo de iteração e/ou até que uma ondição de parada seja atingida, por exemplo numa aprendizagem supervisionada a disrepânia entre o valor alulado e o valor desejado desaparee para todos os exemplos de treino. T y p x p n = {( x p )} p = 1. O número de ategorias w ij w ij Neurônio i w ii w ij w ji Neurônio j w jj Figura 6 - Pesos entre neurônios, aso geral om realimentação II.4.1 Aprendizagem pela Regra de Hebb Um dos trabalhos pioneiros nos estudos de sistemas apazes de aprender foi feito por [Hebb, 1949]. Ele riou uma hipótese de que o peso de ligação entre dois neurônios que estão ativos

aos mesmo tempo deve ser reforçado. Para o nosso modelo essa lei traduz-se para a Regra de aprendizagem de Hebb: w ij = ηy i y j (4) onde a taxa de aprendizagem η é um fator de esala positivo que determina a veloidade da aprendizagem. A definição dessa regra baseia-se em estudos biológios do érebro, mas omo já foi onstatado, a orrespondênia do modelo matemátio om a realidade biológia é somente uma idealização aproximada. A regra de Hebb define um algoritmo de adaptação dos pesos, porém sem a definição de um objetivo a atingir, por exemplo, minimizar um erro entre um valor desejado e alulado. No estudo da rede de Hopfield voltaremos à regra de Hebb e vamos provar que tem utilidade prátia. II.4.2 Aprendizagem pela Regra de elta Uma regra de adaptação dos pesos om um objetivo bem visível é a regra de delta ou regra de Widrow-Hoff [Widrow and Hoff, 1960]. A rede alula na saída (no neurônio i ) uma função y' i. Na aprendizagem supervisionada onhee-se o valor desejado y i que a rede deve alular. Assim pode-se alular o erro e i = y i y' i entre o alulado e o desejado. O peso entre o neurônio i e o neurônio j que é responsável por esse erro então deve ser modifiado proporional à ativação e ao erro, outra vez esalado por uma taxa de aprendizagem η : Regra de elta: w ij = ηe i y j = η( y i y' i )y j (5) Neste aso, o objetivo do algoritmo de aprendizagem está bem laro, nomeadamente minimizar o erro entre os valores alulados pela rede e desejados pelos exemplos forneidos num problema de aprendizagem supervisionada. II.4.3 Aprendizagem Competitiva Consideram-se as redes de neurônios onde um únio neurônio pode ser ativo ao mesmo tempo. Isso signifia que todos os outros neurônios têm uma ativação igual a zero y i = 0 para i i * e somente o venedor i * emite um sinal de ativação y * = 1. i Aprendizagem Competitiva: w ij = ηy i ( x j w ij ) (6) O efeito dessa regra é que os pesos se desloam em direção do estímulo (entrada) da rede x. Vamos onsiderar a rede de Kohonen omo exemplo de uma rede neural artifiial que usa aprendizagem ompetitiva para adaptar os pesos. II.5 Taxinomia de Redes w i Resumindo o paradigma de aprendizagem e as regras de adaptação dos pesos pode-se riar uma divisão hierárquia para os modelos de redes neurais apresentados nesse texto, veja Figura 7. Os modelos que têm uma apaidade de aprendizagem dividem-se em modelos que usam aprendizagem supervisionada e aprendizagem não supervisionada, dependendo se para ada estímulo x um sinal om a resposta desejada da rede y está disponível ou não. Pereptron, pereptron multi-amada e adaline são modelos om aprendizagem supervisionada que se baseiam no erro entre a resposta desejada e alulada da rede para adaptar os pesos. A rede de Hopfield usa a regra de Hebb para memorizar um onjunto de padrões. Na aprendizagem não

supervisionada a regra de Hebb também pode ser usada, por exemplo para estimar a densidade de probabilidade om base nos exemplos dados. Uma arquitetura de rede om um algoritmo ompetitivo é a rede topológia de Kohonen. Modelo om apaidade de aprendizagem Aprendizagem supervisionada Aprendizagem não-supervisionada Regressão, Classifiação (Regra de elta) Assoiativo (Regra de Hebb) Assoiativo (Regra de Hebb) Competitivo Pereptron Pereptron Multi-Camada Adaline Hopfield ensidade de probabilidade Kohonen Figura 7 - Classifiação estrutural e funional de redes neurais artifiiais III. REES E PROPAGAÇÃO PARA FRENTE Considera-se aprendizagem supervisionada em redes de propagação para frente que estão organizadas em amadas. No iníio das atividades de pesquisa essas redes hamaram-se pereptrons. O aso mais simples é o pereptron om uma únia amada. O domínio dos valores de saída é binário. O AALINE permite variáveis de saída om valores ontínuos. Quando existe mais que uma amada, i.e. existe uma ou mais amadas esondidas, trata-se de pereptrons multi-amada. O fluxo de informação é sempre unidireional, ao ontrário de redes om realimentação. Existem pesos (assimétrios) unidireionais entre dois neurônios que neessariamente têm que estar em amadas diferentes. III.1 Pereptron Classifiação é uma das apliações prinipais do álulo que as redes neurais são apazes de realizar. O objetivo é assoiar uma ategoria de um universo finito a um objeto. Exemplos para lassifiação são: Reonheimento automátio de arateres eteção de falhas em proessos Identifiação de pessoas por impressões digitais, voz, iris do olho iagnóstio médio O pereptron [Rosenblatt, 1958] é apaz de lassifiar entre duas lasses que linearmente são separáveis, veja Figura 8 (O modelo é extensível failmente para o aso de várias lasses). Junto om a arquitetura foi proposto um método de omo os pesos podem ser adaptados.

Também foi dada uma prova formal da onvergênia em um número finito de iterações desse algoritmo em aso da separabilidade linear. A função que o pereptron implementa é a do neurônio de MCulloh e Pitts (1), onde a função de esada Θ (.) é substituída pela função do sinal sgn( z) = 1 se z 0 e sgn( z) = 1 se z < 0. Pode-se absorver o limiar µ no álulo omo µ = w 0, introduzindo um novo valor de entrada fixo x 0 = 1 : j = 0 Regra de Classifiação do Pereptron: d( x) = sgn( w j x j ) (7) A função alulada d( x) fornee uma resposta binária de que lado está o objeto x = ( x 1, x 2 ) T, assim permitindo uma lassifiação linear entre duas lasses. x 2 * * * * * d( x) < 0 + + * Classe 1 +++ + Classe 2 + + d( x) > 0 d( x) = 0 x 1 Figura 8 - Problema de lassifiação. uas lasses são linearmente separáveis. A reta d( x) = 0 separa as duas lasses. O objetivo do algoritmo de pereptron é ahar pesos w 0, w 1 e w 2 para a definição do hiperplano separador (nesse aso a reta d( x) = w 0 + w 1 x 1 + w 2 x 2 ). A estrutura da rede então foi definida simplesmente pela equação linear de (7). Resta agora o algoritmo de adaptação dos pesos, o algoritmo de aprendizagem de pereptron. A ideia básia é uma adaptação iterativa nos moldes de (3) por um algoritmo iterativo. O algoritmo lassifia n todos os objetos de treino T = {( x p, t p )} p = 1, om x p = ( x 1 p, x 2 p ) T neste aso ilustrativo de duas dimensões pela regra (7) d( x p ). A lasse verdadeira de x p está disponível no valor de alvo t p. Se nenhum erro de lassifiação oorreu temos d( x p ) = t p. Nesse aso estamos satisfeitos om o onjunto dos pesos W = { w j } j = 1. Se d( x p ) t p oorreu um erro de lassifiação. Todos os objetos que provoaram um erro de lassifiação são usados para modifiar os pesos W para que o número de erros diminua e finalmente desapareça. efine-se uma regra simples de modifiação de pesos x p Regra de aprendizagem do pereptron (versão simples): Esolhem-se pesos aleatórios iniialmente. A regra (8) adapta os pesos em um número finito de iterações, se existe uma separação linear. O pereptron é um sistema de uma rede neural simples (nesse aso + 1 entradas, uma saída), apaz de resolver problemas lineares de lassifiação. Está equipado om um algoritmo w j = ηt p x j se d( x p ) t p e w j = 0 se d( x p ) = t p (8)

de adaptação de pesos que aprende baseado nos exemplos de treino. Obviamente a apaidade de álulo do pereptron está limitada pela separabilidade linear das lasses. Para lassifiar problemas em que as lasses se distribuem de tal maneira que seja impossível riar um hiperplano para separá-las, ténias mais sofistiadas têm que ser usadas, omo o pereptron multi-amada. III.2 AALINE Vimos no exemplo anterior do pereptron que as saídas estavam limitadas para terem valores binários. Um modelo muito pareido om o pereptron em termos de arquitetura é o AALINE [Widrow and Hoff, 1960]. A diferença porém está nas saídas ontínuas, i.e. permite-se alular valores de saída do domínio dos números reais, veja Figura 9. A função alulada é simplesmente a ombinação linear dos pesos e das entradas, ou equivalentemente o produto interno do vetor de pesos e o vetor das entradas: j = 0 Função do AALINE: d( x) = w j x j = w T x (9) Foi outra vez introduzido uma entrada om um valor onstante de 1 que failita a representação da função alulada. Camada de saída Rede Entradas d, t w x w 0 w 1 SAÍA d Σ w 2 w 3 w 4 d( x) = w j x j j = 0 1 x 1 x 2 x 3 x 4 ENTRAAS Figura 9- AALINE om 4 variáveis de entrada Outra vez o problema para resolver (a função para alular) está espeifiado nos n exemplos de treino: T n = {( x p, t p )} p = 1, ompare om o pereptron. Os graus de liberdade que existem para realizar essa aproximação de função 1 são os pesos w = ( w 0, w 1,, w ) T. O objetivo do algoritmo de aprendizagem está na busa dos pesos que exibem uma propriedade ótima em relação a função a ser alulada. 1. Se tivéssemos saídas d i e não só uma saída d, teríamos que introduzir mais um índie i para os pesos w ij, assim indiando a ligação entre entrada j e saída i. Em vez de ter um vetor de pesos w ( w 0, w 1,, w ) T T T = teríamos uma matriz de pesos W = ( w 1,, w ) T de dimensão ( + 1), om = ( w i0, w i1,, w i ) T. O vetor de funções seria W x = d( x). w i

III.2.1 O erro quadrátio mínimo Uma esolha natural para medir a qualidade da função alulada pela rede é a diferença entre o valor desejado para o exemplo e o valor alulado pela rede: x p Erro de álulo para um exemplo x p : e( x p ) = desejado( x p ) alulado( x p ) (10) O valor desejado é o valor de alvo t p. O valor alulado pela rede é d( x p ). Como o erro (10) pode ser negativo ou positivo, alula-se o quadrado para sempre ter uma diferença positiva que não se elimina, onsiderando todos os exemplos individuais do onjunto de treino T. Erro quadrátio para um exemplo x p : e 2 ( x p ) = ( t p d( x p )) 2 = ( t p w T x p ) 2 (11) x p O objetivo do algoritmo vai ser a minimização do erro, onsiderando a média de todos os exemplos (valor esperado E{ e 2 ( x p )} ). Isso permite definir o ritério a ser minimizado: n Erro quadrátio médio: EQM 1 (12) n -- 1 = e2 ( x p ) = -- t n ( p w T x) 2 p = 1 III.2.2 Solução determinístia Para esse tipo de problema linear existe uma solução explíita para obter aquele vetor de pesos w que minimize (12). Pode-se juntar todos os n exemplos de treino x p em uma únia matriz X T T de dimensão n ( + 1) : X = [ x 1,, xn ] T, om x p = ( x p1,, x p ) T. Em analogia podese juntar todos os valores de alvo t p num vetor de alvo t = ( t 1,, t n ) T de dimensão n 1. O exemplo x p deve ser mapeado pela rede para w T x p = t p. Assim pode-se formular o álulo de todos os n exemplos de treino numa únia equação de dimensão n x p n p = 1 ( n ( + 1) )(( + 1) 1) = ( n 1) de vetores e matrizes: Mapeamento de AALINE de todos os exemplos: Xw = t (13) Uma pré-multipliação de (13) pela matriz transposta X T de X resulta em X T Xw = X T t. Outra pré-multipliação pela inversa ( X T X) 1 de X T X (que sempre existe, sem prova) finalmente resulta na solução explíita do problema: Solução determinístia do AALINE: w = ( X T X) 1 X T t (14) onde a matriz X = ( X T X) 1 X T é denominada omo Pseudoinversa de X. III.2.3 Solução iterativa: esida de Gradiente Aabamos de ver que existe uma solução direta para alular o onjunto de pesos que

minimiza o ritério de qualidade do mapeamento da rede. Esse solução deve-se prinipalmente à natureza linear do problema, possibilitando assim a solução por álgebra linear. Em aso de redes que realizam um mapeamento não-linear, omo no aso do pereptron multi-amada om função de ativação sigmoidal, essa solução determinístia já não pode ser enontrada. Temos que empregar ténias de otimização de problemas sem restrições. Analisaremos omo aso exemplar a ténia da desida de gradiente. Em primeiro lugar apresenta-se esse método para o aso linear do AALINE. Como vamos ver no aso do pereptron multi-amada a desida de gradiente onstitui o veíulo para o onheido algoritmo de retropropagação de erro. Figura 10 mostra a idéia prinipal da ténia da desida de gradiente. O erro quadrátio médio EQM é uma função dos pesos da rede EQM( w) = f ( w) (para fins de ilustração usa-se só um únio peso w ). Essa função em geral não é onheida para quem está prourando os pesos ótimos (se fosse onheida existia uma solução determinístia). O objetivo geral é enontrar o peso w min que minimize o erro EQM (12), i.e. que faz a rede aproximar da melhor maneira possível o mapeamento entre todos os n exemplos x p para os valores de alvo t p. Tenta-se hegar iterativamente ao mínimo global w min. A únia informação que é onheida na iteração l é o valor do erro EQM( w ) = E( w ) para o peso w atual. Supõe-se que a função do erro seja derivável em todo o domínio. Isso signifia que o gradiente da função de erro E = de( w) dw existe (no aso de um peso: E' ( w) = de dw ). EQM( w) E( w) --------------- Gradiente w Gradiente E( w) η--------------- negativo ponderado w η Taxa de aprendizagem w min w w ( l + 1) w Figura 10- esida de Gradiente. Considera-se um únio peso w =. O gradiente é um vetor. Ele aponta na direção do resimento da função E. Consequentemente o gradiente negativo aponta na direção de deresimento da função E. A tentativa para hegar no mínimo da função então é a modifiação do peso na iteração l para a iteração l + 1 na direção do gradiente negativo E (da desida do gradiente). Para ontrolar a veloidade da w w ( l + 1) modifiação do peso de para usa-se um fator de esala, a taxa de aprendizagem η. Temos então no espírito da ténia da adaptação dos pesos (3) uma regra de omo vamos prourar aquele peso que minimize o erro de mapeamento da rede: w j

Regra de adaptação de peso por desida de gradiente: Agora fia mais lara a neessidade da propriedade da função sigmoidal (2) de que ela seja ontínua e diferençiável em todo o domínio de R. Assim onsegue-se alular o gradiente para uma rede om função de mapeamento não-linear, omo ainda vamos verifiar mais tarde. Começa-se om um valor aleatório do peso na iteração. A regra de adaptação de peso é apliada um número fixo de vezes ou até que a diferença entre dois onjuntos de pesos onseutivos w ( l + 1) e w seja menor do que uma tolerânia eps. A diferença poderia por exemplo ser a distânia Eulidiana entre os dois vetores de pesos. Todos os passos estão resumidos no Algoritmo 1. Algoritmo 1: esida de Gradiente Objetivo: Aprende uma vetor de pesos ótimos que minimize a função de ustos E 0.) Número máximo de iterações: iferença mínima entre dois vetores de pesos onseutivos: eps Taxa de aprendizagem: η 1.) l = 0, w ( 0) arbitrário 2.) Repete iteração l w ( l + 1) w w = + = w η E l l max w ( 0) 0 w opt 2.1) Calule o gradiente do erro relativo aos pesos individuais w j : E j 2.2) Adapte os pesos na direção oposta ao gradiente ( l + 1) w j = w j + w j = w j η E j até ( l > ou w ( l + 1) w ( l + 1) = ( w j w j ) 2 < eps ) l max j = 0 ( ) E w ( l ) = j (15) Problemas om o algoritmo são a esolha da taxa de aprendizagem η e a oorrênia de mínimos loais. Se η for esolhida muito pequena a aprendizagem poderia fiar lenta, se for esolhida grande demais poderiam surgir osilações do erro om uma divergênia dos pesos, i.e. os pesos não param de reser. Mínimos loais são loais na função de erro onde o gradiente desaparee, portanto já não há uma modifiação dos pesos. Assim o algoritmo pode parar num onjunto de pesos que não orresponde ao mínimo global da função de erro o que seria desejável. Resta definir a própria função de erro. Temos duas possibilidades de omo modifiar os pesos: 1.) epois da apresentação de ada exemplo x p, i.e. E = E( x p ) = e 2 ( x p ) (aprendizagem estoástia, apresentação dos exemplos em ordem aleatória). Neste aso alula-se o gradiente relativo ao peso individual omo: w j E j = E w j = ( e 2 ( x p )) w j = 2e( x p )( e( x p ) w j ) j = 0 = 2e( x p )( ( t p w j x pj ) w j ) = 2e( x p )x pj

2.) epois da apresentação de todos os exemplos x p, i.e. E = e 2 ( x p ) (aprendizagem bath ). Neste aso alula-se o gradiente relativo ao peso individual omo: E j n p = 1 = E w j = 2 e( x p )x pj o que resulta nas regras de atualização de pesos (15) (absorvendo o termo onstante 2 na taxa de aprendizagem η ): ( l + 1) w j w j 1.) = + ηe( x p )x pj, para j = 0,, ( l + 1) w j w j n p = 1 2.) = + η e( x p )x pj, para j = 0,, A regra de adaptação de pesos apresentada aima hama-se regra de delta, regra de adaline, regra de Widrow-Hoff [Widrow and Hoff, 1960] ou regra da média dos quadrados mínimos (LMS, least mean square rule), veja também [Hertz et al., 1991]. III.3 Pereptron Multi-Camada e Retropropagação de Erro n p = 1 w j O estudo dos modelos do pereptron e do AALINE trouxe-nos onheimento sobre a natureza das funções aluladas pela rede neural artifiial e os métodos de adaptação de pesos. Uma limitação natural desse tipo de rede é a linearidade das funções aluladas. Como já foi referido anteriormente a inapaidade do pereptron de alular a lassifiação dos dois resultados da função do Ou exlusivo (XOR) ( f ( 0, 0) = f ( 1, 1) = 0, f ( 0, 1) = f ( 1, 0) = 1 ) na Figura 11 levou a um erto desinteresse por parte da omunidade ientífia, devido espeialmente a publiação de Pereptrons [Minsky and Papert, 1969]. x 2 1 + * * Classe 1 + Classe 2 * + 0 1 x 1 Figura 11- O problema XOR. Não existe uma separação linear entre as duas lasses. Era onheido que a introdução de mais amadas no pereptron poderia resolver o problema de XOR. O que não se onheia era um método para adaptar os pesos, espeialmente em problemas de regressão e lassifiação de maior omplexidade. [Rumelhart et al., 1986] popularizaram o algoritmo de retropropagação de erro. Apresenta-se em seguida o pereptron om uma amada esondida e várias saídas, treinado pela retropropagação de erro. III.3.1 Arquitetura Qualquer pereptron om pelo menos uma amada esondida (nem entrada, nem saída) é um pereptron multi-amada. Consideramos aqui o aso de uma únia amada esondida. A generalização para mais que uma amada esondida é direta e a teoria aplia-se sem alteração,

veja a literatura. Um neurônio reebe várias entradas da amada anterior e alula uma ombinação linear (9) dessas variáveis. O resultado da ombinação linear passa pela função de ativação, neste aso novamente a função sigmoidal (2). Usamos mais que uma saída. Isso signifia que a saída é um vetor d = ( d 1,, d ) T de funções individuais d i aluladas. Assim a rede realiza um mapeamento de um vetor multidimensional x para outro vetor multidimensional d, i.e. a rede alula d( x) om d( x) = ( d 1 ( x 1,, x ),, d ( x 1,, x )). A amada esondida tem um número H de neurônios. Usa-se eventualmente outra vez uma entrada onstante de 1 também na amada esondida. Um peso entre a variável de entrada x j e o neurônio om índie h na amada esondida hama-se w hj. Todos os pesos w hj podem ser juntados na matriz de pesos entrada-esondida. Em analogia, existe um peso que liga o neurônio om índie h na amada esondida om a saída d i. Todos os w ih formam a W i matriz. W h w ih Camada de saída d, t Camada esondida(s) h Rede W = W i, W h SAÍAS d i ( x) = g w ih g w hj x j d 1 d 2 d 3 h = 0 j = 0 g i Σ Σ Σ Σ i 1 Σ Σ w ih g h Σ h w hj H g( z) 1 = --------------- 1 + e z Entradas x 1 x 1 x 2 x 3 x 4 ENTRAAS Figura 12- Pereptron multi-amada om uma amada esondida. Quatro variáveis de entrada, três variáveis de saída. Função de ativação sigmoidal. O mapeamento realizado para uma função de saída é: d i H h = 0 j = 0 Função do pereptron multi-amada: d i ( x) = g( w ih g( w hj x j )) (16) A função (16) onstitui um instrumento poderoso de realizar álulos não lineares em muitas áreas de apliação. Pode-se usar (16) para lassifiação de lasses que não são linearmente separáveis, omo no aso do XOR. Também para problemas de regressão o pereptron multiamada é muito útil, por exemplo para realizar previsões. A área de ontrole automátio e a identifiação de plantas é outro exemplo.

Uma das grandes vantagens dessa ténia é que o pereptron multi-amada é um aproximador universal de funções. Isso signifia que desde que os pesos sejam bem adaptados e a rede dispõe um número sufiiente de neurônios esondidos, o álulo desejado é atingido. III.3.2 Adaptação dos pesos Em analogia ao AALINE tenta-se aprender os pesos da rede baseado numa função de erro entre o mapeamento realizado e desejado. Usa-se outra vez a ténia de desida de gradiente do Algoritmo 1. Temos que reformular o erro quadrátio (10) porque aumentamos o número de saídas d i para. A diferença entre os valores desejados para o exemplo x p e os valores alulados pela rede (10) agora virou diferença entre dois vetores. Os valores desejados é o vetor de alvo = ( t p1,, t p ) T. O valor alulado pela rede é o vetor t p d( x p ) = ( d 1 ( x p ),, d ( x p )) T. A esolha omum para a diferença entre o desejado e o alulado pela rede é a distânia Eulidiana 1 quadrátia entre os dois vetores: Erro quadrátio para um exemplo x p : e 2 2 ( x p ) = t p d( x p ) = ( t pi d i ( x p )) 2 (17) Finalmente o valor esperado do erro quadrátio E{ e 2 ( x p )} pode ser estimado pela média dos erros quadrátios de todos os exemplos do onjunto de treino T. Erro quadrátio médio: EQM 1 (18) n -- 1 = e2 ( x p ) = -- t n ( pi d i ( x p )) 2 p = 1 Utilizamos outra vez a filosofia da desida de gradiente (15) e o Algoritmo 1 para adaptar os pesos. esta vez porém, temos que adaptar pesos que dependem não-linearmente do gradiente de erro. Na adaptação dos pesos da amada esondida para a amada de saída = [ ] ainda podemos usar a regra de delta. Para a adaptação dos pesos da entrada para a amada esondida = [ ] temos que usar a regra de delta generalizada. W h w hj Vamos onsiderar uniamente a aprendizagem orientada a ada exemplo. Resta então alular o gradiente em relação aos pesos da amada esondida para a amada de saída E ih = E w ih e o gradiente em relação aos pesos da entrada para a amada esondida E hj = E w hj e i = t pi d i ( x p ). Usamos as seguintes abreviações: H n n p = 1 i = 0 i = 0 d i ( x p ) = g i = g( Σ i ) = g w ih g h = g w ih g( Σ h ) = g w ih g w hj x j h = 0 H h = 0 H h = 0 x p j = 0 W i w ih 1. istânia Eulidiana entre dois vetores x = ( x 1,, x dim ) T e y = ( y 1,, y dim ) T de dimensão dim é dim x y = ( x i y i ) 2 i = 0

Camada esondida para a amada de saída: Regra de delta: E ih E w ih e 2 2 = = w ih = ( e i ) w ih onde a quantidade δ i = e i g' i = e i ( g i ( 1 g i )) foi definida omo o delta da amada de saída. ( ( t i g i ) 2 = ) w ih = ( t i g i ) 2 w ih = = 2 ( t i g i )( g i w ih ) = 2( t i g i )( g i w ih ) = 2e i g i w ih = 2e i [ g i ( 1 g i )( Σ i w ih )] = 2e i [ g i ( 1 g i )g h ] = 2δ i g h Entrada para amada esondida: Regra de delta generalizada: E hj E w hj e 2 2 = = w hj = ( e i ) w hj = ( ( t i g i ) 2 ) w hj ( t i g ) 2 w = i = 2 ( t hj i g i ) g i w hj = 2 e i ( g( Σ i ) w hj ) = 2 e i g i ( 1 g i )( Σ i w hj ) H h = 0 = 2 e i g i ( 1 g i )[ ( w ih g h ) w hj ] H h = 0 = 2 e i g i ( 1 g i )[( w ih g h ) w hj ] = 2 e i g i ( 1 g i )[ g h ( 1 g h )( Σ h w hj )] = 2 e i g i ( 1 g i )[ w ih g h ( 1 g h )x j ] = 2g h ( 1 g h ) e i g i ( 1 g i )w ih x j = 2δ h x j onde a quantidade δ h = g' h δ i x j foi definida omo o delta da amada esondida. Fia lara que os deltas da amadas anteriores são propagadas para trás, assim justifiando o nome retropropagação de erro (error bakpropagation). A rede neural artifiial do pereptron multi-amada é um instrumento poderoso de realizar aproximações universais de funções a partir de um onjunto de dados de treino. Existem muitos ampos de apliação que permitem mapear o problema para uma rede e adaptar os pesos pelos dados de treino espeifiados. Uma desvantagem do pereptron multi-amada é o tempo de treino extenso. Em um problema omplexo pode-se levar várias semanas até se obter um onjunto de pesos adequados. A esolha da taxa de aprendizagem desempenha também um papel fundamental. Como já foi dito existe a possibilidade de que a função de erro fique presa em um mínimo loal. Existem heurístias para tentar resolver esse problema (fora do âmbito desse texto). Paralisia do treino é um fenômeno que aontee quando a magnitude dos pesos é grande. A derivada da função sigmoidal (2) fia muito pequena nesse aso, o que ausa que a modifiação dos pesos pratiamente desaparee.