Departamento de Computação, Universidade Federal de São Carlos 13565-905 - São Carlos - SP E-mails: frankhelbert@yahoo.com.br, firedo@dc.ufscar.



Documentos relacionados
PARTE IV COORDENADAS POLARES

Movimentos de satélites geoestacionários: características e aplicações destes satélites

Unidade 13 Noções de Matemática Financeira. Taxas equivalentes Descontos simples e compostos Desconto racional ou real Desconto comercial ou bancário

- B - - Esse ponto fica à esquerda das cargas nos esquemas a) I e II b) I e III c) I e IV d) II e III e) III e IV. b. F. a. F

Interbits SuperPro Web

GEOMETRIA ESPACIAL. a) Encher a leiteira até a metade, pois ela tem um volume 20 vezes maior que o volume do copo.

Informação Geográfica em Engenharia Civil

EXPERIÊNCIA 5 - RESPOSTA EM FREQUENCIA EM UM CIRCUITO RLC - RESSONÂNCIA

Fenômenos de Transporte I. Aula 10. Prof. Dr. Gilberto Garcia Cortez

DETERMINAÇÃO DE ROTAS PARA EMPRESAS DE ENTREGA EXPRESSA

Relatório Interno. Método de Calibração de Câmaras Proposto por Zhang

De Kepler a Newton. (através da algebra geométrica) 2008 DEEC IST Prof. Carlos R. Paiva

PRINCÍPIOS DA DINÂMICA LEIS DE NEWTON

3. Elementos de Sistemas Elétricos de Potência

Física Geral I - F 128 Aula 8: Energia Potencial e Conservação de Energia. 2 o Semestre 2012

Objetivo Estudo do efeito de sistemas de forças não concorrentes.

Análise de Correlação e medidas de associação

No interior do horizonte de um buraco negro de Schwarzschild

DESENVOLVIMENTO DE APLICATIVO PARA MONITORAMENTO EM LINHA E CONTROLE DE REATORES DE POLIMERIZAÇÃO

ESTRATÉGIA DE CONTROLE PARA ACIONAMENTO A VELOCIDADE VARIÁVEL PARA MOTORES MONOFÁSICOS COM OPERAÇÃO OTIMIZADA

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueado

Vedação. Fig.1 Estrutura do comando linear modelo ST

ARITMÉTICA DE PONTO FLUTUANTE/ERROS EM OPERAÇÕES NUMÉRICAS

Fig Essas linhas partem do pólo norte para o pólo sul na parte externa do material, e do pólo sul para o pólo norte na região do material.

Módulo 5: Conteúdo programático Eq da continuidade em Regime Permanente. Escoamento dos Fluidos - Equações Fundamentais

4 Modelo para Extração de Regras Fuzzy a partir de Máquinas de Vetores Suporte FREx_SVM 4.1 Introdução

Rotor bobinado: estrutura semelhante ao enrolamento de estator. Rotor em gaiola de esquilo

Simulador de Transmissões Digitais

CONTROLE PREDITIVO EPSAC APLICADO AO RASTREAMENTO DE TRAJETÓRIA DE ROBÔS MÓVEIS

DESENVOLVIMENTO E APLICAÇÃO DE GERADOR DE INDUÇÃO TRIFÁSICO CONECTADO ASSINCRONAMENTE À REDE MONOFÁSICA

SEGUNDA LEI DE NEWTON PARA FORÇA GRAVITACIONAL, PESO E NORMAL

2.6 RETRODISPERSÃO DE RUTHERFORD Introdução

Equações Básicas na Forma Integral - I. Prof. M. Sc. Lúcio P. Patrocínio

Caro cursista, Todas as dúvidas deste curso podem ser esclarecidas através do nosso plantão de atendimento ao cursista.

CAMPOS MAGNETOSTÁTICOS PRODUZIDOS POR CORRENTE ELÉTRICA

RESOLUÇÃO DA AVALIAÇÃO DE MATEMÁTICA 2 o ANO DO ENSINO MÉDIO DATA: 10/08/13 PROFESSOR: MALTEZ

ELETRÔNICA II. Engenharia Elétrica Campus Pelotas. Revisão Modelo CA dos transistores BJT e MOSFET

Termodinâmica 1 - FMT 159 Noturno, segundo semestre de 2009

Capítulo 12. Gravitação. Recursos com copyright incluídos nesta apresentação:

)25d$0$*1e7,&$62%5( &21'8725(6

Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Engenharia Mecânica. Projeto Final de Graduação

a ± g Polícia Rodoviária Federal Física Aula 2 de 5 Prof. Dirceu Pereira MOVIMENTO VERTICAL NO VÁCUO

Professor: Newton Sure Soeiro, Dr. Eng.

Aplicação da Lei Gauss: Algumas distribuições simétricas de cargas

Ivan Correr (UNIMEP) Ronaldo de Oliveira Martins (UNIMEP) Milton Vieira Junior (UNIMEP)

O Paradoxo de Bertrand para um Experimento Probabilístico Geométrico

MODELAGEM MARKOVIANA DA ALOCAÇÃO DE RECURSOS EM REDES MÓVEIS CELULARES HIERÁRQUICAS GSM/GPRS

CONCURSO DE ADMISSÃO AO CURSO DE GRADUAÇÃO FÍSICA

Prof. Dirceu Pereira

Antenas. Antena = transição entre propagação guiada (circuitos) e propagação não-guiada (espaço). Antena Isotrópica

APÊNDICE. Revisão de Trigonometria

física eletrodinâmica GERADORES

= (1) ρ (2) f v densidade volumétrica de forças (N/m 3 ) ρ densidade volumétrica de carga (C/m 3 )

TRIBUNAL DE CONTAS DA UNIÃO. Índice:

Sejam todos bem-vindos! Física II. Prof. Dr. Cesar Vanderlei Deimling

FÍSICA 3 Fontes de Campo Magnético. Prof. Alexandre A. P. Pohl, DAELN, Câmpus Curitiba

Questão 1. Questão 2. Questão 3. alternativa C. alternativa E

I~~~~~~~~~~~~~~-~-~ krrrrrrrrrrrrrrrrrr. \fy --~--.. Ação de Flexão

Capítulo III Lei de Gauss

LISTA de GRAVITAÇÃO PROFESSOR ANDRÉ

SISTEMA COMPUTACIONAL PARA O MONITORAMENTO E CONTROLE EM TEMPO REAL DE REDES DE ESCOAMENTO

EM423A Resistência dos Materiais

Renato Frade Eliane Scheid Gazire

digitar cuidados computador internet contas Assistir vídeos. Digitar trabalhos escolares. Brincar com jogos. Entre outras... ATIVIDADES - CAPÍTULO 1

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueador Sênior

3 - DESCRIÇÃO DO ELEVADOR. Abaixo apresentamos o diagrama esquemático de um elevador (obtido no site da Atlas Schindler).

Dimensionamento de uma placa de orifício

1 - Nome do projeto ou do programa de responsabilidade social: Programa SOS na Escola

IV SEMEAD TÍTULO SINTÉTICO REPRESENTATIVO DE UM FUNDO DE INVESTIMENTOS. José Roberto Securato 1 RESUMO

Análise do Perfil de Temperaturas no Gás de Exaustão de um Motor pelo Método das Diferenças Finitas

ANÁLISE DA FIABILIDADE DA REDE DE TRANSPORTE E DISTRIBUIÇÃO

Os Fundamentos da Física

Transformador de Corrente com Núcleo Toroidal de Liga Nanocristalina

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueado

Consideremos um ponto P, pertencente a um espaço rígido em movimento, S 2.

Resistência dos Materiais IV Lista de Exercícios Capítulo 2 Critérios de Resistência

Dinâmica Trabalho e Energia

LISTA COMPLETA PROVA 03

TEORIA DA GRAVITAÇÃO UNIVERSAL

3. Estática dos Corpos Rígidos. Sistemas de vectores

Escola Secundária com 3º Ciclo do E. B. de Pinhal Novo Física e Química A 10ºAno MEDIÇÃO EM QUÍMICA

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueador Sênior

Conversor CC-CC Bidirecional Buck-Boost Atuando como Controlador de Carga de Baterias em um Sistema Fotovoltaico

Engenharia Electrotécnica e de Computadores Exercícios de Electromagnetismo Ficha 1

Densidade de Fluxo Elétrico. Prof Daniel Silveira

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Fornecedor

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueado

Variable Speed Wind Turbine Modeling Using ATPDraw

2. Projetos de Investimento como Opções Reais

DISCIPLINA ELETRICIDADE E MAGNETISMO LEI DE AMPÈRE

GERÊNCIA DE TECNOLOGIA DA INFORMAÇÃO

5. Análise de Curtos-Circuitos ou Faltas. 5.2 Componentes Simétricos (ou Simétricas)

Suporte à Execução. Compiladores. Procedimentos. Árvores de Ativação. Exemplo: o Quicksort. Procedimentos em ação (ativação)

a) A energia potencial em função da posição pode ser representada graficamente como

Experimento 2 Espectro de potência e banda essencial de um sinal. Exercício preliminar. o gráfico de X(f).

FORÇA ENTRE CARGAS ELÉTRICAS E O CAMPO ELETROSTÁTICO

PRÊMIO ABF-AFRAS DESTAQUE RESPONSABILIDADE SOCIAL 2011 Categoria Franqueado

A Disposição a Pagar pelo Uso da Água na Bacia Hidrográfica do Rio Pardinho

Transcrição:

APRENDIZAGEM POR REFORÇO EM REDES NEURAIS MULTICAMADAS APLICADAS EM CONTROLE AUTÔNOMO FRANK BORSATO E MAURÍCIO FIGUEIREDO Depatamento de Computação, Uniesidade Fedeal de São Calos 13565-905 - São Calos - SP E-mails: fankhelbet@yahoo.com.b, fiedo@dc.ufsca.b Abstact A neual system is descibed. It is potentially capable fo autonomous contol applications. Psychology and Neuophysiology ae funish bes fo the system design. The achitectue consists of thee neual modules: bic behaio geneation, leaning management and input-output mapping. Leaning is bed on the conditioning theoy. Synaptic weight adjustment is possible fo intenal layes (input-output mapping netwok). An autonomous contol application is adopted to appaise the capabilities of the system. Simulation esults confim the good expectations: knowledge acquisition fom enionment inteactions. Keywods autonomous intelligent systems, unsupeised neual netwoks, einfocement leaning, autonomous contol. Resumo Descee-se um sistema neual potencialmente hábil paa aplicações sociad a contole autônomo. Recusos da Psicologia do Compotamento e da Neuofisiologia estabelecem bes da concepção do sistema. A aquitetua consiste de tês epetóios neuais: geação de compotamentos básicos, geenciamento de apendizagem e mapeamento entada-saída. A apendizagem está beada na teoia do condicionamento e pemite o ajuste dos pesos sinápticos em qualque camada (ede de mapeamento entada-saída). As caacteístic do sistema são apeciad quando aplicado a um poblema de contole autônomo. Resultados de simulação confimam a capacidade de aquisição de conhecimento a pati da inteação com o ambiente. Pala-chae sistem autônomos inteligentes, edes neuais não-supeisionad, apendizagem po efoço, contole autônomo. 1 Intodução Redes neuais compõem uma d mais catiantes áe da Inteligência Computacional [1]. Diesos pectos podem explica seu fote apelo, muito cetamente pela sociação com intigantes caacteístic da conta-pate biológica, e.g., pocessamento paalelo. Esfoços têm sido conduzidos no sentido de alcança supote teóico paa pojetos de alta complexidade. Neste sentido algum popost ão muito além dos modelos tadicionais, ente out: modelagem de código tempoal em edes pulsad [2], pocessamento paalelo em modelos dinâmicos que não obedecem às condições de unicidade [3] e; dinâmic caótic [4] e auto-ealimentação em modelos de neuônios [5] isando alcança caacteístic aançad de memóia. Paticulamente, no contexto dos sistem autônomos inteligentes, inestigações com be na teoia do Condicionamento e na Neuofisiologia são de fote inteesse [6] [7] [8]. Não sem motio a estatégia de apendizagem po efoço tem despetado atenção. Entendendo que a autonomia se efee à capacidade de aquisição de habilidades cogniti sem inteenção extena, obsee-se que apendizagem supeisionada e apendizagem autooganizada ( altenati possíeis) não são conenientes paa uma clse ampla de aplicações, a sabe, contole autônomo (e.g., naegação autônoma de obôs [9]). No co da apendizagem supeisionada a dissonância poém da ausência de modelos cognitios (eentualmente, até pelo fato do ambiente se desconhecido), fato cítico e essencial paa a estatégia. A segunda altenatia, muito emboa pescindindo de modelos cognitios, é iniáel po não estabelece um mapeamento entada-saída (fundamental paa aplicações em contole). Apesa da eleância eidente sociada à apendizagem po efoço, a estatégia não se enconta plenamente ajustada às edes neuais [10, 11, 12, 13]. Felizmente a Psicologia do Compotamento e a Neuofisiologia possibilitam indícios impotantes paa o seu desenolimento. Este atigo descee uma noa clse de edes neuais, esultante da exploação de tais áe, tendo como objetio a concepção de sistem autônomos inteligentes, ou seja, edes neuais capazes de apende a pati de sua inteação com o ambiente em que atua. A fe de concepção também tee como oientação o objetio específico de tona a ede esátil, ou seja, capaz de aplicações distint sem fotes exigênci de alteações na aquitetua e apendizagem, necessitando de um mínimo de conhecimento a pioi. Os neuônios são topologicamente aanjados em camad. A estatégia de apendizagem segue os pincípios da apendizagem po efoço clássica (beada na Psicologia do Compotamento). Modelos da Neuofisiologia são adotados paa compo uma estutua que supote os mecanismos de ajuste sináptico, incluindo neuomolécul, seus atibutos e pocessos de dispesão. Um modelo dinâmico de neuônio é definido segundo difeentes modos de opeação, dependentes de clses de estímulos e aloes de paâmetos. Resultados de simulação confimam, de um lado, a epodução de compotamentos bem descitos pela Psicologia, no contexto do condicionamento opeante; de outo, expectati sociad à autonomia cognitia, ou seja, o sistema demonsta potencialidades paa aplicações em contole autônomo. O estante do atigo está oganizado confome segue. A Seção 2 ofeece um texto básico diecionado paa a apendizagem po efoço e su bes biológic. A Seção 3 descee a aquitetua e apendizagem do sistema. Resultados de expeimentos acompanhados de bees análises são encontados na Seção 4. A última seção dedica-se às conclusões e futu popost de pesquisa.

2.1 Intodução 2 Apendizagem po Refoço Du clses de estatégi de apendizagem têm sido bem descit no contexto da teoia de edes neuais: nãosupeisionad e supeisionad. Apendizagem po efoço pode se consideada um co especial de apendizagem não-supeisionada, pois tona o sistema capaz de adquii conhecimento sem apoio exteno (que disponibilize um conjunto de paes entadaída). A apendizagem se faz a pati de seleção de altenati. Cada esposta da ede é imediata ou emotamente sociada a um alo de desempenho (sociação não exigente de auxílio exteno). O acúmulo de expeiênci acaba po gea um conjunto de altenati mais adequad às expectati. Assim, sistem inteligentes podem adquii conhecimento exclusiamente a pati de sua inteação com o ambiente. Esta capacidade é essencial quando não há fonte de conhecimento disponíel (inclusie, modelos cognitios), e.g. exploação espacial ou submaina. Já, estatégi supeisionada e auto-oganizada não são, isolad, adequad nestes cos. 2.2 Condicionamento Opeante A apendizagem po efoço apesenta atualmente du abodagens distint: modena e clássica. A pimeia está sociada a poblem de contole ótimo, com soluções obtid ia mecanismos similaes à pogamação dinâmica [11]. A apendizagem clássica estinge-se, de uma foma geal, a modelos beados na Psicologia do Compotamento, explicando a apendizagem de sistem biológicos ia pocessos de condicionamento. A teoia do condicionamento é beada no compotamento animal. Seus pincípios são bem conhecidos e eificados a pati de expeimentos contolados. D du clses de condicionamento, a sabe, opeante e espondente, somente a pimeia é de inteesse no tabalho. O condicionamento opeante pode se pimeiamente explicado pela Lei do Efeito: a sociação ente estímulo e esposta é afetada pela conseqüência geada pelo compotamento [14]. De um lado o mecanismo eque um estímulo (efoçado) sociado a algum alo (e.g., hedonístico, no co de sistem biológicos). De outo, eque uma esposta (efoçada) que é a ação que poduz o efoçado. O condicionamento é totalmente oluntáio, sendo possíel somente se a esposta efoçada é emitida. Antes de o sistema inicia o condicionamento paa um efoçado específico, enconta-se em níel opeante. O níel opeante é impotante tanto paa a medida da apendizagem (pemitindo compaações com a feqüência d espost após o condicionamento) quanto paa a modelagem do sistema em si (eja seções seguintes). 2.3 Refoçadoes de Alta Odem Refoçadoes podem se de dois tipos: adquiidos ou inatos. Antes de qualque pocesso de apendizagem, somente efoçadoes inatos são identificados pelo sistema neoso (podem elicia espost bem definid). Refoçadoes adquiidos são fomados ao longo do pocesso de apendizagem. Um estímulo peliminamente neuto adquie a caacteística de efoçado; especificamente, efoçado adquiido; se se tona sociado a um efoçado inato. Tal sociação ocoe se o estímulo neuto elicia uma esposta (esposta condicionada) que po sua ez gea o efoçado inato. Refoçadoes adquiidos também podem se fomados a pati da sociação ente um estímulo neuto e um outo efoçado adquiido. Neste co, o efoçado adquiido é de segunda odem. Assim, de foma idêntica, efoçadoes de odem supeio podem se definidos, sempe po conta da sociação com um efoçado adquiido. No pocesso de fomação de efoçadoes adquiidos de segunda odem ou de odem supeio, sempe o estímulo neuto é seguido da emissão consecutia de efoçadoes adquiidos, culminando com a emissão do efoçado inato. 2.4 Mecanismos biológicos Du áe do sistema neoso humano são impotantes na modelagem do sistema neual: cotex fontal de sociação (FAC) e áea tegmental ental (VTA). Tais áe são pate do supote biológico ao pocesso de condicionamento. A FAC socia estímulos a espost. Antes da apendizagem, sociações cuais são deid a fac conexões inat ente neuônios. A apendizagem tem como efeito biológico o fotalecimento de conexões coespondentes aos compotamentos efoçados [5]. Entetanto a áea FAC não é capaz de geencia o fotalecimento de su sinapses neste pocesso. Esta capacidade é atibuída à áea VTA, que de foma difusa pojeta conexões sobe a FAC. Tais conexões despendem neuomoduladoes dopamina esponsáeis pela consolidação de conexões ente neuônios [15]. 3 A ede neual A ede neual poposta epoduz qualitatiamente algum d estutu biológic sociad ao condicionamento e identificad pela Neuofisiologia [16]. O modelo consiste de tês epetóios neuais: ede de condicionamento ou ede de mapeamento entada-saída (CN), ede de compotamentos básicos (IBN) e ede de egulação (RN); sendo o pimeio coespondente à FAC e os demais à VTA (Figua1). 3.1 Rede de Condicionamento (CN) Camad de neuônios topologicamente aanjados em toóide compõem a estutua básica da ede de condicionamento. A pimeia camada (camada de entada) ecebe estímulos do ambiente, enquanto a última camada (camada de saída) define espost coespondentes a ações aplicad sobe o ambiente. As demais camad, inten, estabelecem sociações ente estímulos e espost, compondo um mapeamento entada-saída. Os neuônios estabelecem tês tipos de sinapses: excitatói intecamad, excitatói intacamad e inibitói intacamad. As excitatói intecamad

conectam neuônios de camad sucessi, de foma que cada neuônio pé-sináptico estabelece conexões segundo uma distibuição Gaussiana com média na mesma posição elatia do neuônio pé-sináptico. As sinapses intacamad também seguem a mesma estatégia de distibuição Gaussiana; m, paa sinapses inibitói, conexões são efeti apen paa neuônios distantes (neste co conexões definem uma áea em foma de cooa cicula). sinapses inat camada de entada sinapses de aquisição estímulo (entad) epetóio de geenciamento de efoço ede de compotamentos básicos ede de egulação sinapses dopaminégic camad inten ede de condicionamento ambiente sinapses inat sinapses egulado Figua 1: Diagama de blocos da ede neual. camada de saída espost (saíd) 3.2 Repetóio de geenciamento de efoço (RMR) As edes de compotamentos básicos (IBN) e de egulação (RN) compõem o epetóio de geenciamento de efoço. A ede IBN gea espost inat (não-condicionad, imutáeis), apen eliciad po estímulos paticulaes bem definidos (efoçadoes inatos). A ede RN contola a difusão do neuomodulado dopamina sobe a ede CN. Os epetóios CN e RMR inteagem de acodo com quato tipos de sinapses, clsificad segundo su funções: inat, aquisição, egulado e dopaminégic. Estímulos chegam à ede IBN po meio d sinapses inat estabelecid com a camada de entada da ede CN. Difeentes sinapses inat possibilitam que espost da ede IBN estimulem neuônios da camada de saída da ede CN, os quais efetiamente geam a esposta que atua sobe o ambiente. Os estímulos captados pela camada de entada de CN chegam à ede RN ia sinapses de aquisição (excitatói), esponsáeis po defini efoçadoes adquiidos. Os estímulos geados na camada de saída de CN também alcançam RN ia sinapses egulado (inibitói), gaantindo que um único efoçado adquiido seja emitido a pati de uma esposta paticula de CN. Em um fluxo contáio, os sinais n sinapses dopaminégic patem de RN e estimulam CN, m sem influencia na atiação dos neuônios. Difeentemente, modelam a libeação de dopamina na ede CN, coespondendo ao ajuste dos pesos sinápticos inta e inte-camad, de acodo com a Lei de Hebb. 3.3 Raciocínio e apendizagem na ede CN Considee que a ( [0,1] seja a atiação do neuônio j de CN na iteação t. A atiidade do neuônio na camada de entada é definida tal como segue: 1.0, if E( 0; ϕ, if E( 0 e t-1 ) > 01;. (1) 0.0, co contáio; em que: E ( [0,1] é o estímulo que captuado pelo neuônio j na iteação t, e ϕ [0,1] é uma constante. N camad inten a atiidade é definida po: a' (, if j G( c, ; a ( (2) 0.0, co contáio; se a '( e G ( c,t ) são tais como definidos em seguida. Paa a '(, considee, inicialmente, que o total de estímulos excitatóios e inibitóios no neuônio j na iteação t, exc ( e inh (, espectiamente, sejam sim definidos: exc (. ; (3) i inh (. ; (4) i em que: w ( [0,1] é o peso sináptico ente os neuônios pé e pós-sinápticos i e j. Desta foma, a '( é deteminado tal como segue a: a' ( S( exc( ) + τ. S( exc( t 1))[1 S(1 exc( )] S( inh( ), se ( exc( Θ( e exc( > inh( ); κ. [1 ], 0.0, se ( exc( < Θ( e exc( > inh( ); se exc( inh( ; em que: Θ ( t ) é um númeo aleatóio Gaussiano; S(x) 1/( 1 + exp[( x + γ ) / δ ]) é a função logística; τ e κ [0, 1]; e γ eδ R. A definição de G ( c,, conjunto de neuônios ξ que estão em algum gupo de neuônios da camada c na iteação t (um gupo de neuônios consiste de neuônios espacialmente póximos que estabelecem uma atiidade colaboatia), é dada po: G( c, { ξ d( ξ, ϑ( k + ηv ( c, )) < c, k(k), k Ω( c, }; (6) em que: V ( c, + D( c,, if V ( c, + D( c, V ( c, ; V ( c, (7) V [ ( )/ ρ], ( c, + D( c,. ρ V ( c, co contáio; Ftend (, se c 1; V ( c 1,., se c > 1 e V ( c 1, ( 0.0,0.0), se c > 1 e V ( c 1, < D( c, ζ 1.0; (8) 1.0; (5)

F tend ( 2 2 [ cos( θ ( ) cos( θ ( )] + 1 [ cos( Φ( ) cos( Φ( )] [ sen( θ ( ) sen( θ ( )] + [ sen( Φ( ) sen( Φ( )] { j / â( >, j C( )} Ω( c, χ c ; (10) [ a'( m, ( 1+ d( m) )]; â ( (11) m R ( j) em que: C(c) é o conjunto dos neuônios da camada c; ξ C(c) ; R( j) é o conjunto pé-definido de neuônios póximos ao neuônio j; d ( j) é a distância Euclidiana ente os neuônios i e j; ϑ (.) etona o neuônio mais póximo do seu agumento; η 1, se â ( k,t ) < µ, co contáio η 0 ; k (k) é o eto sociado à posição do neuônio k; Φ ( t ) t. ε1 ; θ ( t ) t. ε 2 ; ζ, 1, 2, ε1 e ε 2 [0,1]; e c, χ, ρ e µ R. Em geal a atiidade da última camada também segue (2); a não se quando a ede IBN ecebe um estímulo efoçado inato. Neste co a esposta de IBN atia neuônios específicos da última camada de CN, poduzindo a esposta instintia que atua no ambiente. O ajuste dos pesos sinápticos depende d atiidades dos neuônios pé e pós-sinápticos ( i e j ) e da concentação H( de dopamina libeada sobe CN (Equação 20), tal como segue: + α H ( p( ( if H ( > 0; (12) β if H ( 0;. p( ; N (13) ( 1 l, ; (14) l em que: N sume o alo de exc ( ou de inh ( dependendo do tipo de sinapse (excitatóia ou inibitóia, espectiamente); l epesenta qualque neuônio conectado ao neuônio j; e α e β [0, 1]. 3.4 Raciocínio e apendizagem no epetóio RMR O epetóio de geenciamento de efoço consiste da ede IBN e da ede RN (Figua 1). A ede IBN gea compotamentos entada-saída não-condicionados (pédefinidos / inatos e imutáeis). Potanto não há apendizagem da ede IBN, pemanecendo fixos seus pesos sinápticos. Um único neuônio epesenta a ede RN. Sua atiidade egula a quantidade de dopamina lançada em CN. Uma composição de estímulos excitatóios e inibitóios definem o compotamento de RN. Respost são eliciad (com libeação de dopamina) po estímulos excitatóios oiginados em: IBN, se esta ede é estimulada po efoçadoes inatos; ou CN, se efoçadoes adquiidos chegam à RN ia sinapses de aquisição (Figua 1). Assim: exc ( exc ( exc ( ; (15) ibn + 1 (9) 1.0, se o estímulo é um efoçado inato; exc ibn ( (16) 0.0, co contáio; [. w ] 1, se ς ; exc ( s (17) 0, co contáio; em que: exc (, exc ibn ( e exc ( epesentam a composição de estímulos excitatóios, estímulos de IBN e estímulos de CN, espectiamente; a s é a atiidade do neuônio pé-sináptico s (na ede CN), w é o peso sináptico ente o neuônio s e o neuônio de RN; e ς R. Po outo lado, estímulos poenientes da camada de saída de CN inibem RN, tal como modelado em seguida: [ a inh ( se ε [ a ε 1.0, co (, w (, ] ; contáio; (, w (, ] 1; (18) em que: a (, é a atiidade do neuônio pé-sináptico (em CN); w (, é o peso sináptico ente o neuônio e o neuônio de RN; e ε [0, 1]. Assim, a atiidade do neuônio de RN é definida po: a ( exc ( inh ( ; (19) A quantidade H ( de dopamina lançada sobe a ede CN na iteação t é definida pela atiidade do neuônio de RN, tal como segue: H ( a (. (20) As sinapses de aquisição se conenientemente ajustad, paa efetiamente elicia espost em RN, psam a defini quais estímulos sumem o papel de efoçadoes adquiidos (Figua 1). Os espectios pesos sinápticos w de tais sinapses são definidos em (21): w w t 1) + ([1 w w se 0.0 < H ( < Φ; t 1) w co t 1)] a contáio; s. ˆ), υ t 1) a em que: υˆ e χˆ [0, 1]; e Φ R. s ˆ, χ (21) As sinapses egulado impedem que difeentes estímulos tonem-se efoçadoes adquiidos após condicionamento de um mesmo efoçado (inato ou não) [6]. Os espectios pesos sinápticos w (, são ajustados tal como segue: w (, w (, + ([1 w (, ] φa se a w (, δ w (, t 1), se a w (,, co contáio; em que: φ e δ [0, 1]; e R. (,.), (, e H( > 0; (, e H( 0;. (22)

3.5 Dinâmica conjunta CN - RMR A cada iteação a camada de entada de CN ecebe um estímulo E (, que pode petence a uma d tês clses: efoçado inato, efoçado adquiido e dissociado (estímulo não inato paa o qual não há uma esposta condicionada sociada). A dinâmica deida às inteações de CN e RMR a pati da chegada do estímulo é descita em seguida. Se E ( é um efoçado inato ou adquiido então elicia uma esposta bem definida (inata ou condicionada) estabelecida po IBN ou CN, espectiamente ( E ( chega à IBN ia sinapses ina Difeentemente, um estímulo dissociado estimula CN definindo uma dinâmica no níel opeante, ou seja, neuônios em geal apesentam atiidade eduzida a menos de momentos escsos sem qualque coeência ou coelação com o estímulo. Ainda, se E ( é um efoçado inato ou adquiido, RN é estimulada no sentido de poduzi e lança dopamina sobe CN. Se sim acontece, seguintes clses de sinapses são ajustad: inte e intacamad em CN, aquisição e egulado. Se E ( é dissociada, RN não é estimulada, potanto não há ajuste sináptico. 4 Resultados O poblema descito em seguida não é complexo m satisfaz condições necessái paa aalia potencialidades do sistema em dois pectos: geação de efoçadoes adquiidos e condicionamento de segunda odem. O poblema modela o ajuste de posição uma câmea de foma que o alo de inteesse deslize paa o cento da imagem. No expeimento simulado, cinco camad, cada qual com 20 posições po dimensão (paa um total de 400 neuônios), compõem a ede CN. Cada estímulo pode se identificado de acodo com o padão de atiidade que causa nos neuônios da camada de entada da ede CN. Somente estímulos do tipo padão são consideados significatios, ou seja, capazes de estimula a ede CN. São 25 os estímulos-padão E, z 1,, 25; cada qual fomado po 4 neuônios adjacentes atiados (paa uma iteação em cada conjunto de 16 neuônios tal como definidos na Figua 2 (que ilusta E 1 ). Assim, se E ( é um estímulo, a seguinte notação é alida: E ( E ( E( E. Φ Φ Z 2 3 4 5 ede psa a se consideada como o padão O Z que mais se apoxima da esposta. Desta foma, a notação adotada paa os estímulos é álida paa a esposta da ede O ( eliciada po E ( na iteação t. Além disso, emboa E ( possa elicia qualque esposta, nem tod são iáeis (implementáeis). Paa E Φ (, somente espost ( mais póxim de Φ O Q O (mesmo índice de ( ) são iáeis. Assim, se E Φ ( E8 então espost iáeis ( Q 2, 3, 4, 7, 8, 9, 12, 13, 14 O Q são tais que { } (Figua2). O expeimento apesentado em seguida consiste de ái po, cada qual iniciada a pati de um estímulo selecionado aleatoiamente dente os possíeis padões E Z, z 1,, 25; e finalizada co o estímulo E ( E13. Há um único efoçado (inato), emitido se O ( O13. O estímulo a cada iteação é definido tal como segue: E(, se O( não é iáel; E ( t + 1) (23) E, se O( O ( é iáel. Θ Θ Potanto os estímulos acompanham espost iáeis. A dinâmica espeada paa o expeimento pode se descita esumidamente tal como segue. Paa cada poa iniciada na iteação inicial t 0, os seguintes psos se sucedem: 1. Seleção aleatóia de E ( t 0 ) Ez ; z {1, 2,..., 25} ; 2. Apesentação de E ( ao sistema (à CN); 3. Se O ( não é iáel ou O( O13, pso 2, obseando (23) e t t + 1; co contáio, pso 4; 4. O ( O13, então E ( t + 1) E13 (efoçado); ajuste dos pesos sinápticos e enceamento da poa; 5. Retono pso 1 paa início de noa poa e t t +1 ; ou enceamento do expeimento. 0 Nos gáficos apesentados em seguida o estímulo inicial de cada poa é epesentado po um etângulo; efoços adquiidos, po tiângulos; efoços inatos, po teiscos (epesentando o fim da poa); e demais estímulos, po cículos (os estímulos são definidos na odenada). Em uma fe inicial do expeimento não se encontam seqüênci bees e bem definid de estímulo/esposta (consideando a elação definida po (23)) tal que o estímulo inicial E( t 0 ) é conduzido ao estímulo final E 13 (Figua 3). 25 E Φ 6 7 8 9 10 11 12 13 14 15 19 18 17 16 17 18 19 20 21 22 23 24 25 Figua 2: Conjunto de estímulos e espost. As espost da ede em geal não são do tipo padão (análog aos estímulos-padão). Potanto, a esposta da 14 13 12 9 8 7 1 206 Iteações 272 Figua 3: Desempenho do sistema: fe de exploação.

Em uma fe mais aançada do expeimento é possíel identifica seqüênci de estímulo/esposta que apidamente foçam o enceamento d po, e.g., E E (Figua 4). Obsea-se ainda que o 7 12 E13 peíodo de duação d po (ente teiscos consecutios) é elatiamente eduzido (paa compaações eja Figua 3). 25 19 18 17 14 13 12 9 8 7 1 1427 1493 Iteações Figua 4: Desempenho do sistema: egulaidade de compotamentos. Ao longo do expeimento, os estímulos izinhos do efoçado inato tonam-se efoçadoes adquiidos, confimados após 1400 iteações (eja Figue 5; obsee também tiângulos na Figua 4 e na Figua 3). O númeo de iteações necessái paa que o sistema encee uma poa ( E t ) conduzido a E ( ) ) é eduzido à medida ( 0 13 t que a apendizagem se pocessa (Figua 6). antes depois Figua 5: Sinapses de aquisição: antes e após apendizagem (cículos coespondem às sinapses ente RN e a pimeia camada de CN; quanto mais escuos, mais eficientes são sinapses). Iteações. 50 45 40 35 30 25 20 15 10 5 0 1 21 41 61 81 101 121 c Po Figua 6: Númeo de iteações po poa. 5 Conclusões e tabalhos futuos Autonomia cognitia pemite que sistem inteligentes ampliem seu conhecimento independentemente de auxílios extenos. O pincipal objetio deste tabalho é de apesenta um sistema com potencialidades paa sumi taef em que a autonomia é uma caacteística essencial. Psicologia do Compotamento e Neuofisiologia ofeecem bes teóic paa este desafio. O sistema coesponde a uma ede neual concebida com supote à estatégia de apendizagem po efoço. Ente out caacteístic eleantes, citam-se: aquitetua topológica e multicamada, modelo dinâmico paa o neuônio; apendizagem não supeisionada; e ajuste sináptico de camad inten. Paa sua aaliação pelimina adota-se uma aplicação sociada ao contole autônomo. Os esultados de simulação confimam expectati: o sistema é capaz de simila habilidades de contole sem qualque auxílio exteno, geando seqüênci de espost que leam o ambiente de um estado inicial (aleatóio) a um estado final desejado. O sucesso pelimina alcançado indica apen potencialidades do sistema. Aplicações pouco mais complex deixaiam o sistema ineficaz. Inestigações têm sido dedicad no sentido de amplia su caacteístic paa aplicação em naegação autônoma de obôs. Agadecimentos Fank Bosato agadece à Fundação Aaucáia pelo apoio financeio duante cuso paa titulação a Meste em Ciênci. Refeênci [1] Haykin, S.; Neual Netwoks: a compehensie foundation, Pentice Hall, New Yok, EUA, 1994. [2] Mas, W. e Bishop, C. (Eds); Pulsed Neual Netwoks; MIT Pess, Cambidge, EUA, 1999. [3] Zak, M.; Teminal attactos in neual netwoks, Neual Netwoks (2), 259-274, (1989). [4] Cook, N. e Schepe, T.; A noel chaotic neual netwok achitectue ; Poc. of the Euopean Symposium on Atificial Neual Netwoks; Bélgica, pp. 295-300, 2001. [5] Bakke, B.; Zhumatiy, V.; Guene, G. e Schmidhube, J.; A obot that einfocement-leans to identify and memoize impotant peious obseations ; Poc. of the 2003 IEEE/RSJ Int. Conf. on Intelligent Robots and Systems, 2003. [6] Donahoe, J. e Palme, D.; Leaning and Complex Behaio, Msachusetts, Simon & Schuste Inc., 1994. [7] Gluck, M. e Myes, C.; Gateway to Memoy: an intoduction to neual netwok modeling of the hippocampus and leaning, MIT Pess, Londes, 2001. [8] Edelman, G.; Neual Dawinism: the theoy of neuonal goup selection, Bic Books, EUA, 1987. [9] Antonelo, E. e Figueiedo, M.; Intelligent autonomous naigation fo mobile obots: spatial concept acquisition and object discimination ; Poc.6th IEEE Int. Symp. on Computational Intelligence in Robotics and Automation, Finlândia, 2005. [10] Millán, J.; Rapid, safe, and incemental leaning of naigation stategies, IEEE Tansactions on SMC Pat B, ol. 26, no.3, 1996. [11] Sutton, R. e Bato, A.; Reinfocement Leaning: an intoduction, MIT Pess, Cambidge (1998). [12] Cestan P.; Figueiedo, M. e Von Zuben, F.; A hieachical neuo-fuzzy appoach to autonomous naigation, in Poc. of 2002 Int. Joint Confeence on Neual Netwoks, EUA, 2002. [13] Calo, R. e Figueiedo, M.; Reinfocement leaning fo hieachical and modula neual netwok in autonomous obot naigation, in Poc. of 2003 Int. Joint Confeence on Neual Netwoks, EUA, 2003. [14] Thondike, E. e Buce, D. (Intodução), Animal Intelligence: expeimental sudies, Tansaction Publishes, 1999. [15] Donahoe, J.; Bugos, J. e Palme, D.; A slectionist apoach to infocement, J. of the Exp. Analysis of Behaio, 60, 17-40, 1993. [16] Bosato, F.; Autonomia Cognitia em Rede Neual Topológica Multicamada de Plticidade Sináptica Intacamada, dissetação de mestado, Uniesidade Estadual de Maingá, 2006.