COMPARAÇÃO DE DESEMPENHO DE ALGORITMOS DE APRENDIZADO POR REFORÇO NO DOMÍNIO DO FUTEBOL DE ROBÔS

COMPARAÇÃO DE DESEMPENHO DE ALGORITMOS DE APRENDIZADO POR REFORÇO NO DOMÍNIO DO FUTEBOL DE ROBÔS MURILO FERNANDES MARTINS, REINALDO A. C. BIANCHI Departameto de Egeharia Elétrica, Cetro Uiversitário da FEI Av. Humberto de Alecar Castelo Braco, 3972, CEP 09850-901 São Berardo do Campo, SP Brasil murilofm@yahoo.com.br, rbiachi@fei.edu.br Abstract This paper presets a compariso betwee three Reiforcemet Learig algorithms Q-learig, Q(λ)-learig ad QS-learig ad its variats HAQL, HAQ(λ) ad HAQS capable of usig heuristics to ifluece actio selectio ad speed up the learig. The experimets were doe i a simulated Robot-soccer eviromet SimuroSot that reproduces the coditios of a real MiroSot competitio league eviromet. The results obtaied show that the use of heuristics ehaces sigificatly the performace of the learig algorithms. Keywords Reiforcemet Learig, Robot-soccer, Autoomous Mobile Robotics Resumo Este artigo apreseta uma comparação etre três algoritmos de Apredizado por Reforço Q-learig, Q(λ)-learig e QS-learig e suas variates HAQL, HAQ(λ) e HAQS capazes de utilizar heurísticas para iflueciar a escolha das ações e acelerar o apredizado. Os experimetos foram feitos em um ambiete de Futebol de Robôs simulado SimuroSot que reproduz as codições de um ambiete real de competição da categoria MiroSot. Os resultados obtidos mostram que o uso de heurísticas melhora sigificativamete o desempeho dos algoritmos de apredizado. Palavras-chave Apredizado por Reforço, Futebol de Robô Robótica Móvel Autôoma 1 Itrodução Ao logo dos ao diversos algoritmos de Apredizado por Reforço (AR) foram propostos (Sutto e Barto, 1998). No etato, os algoritmos mais utilizados são aqueles que ão ecessitam de um modelo de ambiete para apreder. Detre tais algoritmos livres de modelo, destaca-se o algoritmo Q-learig (Watki 1989). Embora o Q-learig seja de fácil implemetação e teha sua covergêcia provada matematicamete por Watkis (1989), tal covergêcia é muito leta, pois apeas um par estado-ação tem seu valor atualizado a cada iteração do algoritmo. Visado aprimorar o desempeho do Q-learig, diversas abordages foram propostas para acelerar o apredizado. Este artigo apreseta uma aálise comparativa etre o algoritmo Q-learig, duas abordages propostas para melhorar seu desempeho Q(λ)-learig (Watki 1989; Peg e William 1996), que utiliza geeralizações temporais e QSlearig (Ribeiro e Szepesvári, 1996), que utiliza geeralizações espaciais e variates desses algoritmos capazes de acelerar o apredizado através do uso de heurísticas defiidas a priori para iflueciar a escolha das ações a serem executadas pelo agete HAQL (Biachi et al., 2004), HAQ(λ) e HAQS. Outra cotribuição desse trabalho é esteder o problema iicialmete abordado por Littma (1994), que propõe um ambiete de Futebol de Robôs simulado simplificado, a um ambiete simulado mais complexo, diâmico e ão-determiístico a categoria SimuroSot da FIRA (FIRA, 2007) que reproduz um ambiete real de competição da categoria Miro- Sot (FIRA, 2007). O artigo segue com a Seção 2 descrevedo os algoritmos Q-learig, Q(λ) e QS, assim como algumas peculiaridades de implemetação. A Seção 3 apreseta o método de aceleração do AR utilizado heurísticas defiidas a priori, assim como os algoritmos HAQL, HAQ(λ) e HAQS. O ambiete Simuro- Sot (FIRA, 2007) utilizado para os teste assim como as defiições dos parâmetros dos algoritmo são descritos em detalhe jutamete com os resultados obtido a Seção 4. A Seção 5 coclui o artigo e apreseta os trabalhos futuros. 2 Os Algoritmos de Apredizado por Reforço O Processo Markoviao de Decisão (PMD) (Sutto e Barto, 1998) é a formulação matemática mais utilizada para se modelar um agete de AR. Um PMD defie que as trasições de estados são idepedetes de qualquer estado aterior do ambiete ou qualquer ação ateriormete selecioada pelo agete. É composto por um espaço de estados S, um cojuto de ações A, uma fução de recompesa R: S A R que especifica a tarefa do agete e uma fução de trasição de estados T: S A Π (S), ode Π (S) represeta uma distribuição de probabilidades sob o espaço de estados. Para solucioar um PMD é ecessário computar a política π: S A que maximiza a recompesa recebida pelo agete ao logo do tempo. 2.1 O algoritmo Q-learig O Q-learig é o algoritmo de AR mais popular, miuciosamete estudado e capaz de torar simples a tarefa de um agete apreder uma política ótima quado modelado em um PMD. É defiida uma fu-

ção Q( que represeta a máxima recompesa a- cumulada ao logo do tempo, que pode ser obtida a partir do estado atual quado a ação a é selecioada. A tabela 1 apreseta o algoritmo Q-learig implemetado esse trabalho. Tabela 1. O algoritmo Q-learig Para todo estado s e toda ação a, iicialize Q( e V(s) com zero; Observe o estado atual s; Repita ifiitamete: (1) Selecioe uma ação a utilizado a regra ε Greedy; (2) Receba a recompesa imediata r; (3) Observe o ovo estado s ; (4) Compute o erro de difereças temporais TD(0) e : e' = [ r( ( s') Q( ] (5) Atualize Q( = Q( + α. e' (6) s s O estado atual é represetado por equato s é o estado futuro observado e a é a ação executada em s. Defie-se V(s)=max a Q( como sedo o valor máximo de recompesa acumulada que se pode receber estado em s. O parâmetro γ é um fator de poderação etre recompesas imediatas e recompesas futuras que varia etre 0 γ < 1. A taxa de apredizado α é um fator de poderação das atualizações dos valores Q( cuja fução é satisfazer as codições de covergêcia para uma política ótima em um ambiete ão-determiístico. Nesse trabalho, o valor de α é atualizado coforme a regra: 1 α = (1) 1 + visitas ( Sedo α o valor de α a -ésima iteração e visitas ( o úmero de vezes em que o agete passou pelo estado s e selecioou a ação a, também a eésima iteração. Etretato, caso α < 0.125, seu valor é matido em 0.125, sedo que a taxa de apredizado uca chega a zero. No Q-learig defie-se política ótima como sedo π* argmax a Q*(. Para assegurar que o a- gete explore o ambiete com o qual está iteragido, a seleção de ações segue a regra gulosa ε Greedy: arg max Q( q p π ( s) = a (2) aradom q > p Sedo q [0,1] é um valor aleatório e p (0 p 1) um parâmetro que defie a taxa de exploração/explotação do ambiete. 2.2 O algoritmo Q(λ)-learig O algoritmo Q(λ) (Watki 1989; Peg e William 1996) é uma técica que combia o Q-learig com geeralizações temporais o Método de Difereças Temporais TD(λ) (Sutto e Barto, 1998) aproveitado a experiêcia de apeas uma iteração do agete com o ambiete para atualizar valores de múltiplos pares estado-ação visitados ateriormete, represetados pelo rastro de elegibilidade (Sutto e Barto, 1998). A abordagem de Watkis (1989) reiicializa o rastro de elegibilidade sempre que uma ação é selecioada aleatoriamete pela regra ε Greedy, equato a variate de Peg e Williams (1996) ão diferecia uma ação aleatória de uma ação selecioada seguido uma política, ão reiicializado o rastro de elegibilidade. Como coseqüêcia, para uma política fixa ão gulosa, a fução Q do algoritmo Q(λ) de Peg e Williams (1996) ão coverge em para Q π, tampouco para Q*, mas para algo híbrido etre as duas. No etato, Sutto e Barto (1998) afirmam que, para uma política que se tore gulosa ao logo do tempo, esse método pode covergir para Q*, além de apresetar um desempeho sigificativamete melhor que o algoritmo Q(λ) de Watkis (1989). O algoritmo Q(λ) utiliza o fator λ, que varia etre 0 λ 1, para descotar o erro de difereças temporais TD(λ) dos próximos passos as atualizações de Q(. O rastro de elegibilidade é utilizado para computar esses erros de maeira icremetal, para que as atualizações possam ser efetuadas. Dessa forma, um valor l( de rastro de elegibilidade é salvo para cada par estado-ação. O algoritmo Q(λ) implemetado esse trabalho segue a abordagem de Peg e Williams (1996), está descrito em Wierig e Schmidhuber (1998) e cuja regra de atualização é apresetada a tabela 2. Tabela 2. O algoritmo Q(λ) (1) Compute o erro de difereças temporais TD(0) e' = [ r( ( s' ) Q( ] (2) Compute o erro de difereças temporais TD(λ) e = [ r( ( s') V ( s)] (3) Para cada par estado-ação ( L, faça: (3 Compute o decaimeto do rastro l( = γ λ l( (3b) Atualize a fução Q( = Q( + α e l( (3c) Se l( < ε: (3c.1) L L \ ( (3c.2) visitado( 0 (4) Atualize a fução Q ( s, a ) = Q ( s, a ) + α e (5) Atualize o rastro de elegibilidade: u a : l( 0; l( 1 (6) Se visitado( = 0: (6 visitado( 1 (6b) L L ( Nesse algoritmo, α obedece à mesma regra apresetada em (1), x represeta um estado, u represeta uma ação, represetado os pares ( de estados visitados. Esses pares visitados ( são iseridos em uma lista duplamete ligada L e, caso o rastro de elegibilidade l( seja meor que um limiar defiido por ε 0, o par é removido da lista. Para garatir que um par estado-ação ão seja iserido mais de uma vez a lista L, variáveis biárias visitado( são utilizadas para idicar que o par já foi visitado e se ecotra presete a lista L.

Remover os pares ( da lista L quado seu valor decai abaixo de ε pode aumetar a velocidade do algoritmo sigificativamete. Com a utilização do rastro de elegibilidade por substituição (replacig eligibility traces) (Sutto e Barto, 1998), coforme o quito passo do algoritmo da tabela 2, é possível calcular o úmero máximo de pares estado-ação que a lista L pode coter, de acordo com os valores γλ e ε. Logo, o úmero de atualizações a cada iteração tora-se gereciável. Também é importate observar que, caso λ = 0, o algoritmo Q(λ) tora-se idêtico ao algoritmo Q-learig. 2.3 O algoritmo QS-learig O algoritmo QS (Ribeiro e Szepesvári, 1996) faz uso de geeralizações espaciais e cohecimeto prévio sobre o domíio para melhorar o desempeho do algoritmo Q-learig. Uma úica experiêcia pode atualizar mais de um par estado-ação, de acordo com a similaridade etre esses pares. A similaridade é determiada através de uma fução de espalhameto σ(u,, sedo 0 σ(u, 1. A similaridade pode ocorrer tato o espaço de estado como o cojuto de ações. Etretato, esse trabalho cosidera apeas as similaridades que ocorrem o espaço de estados. Dessa forma, a fução de espalhameto é defiida como σ(u, = g(s)δ(u,, ode δ(u, é o delta de Kroecker (δ(u, se u = a, ou δ(u, = 0 se u. A fução g(s) determia a similaridade etre estados e é defiida como g(s) = τ d, ode τ pode ser uma costate e d é um valor que quatifica a similaridade etre os estados x e s. A prova de covergêcia do algoritmo Tabela 3. O algoritmo QS Observe o estado atual s; Repita ifiitamete: (1) Selecioe uma ação a utilizado a regra ε Greedy; (2) Receba a recompesa imediata r; (3) Observe o ovo estado s ; (4) Para todo (, atualize Q( se σ(u, 0: (4 Compute o erro de difereças temporais TD(0) e : e' = [ r( ( s') Q( ] (4b) Atualize Q( = Q( + σ ( u, α e' (5) s s QS é mostrada em Ribeiro e Szepesvári (1996). A tabela 3 descreve o algoritmo QS. No algoritmo QS, α também obedece à mesma regra apresetada em (1). Para satisfazer as codições ecessárias à covergêcia do algoritmo, a fução σ(u, deve decair mais rapidamete que α. É importate observar que, caso a fução g(s) ão cosidere ehuma similaridade etre os estado seu valor será zero para qualquer outro estado x que ão seja o próprio estado resultado em uma fução de espalhameto σ(u, também igual a zero. Logo, o algoritmo QS tora-se idêtico ao algoritmo Q-learig. 3 Uso de Heurísticas para Aceleração do Apredizado por Reforço A utilização de heurísticas para aceleração do AR, proposta por Biachi (2004), pode ser defiida como uma maeira de se resolver um PMD utilizado uma fução heurística H: S A R para iflueciar a escolha das ações durate o apredizado. A fução heurística H( defie o quão desejável é a seleção da ação a, quado em s. Biachi (2004) propõe, aida, que a fução heurística pode ser estacioária ou ão-estacioária. Esse trabalho utiliza uma fução heurística estacioária, baseado em Biachi et al. (2004). A fução heurística é defiida a partir de cohecimeto prévio sobre o domíio e é utilizada apeas a seleção das ações a serem executadas pelo agete. Para tal, a regra de seleção de ações ε Greedy é modificada para icluir a fução heurística: arg max[ Q( + ξ. H ( ] q p π ( s) = a (3) aradom q > p Nessa ova regra de seleção de açõe ξ é um úmero real que podera a ifluêcia da heurística, existete para validar a prova de covergêcia, cujo valor é ormalmete igual a 1 (Biachi, 2004). Essa proposta matém as pricipais características dos algoritmos de AR, miimizado o tempo ecessário para a covergêcia. Nesse trabalho as variates dos algoritmos Q- learig, Q(λ) e QS que utilizam heurísticas para a aceleração do apredizado foram implemetadas cosiderado a ova regra de seleção de açõe sedo essa a úica mudaça ecessária os algoritmos. O algoritmo Q-learig modificado para a utilização de heurísticas foi proposto por Biachi et al. (2004), sedo deomiado HAQ-learig. No etato, até o presete mometo, a técica de aceleração de AR através de heurísticas ão havia sido utilizada para os algoritmos Q(λ) e QS. Por esse motivo, cosidera-se como iéditas as variates dos algoritmos Q(λ) e QS aceleradas por heurística deomiada respectivamete, HAQ(λ) (Heuristically Accelerated Q(λ)-learig) e HAQS (Heuristically Accelerated QS-learig). 4 Experimetos e Resultados O ambiete de Futebol de Robôs simulado, proposto por Littma (1994), é defiido por uma grade de 5x4 regiões que determia o espaço de estados e um cojuto de 5 ações Mover ao orte (N), Mover ao sul (S), Mover a leste (E), Mover a oeste (W) e Ficar parado (Stad) e ão há iformações escodidas. Dois jogadores (agete e opoete) competem etre si, sedo que a bola está sempre de posse de algum deles. No simulador SimuroSot (FIRA, 2007), cuja tela é mostrada a figura 1, o ambiete é defiido, seguido as regras da categoria MiroSot, por um campo

de dimesões de 220x180 cm e robôs em forma de cubos de aresta de 7,5 cm com arquitetura ciemática diferecial. O simulador retora as iformações de posição e orietação dos robôs e posição da bola a cada iteração, desempehado a fução de um sistema de visão computacioal. No etato, tarefas de estratégia, plaejameto de trajetória e cotrole de posicioameto e velocidade dos robôs são os problemas em aberto a serem resolvido torado o ambiete do simulador muito mais complexo que o ambiete simplificado de Littma (1994). Figura 1. O ambiete Simurosot utilizado esse trabalho 4.1 Espaço de estados e cojuto de ações A abordagem do problema de apredizado foi feita com o ituito de mater o mesmo ível de abstração do espaço de estados e do cojuto de ações do ambiete proposto por Littma (1994). O campo foi dividido em uma grade de 7x5 regiões simétricas. Ma como as regiões têm dimesões maiores que os robôs e a bola, os dois robôs e a bola podem ocupar uma mesma região ao mesmo tempo. O cojuto de ações foi estedido para que os robôs possam maipular a bola, visto que a bola desloca-se livremete pelo campo, pois se trata de um ambiete diâmico (o jogo ão pára equato ações são selecioadas) e ão-determiístico (selecioar uma ação a quado em s pode resultar diferetes estados futuros a cada execução de. Além das 5 a- ções idêticas às de Littma (1994), duas açõe Pegar a bola e Chutar o gol, foram adicioadas. A ação Pegar a bola possibilita que o robô se desloque até a região em que está a bola, posicioado-se imediatamete atrás (cosiderado o lado de ataque de cada jogador) da bola. A ação Chutar o gol determia o poto de impacto do robô com a bola calculado-se do âgulo da bola em relação ao gol do adversário, fazedo com que o robô tete empurrar a bola até esse gol. A ação Chutar o gol apeas pode ser executada quado o robô estiver a mesma região em que estiver a bola, caso cotrário cosidera-se impossível executar tal ação e o jogador permaece parado. 4.2 Fução de recompesa e parâmetros de apredizado As recompesas utilizadas foram 1000 para cada gol feito pelo agete, -1000 para cada gol sofrido pelo agete, -10 para cada ação executada que ão resultar em gol e -50 para cada ação cuja movimetação seja impossível de ser executada (movimetações para fora do campo, por exemplo). Os parâmetros utilizados os experimetos foram os mesmos para todos os algoritmos. A taxa de apredizado, iiciada com α = 1, decai de acordo com a regra (1). A taxa de exploração/explotação p = 0.2 e o fator de descoto γ = 0.9 são os mesmos utilizados por Littma (1994). Para os algoritmos Q(λ) e HAQ(λ), o valor λ = 0.3 foi determiado empiricamete, de acordo com as cosiderações feitas por Wierig e Schmidhuber (1998). Aida, para os algoritmos QS e HAQS, o espalhameto segue a descrição de Ribeiro et al. (2002). No etato, o valor iicial τ = 0.7 decai de acordo com a regra: [ 0.7 0.1 visitas ( ] d τ = (4) Dessa forma, o valor de τ decai a zero a uma taxa maior que α, assegurado a covergêcia do algoritmo, lembrado que α uca será meor que 0.125. De acordo com o quarto passo do algoritmo da tabela 3, para cada (, a quatização de similaridade d etre os estados assume valor 0 quado x = s. Assume valor 1 quado a posição do opoete em x for uma região horizotal ou verticalmete viziha à sua posição em s. Quado a posição do opoete em x for uma região diagoalmete viziha à sua posição em etão d assume valor 2. Para os demais caso d assume valor ifiito. No etato, para evitar que seja ecessário percorrer todos os pares ( possívei defiiu-se maualmete os ove pares ( a serem atualizado seguido as regras de quatização de similaridade. Um eixo de simetria horizotal foi defiido, dividido o campo exatamete ao meio. Isso foi feito para que o complemeto dos ove pares ( também fossem atualizados. Um exemplo simples cosiste em imagiar ambos os robôs e a bola a região mais acima, à esquerda. O complemeto desse estado resulta em ambos os robôs e a bola a posição mais abaixo, à esquerda, de acordo com o eixo de simetria horizotal. Ações também são complemetadas quado ecessário. Para o exemplo dado, caso um jogador teha selecioado a ação Mover acima, o complemeto dessa ação será Mover abaixo. Dessa forma, outros ove pares ( são atualizado aproveitado aida mais a experiêcia de uma úica iteração. 4.3 Experimetos Os experimetos foram realizados em um microcomputador Petium D 3.4 GHz com 1 GB de RAM. O apredizado do agete ocorreu cotra um opoete aleatório durate 5 rodadas de 500 jogos cada, cosumido 72 horas de simulação iiterrupta para ca-

da rodada de cada algoritmo. Cada jogo tem a duração de 5 miuto idepedete do úmero de gols que ocorrem durate esse tempo. A maeira a qual a fução de recompesa foi modelada determia que o objetivo do agete seja apreder a maximizar o saldo de gols ao logo do tempo em que está aprededo. Por esse motivo, os gráficos apresetam o saldo de gols acumulado ao logo dos 500 jogos de apredizado, com média e desvio padrão. 4.4 Resultados O gráfico da figura 2 apreseta uma comparação etre os algoritmos Q-learig e HAQ-learig, equato a figura 3 apreseta o gráfico com as curvas dos algoritmos QS e HAQS. Ao verificar os gráficos das figuras 2 e 3, percebe-se uma semelhaça etre os algoritmos Q-learig e QS, assim como HAQ-learig e HAQS. Essa semelhaça, também observada em Ribeiro et al. (2002), se deve ao fato de que o espalhameto das experiêcias ocorre apeas o iício do apredizado, ode o agete tem pouca experiêcia e poucas recompesas sigificativas (fazer ou sofrer gols) recebidas. Como a fução de espalhameto decai rapidamete para mater o critério de covergêcia, os algoritmos QS e HAQS passam a se comportar exatamete como os algoritmos Q-learig e HAQlearig, respectivamete, em pouco tempo de a- predizado. O gráfico apresetado a figura 4 apreseta média e desvio padrão do saldo de gols acumulado para os algoritmos Q(λ) e HAQ(λ). Nota-se uma difereça de desempeho etre os algoritmos do gráfico da figura 4 em comparação com os demais. Duas observações importates podem ser feitas para os três gráficos apresetados. A primeira observação é que a utilização de heurísticas melhora sigificativamete o desempeho dos algoritmo resultado em um acúmulo positivo o saldo de gols desde o iício do apredizado. A heurística é capaz de direcioar o agete ao seu objetivo quado o mesmo ão tem experiêcia suficiete, equato sem a heurística o agete acaba por ter um comportameto excessivamete exploratório o iício. A seguda observação é que, aproximado-se as curvas dos algoritmos por reta ota-se uma icliação maior as retas que correspodem aos algoritmos que utilizam heurística cofirmado a aceleração do apredizado. Em relação às geeralizações temporais em comparação com as geeralizações espaciai um poto a ser cosiderado é o fato de que, equato os algoritmos Q(λ) e HAQ(λ) espalham a recompesa recebida por um rastro dos últimos pares estado-ação visitado represetado uma seqüêcia de diferetes posições dos jogadores e da bola e diferetes ações (diferetes experiêcias) que visam maximizar a recompesa, os algoritmos QS e HAQS espalham uma mesma posição do agete e da bola e uma mesma ação selecioada pelo agete (apeas uma experiêci por estados cuja posição do opoete teha alguma similaridade com sua posição origial. Dessa forma, a propagação das recompesas descotadas ao logo do tempo os algoritmos QS e HAQS será muito mais próxima à propagação que ocorre os algoritmos Q-learig e HAQ-learig. Esse fato justifica a semelhaça etre os algoritmos Q-learig e QS, assim como etre os algoritmos HAQ-learig e HAQS, além de justificar o motivo pelo qual o algoritmo Q(λ) supera em eficiêcia os algoritmos Q- learig e QS, equato HAQ(λ) supera HAQlearig e HAQS, coforme pôde ser observado os gráficos apresetados. Figura 2. Saldo de gols acumulado dos algoritmos Q-learig e HAQ-learig Figura 3. Saldo de gols acumulado dos algoritmos QS e HAQS Figura 4. Saldo de gols acumulado dos algoritmos Q(λ) e HAQ(λ)

5 Coclusão e Trabalhos Futuros Esse trabalho apresetou uma comparação etre algoritmos de AR bem cohecidos a literatura (Qlearig, QS e Q(λ)) com algoritmos que utilizam heurísticas para a aceleração do apredizado por reforço HAQ-learig e dois iéditos (HAQS e HAQ(λ)), sedo que os resultados obtidos idicam que a utilização de heurísticas acelera sigificativamete o apredizado. Para a realização das experiêcia foi estedido o ambiete proposto por Littma (1994) a um ambiete mais complexo, diâmico e ão-determiístico, permitido uma avaliação mais realística e visado o uso futuro em robôs reais da categoria MiroSot. Trabalhos futuros irão abordar a execução de testes etre agetes que utilizem algoritmos de AR acelerados por heurísticas e opoetes que utilizem os algoritmos de AR tradicioais. Outros trabalhos futuros icluem a comparação etre os algoritmos Miimax-Q (Littma, 1994) e outros baseados em heurística o ambiete simulado aqui apresetado e em robôs reai além da verificação da possibilidade de aproveitameto da experiêcia adquirida em experimetos simulados em situações similares (com um mesmo espaço de estados), mas mais complexas (com um cojuto de ações expadido), por exemplo. Miimax-QS Algorithm. I: Proceedigs of the 1 st Iteratioal Joit Coferece o Autoomous Agets ad Multi-Aget Systems (AAMAS 02), p. 1239-1245. Sutto, R. S.; Barto, A. G. (1998) Reiforcemet Learig: A Itroductio, Cambridge, MA: MIT Press. Watki C. J. C. H. (1989) Learig from Delayed Rewards, Tese (Doutorado) Uiversidade de Cambridge, Cambridge. Wierig, M.; Schmidhuber, J. (1998). Fast Olie Q(λ). Machie Learig, v. 33,. 1, p. 105-115. Referêcias Bibliográficas Biachi, R. A. C. (2004) Uso de Heurísticas para a Aceleração do Apredizado por Reforço. 174 f. Tese (Doutorado em Egehari Escola Politécica, Uiversidade de São Paulo, São Paulo. Biachi, R. A. C.; Ribeiro, C. H. C.; Costa, A. H. R. (2004). Heuristically Accelerated Q-Learig: a New Approach to Speed Up Reiforcemet Learig. Lecture Notes i Artificial Itelligece, v. 3171, p. 245-254. FIRA (2007) Federatio of Iteratioal Robotsoccer Associatio, http://www.fira.et/soccer/, Fevereiro, 2007. Littma, M. L. (1994). Markov games as a framework for multi-aget reiforcemet learig. I Proceedigs of the 11 th Iteratioal Coferece o Machie Learig (ICML 94), p. 157-163. Peg, J.; William R. J. (1996). Icremetal Multi- Step Q-Learig. Machie Learig, v. 22, p. 283-290. Ribeiro, C. H. C.; Szepesvári, C. (1996). Q-Learig combied with spreadig: Covergece ad results. I Proceedigs of the ISRF-IEE Iteratioal Coferece o Itelliget ad Cogitive Systems (Neural Networks Symposium), p. 32-36. Ribeiro, C. H. C.; Pegoraro, R.; Costa, A. H. R. (2002). Experiece Geeralizatio for Cocurret Reiforcemet Learers: the