AMANDA OLIVEIRA, G. Depto. Engenharia de Computação e Automação - UFRN

ANÁLISE COMPARATIVA DE ALGUMAS TÉCNICAS PARA O ESTABELECIMENTO DE TRAJETÓRIAS EM AMBIENTES COM OBSTÁCULOS USANDO APRENDIZAGEM POR REFORÇO AMANDA OLIVEIRA, G. Depo. Engenharia de Compuação e Auomação - UFRN e-mail: amandagondim@yahoo.com.br JORGE MELO, D. DE, ADRIÃO NETO, D. D Depo. Engenharia de Compuação e Auomação - UFRN e-mail: dmelo@dca.ufrn.br,adriao@dca.ufrn.br Resumo - Ese rabalho em o obeivo de apresenar a análise comparaiva de algumas écnicas para o esabelecimeno de raeórias em ambienes com obsáculos. Esas écnicas foram desenvolvidas com o uso de aprendizado por reforço, em paricular os algorimos Q-Learning e R-Learning. Para uma melhor compreensão desa análise, os resulados são apresenados em uma inerface gráfica, que funciona como um ambiene de simulação para a geração das raeórias. Nesa inerface são apresenados alguns gráficos onde pode-se analisar o comporameno dos algorimos implemenados. Palavras-chave Aprendizado por reforço, Q-Learning, R-Learning, Robôs móveis. 1. Inrodução O problema de raeórias em ambienes com obsáculos se apresena na uilização de sisemas auônomos ais como robôs móveis. Tais robôs devem aceiar descrições de alo nível das arefas que eles devem desenvolver, sem a necessidade de maiores inervenções humanas. As descrições de enrada especificam o que o usuário desea que sea feio, e não como proceder para fazê-lo. Para ano, eses robôs são equipados com auadores e sensores sob conrole de um sisema de compuação. (Ooni e Lages, 2003) Os emas de pesquisa na área da robóica móvel vão desde modelagem e esraégia de conrole aé ipos de sisemas de locomoção e écnicas de ineligência arificial. O conrole em baixo nível concenra-se nos auadores, enquano que o conrole de alo nível proea arquieuras para gerenciameno de arefas e planeameno de raeórias, que de uma forma geral, consise em se descobrir de que forma se pode levar um obeo a parir de uma configuração inicial aé uma configuração final. (Schroeder e al., 2005) Nese rabalho busca-se apenas o esabelecimeno das raeórias em ambienes com obsáculos, sem se preocupar com o conrole em baixo nível. Desa forma, não é possível uma aplicação direa do mesmo a robôs móveis, á que iso envolveria o esudo de maiores dealhes de percepção e conrole. Nada impede, porém, que eses emas seam esudados e associados com as raeórias esabelecidas nese simulador para que o proeo possa ser aplicado nese conexo. As raeórias são esabelecidas com o uso de écnicas de aprendizado de reforço (AR), onde se programa agenes uilizando recompensas e punições para resolver arefas específicas aravés de inerações com o ambiene. AR é baseado na exisência de um críico exerno ao ambiene e uiliza uma esruura composa de esados, ações e recompensas, conforme mosra a Figura 1. Figura 1 - Modelo Padrão de Aprendizagem por Reforço O agene aua em um ambiene descrio por um conuno de possíveis esados e pode execuar, para cada esado, uma ação denro de um conuno de ações possíveis, recebendo um valor de reforço a cada vez que execua uma ação. Ese reforço indica o valor imediao da ransição esado - açãonovo_esado. Ao longo do empo, ese processo produz uma seqüência de pares esado-ação, e seus respecivos valores de reforços. O obeivo do agene é aprender uma políica que maximize uma soma esperada deses reforços em longo prazo. (Guelpeli e al., 2003) Sendo assim, ese rabalho em como obeivo principal esudar, implemenar e comparar os radicionais algorimos de aprendizado por reforço, Q-Learning e R-Learning. Além diso, em-se o desenvolvimeno de uma inerface gráfica apropriada para a análise dos resulados, que funcionará como um simulador para o esabelecimeno das raeórias em ambienes com obsáculos. Desa forma, ese rabalho apresena uma significaiva imporância nese conexo, á que a simulação é uma poderosa ferramena no processo de aprendizagem, onde imiase propriedades e comporamenos do sisema real, permiindo sua manipulação e um esudo dealhado. Ese arigo esá organizado da seguine forma: Nas seções 2 e 3 são mosradas a formulação do

problema e a descrição do ambiene de reinameno, respecivamene. Dealhes da implemenação e da inerface do programa, são apresenados nas seções 4 e 5. Os resulados e conclusões são apresenados nas seções 6 e 7. 2. Formulação do Problema O problema principal dese rabalho consise em orienar um agene a se mover em um ambiene desconhecido, desviando de evenuais obsáculos que o ambiene venha a apresenar, aé alcançar um obeivo esabelecido. Para aprender a movimenar-se denro do ambiene virual o agene recebe um reinameno uilizando algorimos de aprendizado por reforço. Nese reinameno o agene erá como obeivos: aprender a chegar ao esado final e aprender a eviar os obsáculos do ambiene. Para mover-se denro do ambiene o agene poderá realizar 4 diferenes ações, são elas: um passo para cima, um passo para baixo, um passo para a esquerda, um passo para a direia. Em cada ieração do algorimo, uma ação é escolhida para definir o movimeno do agene no ambiene. Esa escolha é feia a parir da posição aual do agene, onde o algorimo consula uma abela com os valores de uilidade esimados para os pares (esado-ação), para enão definir a ação mais adequada no momeno. Cada ação omada pelo agene reorna um valor de reforço, que é uilizado na aualização da função valor do algorimo para influenciar em fuuras escolhas de ações. O valor de reforço reornado esá direamene relacionado com o saus do esado acessado. Sendo assim, a raeória do agene denro do ambiene consise em uma seqüência de passos que são definidos aravés das ações em cada ieração. O reinameno do agene consise em fazê-lo raçar n raeórias de ponos iniciais escolhidos aleaoriamene aé o pono obeivo. O valor de n deve ser suficienemene grande para que o agene aprenda a se deslocar de forma óima de qualquer pono do ambiene aé o seu obeivo. 3. Descrição do Ambiene Para o mapeameno, o ambiene foi dividido em inervalos finios, de forma que o mesmo pudesse ser represenado como uma mariz, onde cada elemeno desa mariz é considerado um esado. Sendo assim, o ambiene se apresena como uma malha de n esados, organizados em linhas e colunas. Os esados da malha são idenificados por uma numeração de 0 a n-1, onde os mesmos são ordenados denro da malha da esquerda para a direia e de cima para baixo. Cada esado do ambiene pode apresenar o saus de permiido, obsáculo ou obeivo. Onde: Permiido: significa que o esado possui livre acesso e o agene recebe um valor de reorno nulo ao acessá-lo. Obsáculo: significa que o esado em acesso bloqueado e o agene recebe um reorno com valor negaivo ao acessá-lo. Pode represenar uma parede, um móvel, ou qualquer ouro ipo de obsáculo que o robô possa enconrar denro de um ambiene e enha que desviar. Obeivo: represena o esado final da raeória, ou sea, o obeivo a ser alcançado pelo agene denro do ambiene. Caso o agene chegue a ese esado, receberá um reorno de valor posiivo como recompensa. 4. Implemenação do Ambiene O sisema foi desenvolvido com a linguagem C++ e com o auxílio do ambiene de programação Q-Designer versão 3.3.4. Inicialmene implemenou-se o algorimo de aprendizado Q-Learning, que propõe que o agene aprenda uma função Q de recompensa esperada com descono, conhecida como função valor-ação. Esa função de esimação Q é definida como sendo a soma do reforço recebido pelo agene por er realizado a ação a no esado s em um momeno, mais o valor (desconado de γ ) de seguir a políica óima daí por diane. ( s,a ) = ( s,a ) + γ ( s+1 ) Q r V O pseudocódigo do algorimo Q-Learning implemenado pode ser observado a seguir: Inicialize Q( s, a ) Para cada episodio repia: Inicialize s Repia(Para cada passo do episodio): Observe s e escolha uma ação a Observe s + 1, r ( s, a ) e aualize Q ( s, a ) Aé s ser o esado final Aé igual a limie de passos. Onde: r ( s, a ) : Reforço recebido no esado s : Seqüência discrea de passos no empo Q( s, a ) : Valor da ação a no esado s Os valores de uilidade Q( s, a ) esimados para os pares (esado, ação) podem ser armazenados em uma abela. A aualização deses valores é feia de acordo com a seguine equação: Q (, ) (, ) (, ) max ( 1, ) (, ) 1 s a Q s a r s a Q s a Q s a = + α γ + + + a Onde: α é a axa de aprendizado γ é a axa de descono emporal Ouro algorimo escolhido para implemenar foi o R-Learning, que em como obeivo maximizar a

recompensa média a cada passo, ao conrário do Q- Learning que maximiza os desconos acumulados de recompensa. Para esa implemenação, omou-se como base o algorimo R-Learning aplicado a problemas de horizone infinio. Cada episódio dese algorimo consise apenas em aprender a eviar os obsáculos do ambiene durane um numero de ierações, sem o obeivo de alcançar um esado final. Porém, com o inuio de adequar o algorimo ao problema proposo no rabalho, fizeram-se necessárias algumas modificações no algorimo original. A principal delas foi a adapação do mesmo à problemas de horizone finio com a inrodução de episódios e de um obeivo no reinameno. Além disso, a fim de eviar a reenção do agene em um pequeno grupo de esados durane o reinameno, implemenou-se uma esraégia para eviar o reorno do robô ao esado visiado no momeno imediaamene anerior. Iso foi feio mediane a aplicação de uma punição no valor de reorno. O pseudocódigo uilizado na implemenação do algorimo R-Learning pode ser observado a seguir. Inicialize ρ e R( s, a ) Para cada episodio repia: Inicialize s Repia (Para cada passo do episodio): Observe s e escolha uma ação a Observe 1 s + e o reorno r ( s, a ) Se s + 1 = s 1 enão r = r x Aualize R( s, a ) Se R ( s, a ) = max R ( s, a) Aualize ρ a Aé s ser o esado final Aé que igual a limie de passos Onde: r ( s, a ) : Reforço recebido no esado s : Seqüência discrea de passos no empo R( s, a ) : Valor da ação a no esado s x : Punição adicional caso o agene vole ao esado anerior. A aualização dos valores da função R( s, a ) e do parâmero ρ é feia de acordo com as seguines equações: R 1 (, ) (, ) max ( 1, ) (, s a R s a r R s a R s a = + α ρ + + + ) a + r + max R ( s 1, a) max R ( s, a ) a a ρ ρ β ρ + Tradicionalmene, a escolha da ação a a parir do esado aual s, consisiria simplesmene em se escolher a ação com maior valor de uilidade na abela, na linha referene ao esado s. Porém, com o inuio de resolver o dilema Invesigação X Exploração, que consise em decidir quando se deve aprender ou não sobre o ambiene, a escolha de a foi feia uilizando a écnica Є Greedy. Nesa écnica, o agene execua a ação com o maior valor de Q e R com probabilidade 1 Є e escolhe uma ação aleaória com probabilidade Є. Com o inuio de acelerar o reinameno dos algorimos Q-Learning e R-Learning, algumas esraégias adicionais foram implemenadas. São esas: Esabelecimeno de um número limie de ações por episódio, ou sea, o agene erá um número máximo de passos denro do ambiene para conseguir alcançar o seu obeivo. Caso ese limie sea excedido, o agene deverá abandonar o episódio aual e iniciar o próximo a parir de um esado inicial aleaório. Esabelecimeno de um número limie de colisões com obsáculos por episódio, ou sea, caso o agene exceda o limie de colisões esabelecido, ele deverá abandonar o episódio aual e iniciar o próximo a parir de um esado inicial aleaório. Esas écnicas foram implanadas ano no Q- Learning quano no R-Learning, e o seu uso possibiliou uma significane melhoria no desempenho dos algorimos no que se diz respeio à velocidade de aprendizado. Esa melhoria deve-se a eliminação do gaso de empo compuacional uilizados em casos desnecessários, onde o agene perdia muio empo colidindo com obsáculos ou explorando longos caminhos que não o levavam ao obeivo. 5. Inerface A inerface do programa é o espaço em que o usuário pode simular raeórias em ambienes configurados por ele mesmo. Ese ambiene virual permie ao usuário escolher as posições dos obsáculos e do obeivo do ambiene em quesão, bem como escolher o algorimo de reinameno do agene, Q-Learning e/ou R-Learning. Uma oura caracerísica dese ambiene é possibiliar a comparação de desempenho enre os dois algorimos implemenados. Aravés da figura 2, pode-se noar que a inerface do programa apresena algumas regiões de configuração e de inerpreação de resulados. A configuração do ambiene consise em informar os parâmeros de consrução do mesmo e os de reinameno dos algorimos. Na consrução do ambiene virual deve-se represenar o mesmo aravés de uma malha, definindo-se a quanidade de linhas e colunas que a compõe. A parir daí enão, deve-se escolher as posições dos obsáculos e do obeivo. Os parâmeros de reinameno esão relacionados às esraégias de aceleração de aprendizado implemenadas. Deve-se configurar enão o número de ierações para o reinameno, o número limie de ações por episódio e o número limie de colisões por episódio.

Para a visualização do resulado obido com o reinameno, a inerface apresena duas malhas idênicas, represenando o mesmo ambiene virual. Cada uma desas malhas apresena a raeória sugerida por um dos algorimos de aprendizado, desde um pono qualquer escolhido pelo usuário aé o obeivo do ambiene. Desa forma, é possível analisar e comparar o desempenho dos dois algorimos para a siuação configurada. Oura maneira de observar o comporameno dos algorimos no reinameno é aravés da análise dos gráficos gerados pelo simulador. Além disso, esa inerface ambém apresena um quadro de dados onde é possível analisar o comporameno das ierações de cada algorimo no decorrer do reinameno. 6. Resulados A análise dos resulados baseou-se principalmene nos dados conidos nos gráficos do simulador. Eses gráficos analisaram rês aspecos das performances dos algorimos: empo de reinameno por episódio, convergência dos dados e qualidade das raeórias geradas. O experimeno foi realizado levando-se em consideração rês diferenes siuações: ambienes sem obsáculos, com poucos obsáculos e com muios obsáculos. Para cada uma desas siuações foram esados 10 ambienes com configurações diferenes, de forma que a análise pudesse ser feia omando-se como base as médias obidas em cada siuação. No aspeco empo de reinameno por episódio, analisou-se o empo, em ms, que cada algorimo uilizou para chegar ao esado final do ambiene, parindo de um esado inicial escolhido aleaoriamene. Como os reinamenos uilizando o Q-Learning e o R-Learning são independenes enre si, a comparação dos empos de reinameno foi realizada aravés da média deses, como pode ser Figura 2 Inerface do Simulador observado na figura 3. Como para cada uma siuações esudadas 10 ambienes foram simulados, as médias do empo de reinameno por episódio obidas, em ms, podem ser observadas na abela 1. Ambiene Muios Amosral QL 0.01781 0.01736 0.01325 0.01614 RL 0.01650 0.01630 0.01308 0.01529 Tabela 1 s do empo de reinameno por episódio Como pode-se observar, os dois algorimos apresenam esimaivas de médias de empo de reinameno basane próximas, o que faz com que ese aspeco não possua grande influência na comparação da performance dos algorimos. O aspeco convergência foi analisado aravés da variação dos valores de uilidade das abelas referenes às funções R e Q, de forma que quano menores forem as variações ao longo do reinameno, melhor será a convergência do algorimo. A variação dos valores de uilidade, calculada ao fim de cada episódio, é dada por: + 1( ) ( ), R = max R ( ) ( ) + 1 i, R i, Q = max Q i, Q i, i, Onde: Q( i, ) e R( i, ) correspondem ao valor associado ao par esado-ação (s = i, a = ). A figura 4 apresena o gráfico de análise da convergência, onde mosram-se as variações dos valores em cada episódio, bem como a média desas variações nos úlimos 10% dos episódios do reinameno. As médias obidas em cada siuação esudada podem ser observadas na abela 2. Ambiene i, Muios Amosral QL 3,46x10-4 3,41x10-4 3,09x10-4 3,32x10-4 RL 5,49x10-4 5,51x10-4 5,19x10-4 5,40x10-4 Tabela 2 s das variações dos valores de uilidade nos úlimos 10% de episódios.

Figura 3 Gráfico do empo de reinameno por episódio Aravés desas informações é possível observar que os dois algorimos apresenaram uma boa convergência nos dados, independene da siuação analisada. Além disso, de acordo com o gráfico, pode-se noar que durane odo o reinameno o Q- Learning quase sempre apresena uma variação de valores menor que o R-Learning. Embora não se enha alcançado a convergência ideal (variação dos dados igual a zero), os algorimos foram capazes de gerar raeórias basane saisfaórias. A qualidade das raeórias geradas foi medida aravés da quanidade de passos que cada algorimo necessia para alcançar o obeivo parindo de um esado inicial aleaório. Sendo assim, o gráfico apresenado na figura 5 mosra exaamene as diferenças das quanidades de passos necessários no R-Learning e no Q-Learning em raeórias aleaórias, bem como a média desas diferenças. Para gerar o gráfico foram esadas um número de raeórias igual a 50% da quanidade de esados que compõem o ambiene. Figura 4 Gráfico de análise de convergência As médias obidas da diferença de passos uilizados em cada algorimo enconram-se na abela 3. Ambiene da Diferença Muios Amosral - 0.36944-0.54666-0.41666-0.4442 Tabela 3 s da diferença de passos no R-Learning e no Q- Learning Como pode-se noar, independene da configuração do ambiene, as médias das diferenças são sempre negaivas, o que indica que o R-Learning apresena raeórias melhores que o Q-Learning, conendo em média 0,44 passos a menos em suas raeórias. Uma oura forma de se analisar a performance dos algorimos implemenados é aravés do quadro de inerrupções que pode ser observado no cano superior direio da figura 3. Aravés dese quadro é possível analisar o comporameno das ierações ao longo do reinameno, ou sea, observar o número de ierações que foram inerrompidas por exceder o limie de ações e/ou colisões.

As médias das quanidades de ierações inerrompidas são apresenadas na abela 4. Muios Figura 5 Gráfico de análise das raeórias Amosral QL RL QL RL QL RL QL RL Ações 17,6 61,7 21,9 43,4 26 44,5 21,8 49,8 Colisões 1,9 1,7 2,3 1,9 2,6 4,3 2,26 2,63 Tabela 4 s das quanidades de ierações inerrompidas Como pode-se observar, independene da quanidade de obsáculos que o ambiene possua, o R-Learning sempre apresena um número maior de ierações inerrompidas por exceder o limie de ações que o Q-Learning. Além disso, durane os eses, noou-se que o R-Learning mosrou-se bem mais sensível à diminuição do limie de ações por episódio que o Q-Learning. Iso significa que no início do reinameno o R-Learning apresena uma maior dificuldade para convergir e que esa inerrupção por limie de ações funciona como um acelerador nese eságio inicial. que devem ser esados e adequados correamene ao problema em quesão. Sendo assim como conclusão geral, êm-se que, as raeórias geradas pelo R-Learning são mais oimizadas, porém, como conseqüência da dificuldade de convergência, o mesmo necessia de um número maior de ierações que o Q-Learning para gerá-las. 8. Referências Bibliográficas [1] Bianchi, R. A da C. Uso de heurísicas para a aceleração do aprendizado por reforço. Tese (Douorado) - Escola poliécnica da universidade de São Paulo, 2004. [2] Guelpeli, M.V.C; Ribeiro, C.H.C; Omar, N. Uilização de Aprendizagem por reforço para modelagem auônoma do aprendiz em um uor ineligene. XIV Simpósio Brasileiro de Informáica na Educação - NCE - IM/UFRJ, p. 2, 2003. 7. Conclusões Tendo-se observado os resulados obidos, podese concluir que os dois algorimos mosraram-se basane saisfaórios em odas as configurações de ambienes. Como o empo e a convergência apresenaram valores muio próximos para os dois algorimos, eses aspecos não apresenaram grande influência na comparação da performance dos mesmos. Porém no que se diz respeio à qualidade das raeórias, podese dizer que o R-Learning mosrou-se mais eficiene que o Q-Learning, apesar de apresenar maior dificuldade para convergir. Uma imporane observação a se fazer é que o desempenho dos algorimos esá direamene ligado à escolha dos valores dos parâmeros de aprendizado, [3] Ooni, G. de L; Lages, W.F. Navegação de robôs móveis em ambienes desconhecidos uilizando sonares de ulra-som. SBA: Conrole & Auomação Sociedade Brasileira de Auomáica, p. 3, 2003. [4] R. S. Suon and A. G. Baro. Reinforcemen Learning: An Inroducion. MIT Press, Cambridge, Massachuses, 1998. [5] Schroeder, G.N.; Espindola, D.B; Boelho,S.S. da C. ; Bicho, A. de L; Oliveira, V.M. de. Simulador Gráfico para Conrole de Robôs Móveis Omnidirecionais. Journal of Compuer Science - Volume 4 - Número 4, p.3, 2005. [6] Silva, M. M; Dória, A.D; Melo, J.D. Um experimeno didáico de uilização da aprendizagem por reforço em robôs móveis. UNP UFRN. Relaório Técnico, 2004.