APRENDIZADO POR REFORÇO APLICADO AO DESENVOLVIMENTO DE AGENTES HUMANOIDES NO DOMINIO DO FUTEBOL DE ROBÔS SIMULADO

APRENDIZADO POR REFORÇO APLICADO AO DESENVOLVIMENTO DE AGENTES HUMANOIDES NO DOMINIO DO FUTEBOL DE ROBÔS SIMULADO PRISCILA A. BERTON 1, REINALDO A. C. BIANCHI 1. 1. Inteligência Artificial Aplicada a Automação, Departamento de Mestrado em Engenharia Elétrica, Centro Universitário da FEI Av. Humberto Alencar Castelo Branco, 3972 - Assunção, São Bernardo do Campo - SP, 09850-901 E-mails: pittyberton@gmail.com,rbianchi@fei.edu.br Abstract - The science of robotics has evolved over the years with the creation of new robots and the development of intelligent applications. The domain studied in this paper is the humanoid robot soccer, which is a major challenge, since the robot should move and have behavior similar to human players. The technique used in this work is the Reinforcement Learning, a well known solution to problems where an agent needs to learn how to act in an unknown task. This technique is used to make the agents learn, through trial and error, to which side it should walk and how to make goals, in addition to the defense of these, improving their behavior over the time. A football simulation program, called RoboCup 3D, was used for development of robotic agents. This platform has been increasingly used by the scientific community, allowing the simulation in a virtual world the features of real humanoid players, maintaining the same characteristics of the environment. The results obtained show that the approach is promising. Keywords - Artificial intelligence, Robotics, Reinforcement learning, Intelligent control. Resumo - A área da robótica vem evoluindo ao longo dos anos com a criação de novos robôs e com o desenvolvimento de aplicações inteligentes. O domínio estudado neste artigo é o futebol de robôs humanoides que é um grande desafio, já que o robô deve se movimentar e ter comportamentos semelhantes a jogadores humanos. A técnica utilizada neste trabalho é o Aprendizado por Reforço, reconhecida solução para problemas onde um agente precisa aprender a atuar em uma tarefa desconhecida. Esta técnica é utilizada para fazer os agentes robôs humanoides a aprender, por meio de tentativa e erro, para qual lado ele deverá andar e fazer gols, além de fazer a defesa destes, melhorando o seu comportamento a cada instante. Um programa de simulação de futebol, chamado RoboCup 3D, foi utilizado para desenvolvimento dos agentes robóticos. Esta plataforma vem sendo cada vez mais utilizada no mundo científico, permitindo simular em um mundo virtual as características de jogadores humanoides reais, mantendo as mesmas características do ambiente. Os resultados obtidos mostram que a abordagem utilizada é promissora. Palavras-chave - Inteligência artificial, Robótica, Aprendizado por reforço, Controle inteligente. 1 Introdução A área de robótica vem evoluindo ao longo dos anos e a tarefa de criar robôs cada vez mais semelhantes aos seres humanos é um desafio para a ciência. No começo da robótica, os robôs criados serviam para auxiliar os seres humanos em tarefas difíceis e repetitivas em grandes indústrias. Atualmente o desafio é melhorar os robôs existentes e criar novos tipos de robôs para realizar tarefas que necessitam de cálculos complexos e que sejam difíceis para o ser humano realizar. A ficção cientifica ajuda o ser humano a se desafiar para criação de novos protótipos e modelos cada vez mais complexos. Trabalhar com robôs humanoides é uma tarefa complexa, pois é preciso saber controlar desde seus movimentos mais simples, como por exemplo, dobrar uma perna, como até mesmo saber qual a melhor decisão que o robô deve tomar para executar uma dada tarefa em um determinado instante. O objetivo deste artigo foi desenvolver agentes robóticos humanoides (goleiro, defensor e atacante) em um simulador de futebol de robôs, considerando a arquitetura existente no agente humanoide e utilizando a técnica de aprendizado por reforço para o controle das tarefas básicas dos agentes autônomos. O uso do Aprendizado por Reforço (AR) permite que um agente seja capaz de detectar a sua posição no ambiente em que se encontra e ser capaz de tomar decisões que afetam o seu estado atual, assim aprendendo a ganhar experiência própria. 2 Aprendizado por Reforço O AR permite que o agente robô aprenda sua tarefa de forma autônoma através de repetidas interações com um ambiente desconhecido, através de tentativa e erro, recebendo recompensas ou penalidades como retorno. Sendo assim, um agente robótico inteligente deve ter a capacidade de aprender, perceber e agir sobre o ambiente no qual se encontra, além de escolher recompensas corretas das ações para obter boas soluções. A técnica de AR foi utilizada em agentes robóticos humanoides, para que estes possam tomar decisões e ao mesmo tempo aprender a agir,

apresentando diversos comportamentos relacionados ao jogo de futebol de robôs, como por exemplo: chutar a bola e ir para bola. O agente robótico programado é um robô humanóide chamado NAO, utilizado pela primeira vez na RoboCup em 2008, tanto em competições físicas como também em competições utilizando um simulador virtual 3D, chamado RoboCup 3D. O RoboCup 3D, simulador virtual de futebol de robôs, consegue simular um ambiente com onze jogadores e também as condições encontradas em um jogo real de robôs humanoides, utilizado em competições da RoboCup. A RoboCup é uma competição internacional de robótica, criada em 1997, visando pesquisas em inteligência artificial e robótica, fornecendo desafios para obter melhores resultados. O foco principal da RoboCup são competições de jogo de futebol com robôs móveis totalmente autônomos em ambientes dinâmicos. Segundo Kitano (1997), a RoboCup foi inicialmente proposta para ser um meio de divulgação da robótica e da pesquisa em inteligência artificial e fornecer meios para a avaliação de várias teorias, algoritmos e arquitetura, servindo também como uma ferramenta para a integração e estudos de como várias tecnologias podem trabalhar em conjunto. Um dos problemas em se utilizar AR se deve a relação de estados e ações do agente robô com o ambiente, que geralmente é muito grande, pois o robô deve perceber seus adversários, a posição da bola, perceber qual é o seu estado (posição no campo de futebol) e qual ação deverá executar para que não receba nenhum gol ou para que faça um gol. Com isso o algoritmo de AR realiza uma tarefa complexa exigindo computacionalmente interação das informações para que o agente robô possa aprender. Como existe um grande número de estados que o robô pode estar, levando em consideração que existem outros robôs no campo de futebol também, leva tempo para o algoritmo de AR convergir para uma solução boa. Quanto maior for o ambiente, maior será o número de interações do agente e mais complexa será a solução para o problema. No algoritmo de AR o agente aprende o que fazer em uma determinada ação e, com isso, maximiza o valor do estado tendo como recompensa um sinal numérico. Em alguns casos, as ações podem afetar não apenas a recompensa imediata, como também o estado do sistema e, conseqüentemente, todas as recompensas posteriores. O algoritmo de aprendizado por reforço usado neste artigo é o Q-Learning (WATKINS, 1989), que é capaz de fazer os agentes robôs humanoides escolherem uma ação levando em conta o seu estado e com isto aprenderem, por meio de tentativa e erro, para qual lado ele deverá andar, fazer gols como também fazer a defesa destes, melhorando o seu comportamento a cada instante. Este algoritmo utiliza uma função Q(s,a), onde a ação a é executada no estado s e o algoritmo estima o valor da função Q, também chamada de Q-function. Um agente toma uma ação na qual tem o máximo de valor Q no seu estado atual e é gerado um valor estado V(s) para cada ação em Q(s,a). Depois de tomada a ação, o agente recebe a recompensa, que pode ser zero, e atualiza o valor do seu estado para o estado atual. Mitchell (1997), usa a seguinte função V(s) (1): V(s) max Q(s,a) (1) a Para atualizar o valor de Q, é utilizada a seguinte fórmula (2): Q(s,a) Q(s,a) + (r s,a + V(s') - Q(s,a)) (2) onde s: é o estado atual; a: é a ação a ser realizada; r s,a: é o reforço obtido da ação a no estado s;v(s'): é o maior dos valores Q's do estado s' sucessor de s; : é o fator de desconto, compreendido entre os valores 0 e 1; : é a taxa de aprendizado. Caso o valor de seja muito perto de zero, o agente tende a considerar apenas valores imediatos de recompensa. Caso os valores sejam muito perto de um, o agente considera as recompensas futuras com maior peso. A função Q pode ser armazenada em uma tabela bidimensional, conforme figura 1, onde uma dimensão é para os estados e outra para as ações. Por fim, o algoritmo escolhe valores conforme a seleção da ação de maior valor em seu estado atual. Segundo Andrade (2004), para convergir para a função Q* (Q ótima) é necessário que cada par de estados seja visitado um grande número de vezes. Figura 1 - Tabela de aprendizado Q. Fonte: Andrade, 2004, p. 21 Uma estratégia muito utilizada no Q-Learning é a exploração, chamada de - Greedy, que executa uma ação com o maior valor de Q com probabilidade de 1 - e escolhe uma ação aleatória com

probabilidade. Portanto, a transição de estados é dada pela regra (WATKINS, 1989) (3): π s t = a random se q, arg max a t Q t s t, a t caso contrário (3) onde q é o valor escolhido de maneira aleatória com probabilidade uniforme em [0,1]; a random : é uma ação aleatória selecionada entre as ações existentes no estado s t. O processo de aprendizado baseia-se na recompensa obtida a cada movimento do agente. O funcionamento dá-se da seguinte forma: o jogador com a posse da bola executa uma ação aprendida, como por exemplo, chutar para o gol. Caso a bola seja perdida, o jogador que estiver mais perto do adversário, tentará pegar a posse da bola de volta. O aprendizado só ocorre com o jogador que tiver com a bola. A técnica Q-Learning, que recebe uma informação pelo modelo do mundo e determina o estado do agente s t e a ação a t que ele deve executar (sendo a t = argmax (Q(s t+1,a t+1 )). Depois de aplicado a ação é possível determinar o reforço r por ter escolhido a ação e o próximo estado s t+1 que o agente se encontra. Após a execução desta técnica, as informações são atualizadas na tabela de aprendizado Q. Os reforços são determinados pelas ações, que podem ser positivas ou negativas, realizadas pelo agente (goleiro, defensor ou atacante), levando em conta a situação em que se encontra o agente no momento da ação. Deste modo, são estipulados diferentes reforços para diferentes tipos de cenários. 3 Experimentos Foram programados três agentes: um goleiro, um atacante e um defensor nos quais serão identificados, dentro do simulador virtual 3D, pelo time RobFei. Em todos os agentes foi implementado uma política no algoritmo de aprendizado por reforço, Q- Learning, onde a seleção da ação é feita com base em uma política de Max (maior) valor de Q. Esta política é executada aproximadamente 90% das vezes em cada episódio, ou seja, toda vez que o agente atinge a meta, e apenas 10% das vezes (Ɛ=0.10) a escolha da ação é feita de forma aleatória. Portanto para o estado em questão a ação a ser tomada agora é escolhida com base no maior valor entre estas ações. Todos os experimentos foram realizados utilizando o algoritmo Q-Learning, com os seguintes parâmetros: = 0.9, = 0.125, e taxa de exploração Ɛ-greedy= 0.10. A escolha dos reforços e a quantidade de reforços necessários foram determinados por meio de testes já realizados por outros autores (PEGORARO, 2001; BIANCHI, 2004; CELIBERTO, 2012; DORER, GLASER, 2013). 3.1 Aprendizado do goleiro O agente precisa aprender a defender o gol contra outro jogador. As ações que este agente pode realizar são: a) parado: não executa nenhum movimento; b) direita: andar para a direita; c) esquerda: andar para a esquerda; d) cair para a direita: cair para o lado direito para fazer a defesa do gol; e) cair para a esquerda: cair para o lado esquerdo para fazer a defesa do gol; f) levantar: ficar na posição em pé; g) chutar a bola: levar a bola para frente, dando chutes fracos; h) pegar a bola: o agente pode pegar a bola; i) posição de defesa: determina uma posição que se a bola for chutada para o gol, é possível defender o gol. Os valores de reforços utilizados para esta experiência são mostrados na tabela 1. Tabela 1 - Reforços para o goleiro Situação Reforço Pegar a bola 100 Gol tomado -100 As ações não citadas na tabela 1, para o aprendizado do goleiro, não recebem reforços, ou seja, recebem o valor zero. 3.2 Aprendizado do defensor O agente defensor fará a interceptação da bola e com isso tentará retirar a bola da área de defesa, evitando assim a possibilidade de gol do adversário. As ações que o defensor pode realizar são: a) parado: não executa nenhum movimento; b) pegar a bola do adversário: determina a melhor posição e velocidade de deslocamento para poder interceptar a bola; c) chutar a bola para fora da área de defesa: chutar a bola na direção contrária do gol e em direção ao campo do time adversário; d) passe para o atacante: chuta a bola na direção do atacante. Os valores de reforços utilizados para esta experiência são mostrados na tabela 2. Tabela 2 - Reforços para o defensor Situação Reforço Pegar a bola do adversário 100 Adversário com a posse da bola -10 Fazer um passe para o agente atacante 50 As ações não citadas na tabela 2, para o aprendizado do defensor, não recebem reforços, ou seja, recebem o valor zero.

3.3 Aprendizado do Atacante O agente precisa aprender a fazer gols. As ações que o atacante pode realizar são: a) parado: não executa nenhum movimento; b) pegar a bola do adversário: determina a melhor posição e velocidade de deslocamento para poder interceptar a bola; c) fazer gol: chutar a bola na direção do gol; d) chutar a bola para outro atacante: chuta a bola para outro atacante do seu time. Os valores de reforços utilizados para esta experiência são mostrados na tabela 3. Tabela 3 - Reforços para o atacante Situação Reforço Fazer gol 100 Adversário com a posse da bola -10 Pegar a bola do adversário 50 As ações não citadas na tabela 3, para o aprendizado do atacante, não recebem reforços, ou seja, recebem o valor zero. Figura 2 - Média Geral de defesas efetuadas pelo agente goleiro. 4.2 Agente defensor RobFei O defensor, utilizando o algoritmo Q-Learning, evoluiu a quantidade de defesas, na partida de número quinze, para um valor médio de quatro defesas por partida, conforme demonstra a figura 3. 4 Resultados Visando o aprendizado dos agentes RobFei, foram executados oitenta episódios completos com o algoritmo de aprendizado por reforço, Q-Learning, suficientes para definir o estado de convergência e conseqüentemente escolherem qual melhor posição ou caminho que este agente deve fazer. Após a matriz Q estar totalmente convergida, o algoritmo de aprendizado por reforço não é executado mais, e são utilizado os valores de Q já convergidos para cada agente. Os resultados de cada agente mostra a evolução do algoritmo de aprendizado por reforço em cada partida. Cada partida tem aproximadamente dez minutos de duração, divididos em dois tempos de cinco minutos cada. 4.1 Agente goleiro RobFei Nota-se que utilizando o algoritmo Q-Learning, o goleiro inicia o aprendizado sofrendo uma média de dez gols por jogo e consegue defender uma quantidade mínima de gols. Na partida de número quinze, o goleiro já consegue defender uma média de cinco gols por jogo, conforme demonstra a figura 2. Figura 3 - Quantidade de defesas efetuadas pelo agente defensor. 4.3 Agente atacante RobFei Pode-se perceber que, utilizando o algoritmo Q- Learning, o atacante inicia o aprendizado conseguindo fazer uma média de um gol por jogo e na partida de número quinze, este valor sobe para aproximadamente cinco gols por jogo, conforme demonstra a figura 4. Figura 4 - Quantidade de gols efetuados pelo agente atacante.

4.4 Análise do Aprendizado por reforço dos agentes Foi analisado a evolução dos valores da tabela Q, durante o aprendizado por reforço dos agentes, e estes valores são compostos da diferença dos valores de Q(s,a), para todos os estados e ações, entre dois instantes de tempo, conforme a fórmula (4): Q t 1 Q t = s S, a A Q t s, a Q t 1 (s, a) (4) Os valores encontrados permitem verificar a convergência do algoritmo. No começo do aprendizado a diferença encontrada entre duas tabelas mostra que os agentes ainda estão aprendendo. Porém, depois de certo tempo, a diferença é mínima. A figura 5 mostra os resultados obtidos pela subtração da tabela Q t 1 Q t em uma média de 100 episódios, os resultados são apresentados com barras de erro. aprendizado por reforço, foi capaz de marcar vários gols e ganhar por várias partidas contra a equipe magmaoffenburg que utiliza outra técnica de aprendizado. Tabela 4 - Total de Gols x Média x Desvio padrão para a primeira experiência Time Total de Gols Média de Gols x Desvio Padrão magmaoffenburg 14 0.46 ± 0.57 RobFei 30 1 ± 0.78 Tabela 5 - Total de Gols x Média x Desvio padrão para a segunda experiência Time Total de Gols Média de Gols x Desvio Padrão magmaoffenburg 11 0.36 ± 0.55 RobFei 27 0.9 ± 0.71 O teste t de student foi aplicado aos resultados das quinze partidas e gerou um resultado para análise, conforme tabelas 6 e 7. Tabela 6 - Teste-t na primeira experiência Figura 5 - Diferença Quadrática da tabela Q para os agentes. Time Time RobFei magmaoffenburg Média 0,466666667 1 Variância 0,326436782 0,620689655 P(T<=t) bi-caudal 0,00408903 t crítico bi-caudal 2,008545949 5 Discussões Os resultados gerados foram analisados segundo o teste t de student (SPIEGEL, 1984; NEHMZOW, 2000). O teste t de student foi usado para verificar a média entre trinta jogos de duas experiências. A primeira experiência é de um time que utiliza metaheurísticas como aprendizado, existente na RoboCup 3D desde 2009 chamado magmaoffenburg (DORER, GLASER, 2013), com um goleiro e dois atacantes, contra um time com aprendizado por reforço com um goleiro, um atacante e um defensor, o time criado neste artigo chamado RobFei. A segunda experiência é realizada com os mesmos times citados acima, porém o time magmaoffenburg conta com um goleiro e quatro atacantes, e o time RobFei conta com um goleiro, dois atacantes e dois defensores. As tabelas 4 e 5 apresentam, respectivamente para a primeira experiência e para a segunda experiência, a quantidade de gols de cada time, a média e o desvio padrão. Pode-se observar que o time RobFei, utilizando-se das técnicas do Tabela 7 - Teste-t na segunda experiência Time Time RobFei magmaoffenburg Média 0,366666667 0,9 Variância 0,309195402 0,506896552 P(T<=t) bi-caudal 0,002149402 t crítico bi-caudal 2,004745949 Analisando o teste t de student, conforme os dados das tabelas 6 e 7, conclui-se que o valor bicaudal é menor que 0.05 (5%) então se rejeita a hipótese nula, pois existe uma diferença entre as médias dos dois grupos. Portanto, conforme a tabela de distribuição de t de student, um valor bi-caudal inferior à 0.010, temse o valor de 2.660 que corresponde a um valor menor que 5% de probabilidade nas duas caudas, conclui-se então que o algoritmo do time RobFei tem um desempenho superior ao algoritmo do time magmaoffenburg, que utiliza uma estratégia diferente. Conclui-se que o time RobFei aprendeu a jogar futebol e que já está apto a participar de

campeonatos, tal como o da RoboCup 3D, tendo como possibilidade aprender a jogar durante uma partida contra times que possuam diferentes estratégias de aprendizado e ainda assim obter um bom resultado. 6 Conclusão O futebol de robôs é um grande desafio para o desenvolvimento dos robôs humanoides, já que o robô deve se movimentar e ter comportamentos semelhantes a jogadores reais. Programar agentes robóticos humanoides, composto por um goleiro, um defensor e um atacante, em um simulador de futebol de robôs, considerando a arquitetura existente e ainda utilizando a técnica de aprendizado por reforço exige muito tempo de processamento. Conclui-se que o aprendizado por reforço é uma solução para problemas quando um agente robô precisa atuar em um local desconhecido por meio de tentativa e erro. Esta técnica realmente faz com que o agente aprenda ao longo de suas partidas tornando-o mais inteligente e tendo autonomia para tomar suas próprias decisões. O uso do aprendizado por reforço nos agentes, utilizando o algoritmo Q-Learning, melhorou o desempenho e reduziu o espaço de busca realizado pelos agentes, indicando o melhor caminho que estes deveriam seguir. Para uma melhora nos resultados, propõe-se para os trabalhos futuros: aplicar as generalizações espaciais QS (RIBEIRO, 1998), com base nos resultados do último experimento e distribuindo os resultados de uma experiência para outros estados sucessores, ou seja, fazendo o espalhamento /atualização de pares valor-ação em experiências que até mesmo não estão envolvidas na iteração; trabalhar com outros algoritmos de aprendizado por reforço, tais como: Minimax-Q (LITTMAN, 1994) e Sarsa (SUTTON, 1996), para tornar o agente melhor em campo; fazer com que os agentes se comuniquem entre si e façam trocas de experiências, assim os agentes tendem a aprender mais rapidamente. Agradecimentos Agradeço ao professor Dr. Reinaldo A. C. Bianchi, do Centro Universitário da FEI, pelo apoio dado em todo o desenvolvimento deste projeto e para a conclusão deste artigo. Referências Bibliográficas ANDRADE, G. (2004). Aprendizagem por reforço e adaptação ao usuário em jogos eletrônicos. Universidade Federal de Pernambuco, Recife. BIANCHI, R. A. C. (2004). Uso de heurísticas para a aceleração do aprendizado por reforço. Tese (Doutorado) Escola Politécnica da Universidade de São Paulo. Departamento de Engenharia de Computação e Sistemas Digitais. São Paulo. CELIBERTO, L. A. (2012). Aprendizado por reforço acelerado por transferência de aprendizado baseado em casos. Tese (Doutorado), Instituto Tecnológico de Aeronáutica, São José dos Campos. DORER, K.; GLASER, S. (2013). The magmaoffenburg 2013 RoboCup 3D simulation team. Germany: Hochschule Offenburg, Elektrotechnik-Information stechnik. KITANO, H.; et al. (1997). The RoboCup Synthetic Agents Challenge. Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI). LITTMAN, M.L. (1994). Markov games as a framework for multi-agent reinforcement learning. Machine Learning, Vol.11, pp. 157-163. MITCHELL, T. M. (1997). Machine Learning. McGraw-Hill Education, New York, NY, USA. NEHMZOW, U. (2000). Mobile robotics: a practical introduction. Heidelberg: Springer-Verlag, Berlin. PEGORARO, R. (2001). Agilizando aprendizagem por reforço em robótica móvel através do uso de conhecimento sobre o domínio. Tese de Doutorado da EPUSP, São Paulo. RIBEIRO, C. H. C. (1998). Embedding a priori knowledge in reinforcement learning. Journal of Intelligent and Robotic Systems, Vol. 21, pp. 51 71. SPIEGEL, M. R (1984). Estatística. 2. ed. São Paulo: McGraw-Hill. SUTTON, R. S. (1996). Generalization in reinforcement learning: successful examples using sparse coarse coding. In: Advances in Neural Information Processing Systems. The MIT Press, Vol. 8, pp. 1038 1044. WATKINS, J. C. H. (1989). Learning from Delayed Rewards. Tese (Doutorado), Universidade de Cambridge, Inglaterra.