INVESTIGAÇÃO E IMPLEMENTAÇÃO DE UM SISTEMA INTELIGENTE COM APRENDIZAGEM POR REFORÇO

Transcrição

1 Anais do XVIII Encontro de Iniciação Científica e Pós-Graduação do ITA XVIII ENCITA / 212 Instituto Tecnológico de Aeronáutica São José dos Campos SP Brasil 17 de outubro de 212 INVESTIGAÇÃO E IMPLEMENTAÇÃO DE UM SISTEMA INTELIGENTE COM APRENDIZAGEM POR REFORÇO Victor Ribeiro Moura Instituto Tecnológico de Aeronáutica H8B apto. 21 CTA São José dos Campos/SP Bolsista PIBIC-CNPq vicrmoura@gmail.com Caio Henrique Coutinho Instituto Tecnológico de Aeronáutica Rua José Antônio de Oliveira 173 Jardim Morumbi São José dos Campos/SP caiohcoutinho@gmail.com Adilson Marques da Cunha Instituto Tecnológico de Aeronáutica Divisão de Ciência da Computação Praça Marechal Eduardo Gomes São José dos Campos/SP cunha.adilsonmarques2@gmail.com Resumo. Embora a inteligência artificial se apresente hoje como uma área da computação em expansão existe a necessidade de se criar formas rápidas e práticas de se aplicar suas técnicas em problemas diversos. Este projeto criou uma espécie de sistema inteligente sob a forma de uma biblioteca de código. Ela recebe um conjunto de classes pré-definidas e por meio de experimentos repetidos executa o treinamento de Redes Neurais que avaliam o valor de cada ação em dado estado para que se escolha a melhor. Este treinamento se executa a partir da técnica de aprendizagem por reforço SARSA. A construção do sistema inteligente realizou-se com êxito os testes com o Jogo da velha mostraram seu funcionamento e eficiência e o estudo de caso realizado no domínio do futebol de Robô mostrou sua capacidade de convergência embora tenha se observado o fenômeno de underfitting neste último caso. Palavras chave: SARSA Aprendizagem por Reforço Inteligência Artificial Sistemas Inteligentes. 1. Introdução O tema proposto para este trabalho de Iniciação Científica (IC) encontra-se relacionado com uma das áreas da computação em maior evidência atualmente a aprendizagem de máquina. A aprendizagem por reforço representa um de seus métodos baseada na tentativa e erro em que o supervisor fornece ao agente apenas informações sobre o resultado de suas ações satisfatórias ou não (Russell e Norvig 23). A aplicabilidade deste método se dá especificamente em ambientes com as propriedades de Markov ou seja se cada um de seus estados depende apenas do progresso realizado em um conjunto finito de estados anteriores (Russell e Norvig 23). Com esta característica encontram-se diversas questões especialmente as de robótica tanto em baixo nível como equilíbrio e movimentação quanto em alto nível como planejamento e coordenação de agentes múltiplos. Dessa forma o desenvolvimento de modos de aplicação do aprendizado por reforço em sistemas com Inteligência Artificial (IA) é condição necessária para o desenvolvimento de plataformas autônomas. De certo modo existe uma carência por mecanismos e ferramentas práticas para se aplicar tal conceito em problemas diversos obtendo-se resultados rápidos e eficientes. Com isto a criação de um sistema inteligente para aplicação de métodos de IA cumpriria este papel. Este trabalho de Iniciação Científica (IC) tem por objetivo desenvolver um método e/ou uma técnica para aplicabilidade da aprendizagem por reforço em um sistema inteligente de modo que ele possa aperfeiçoar sua precisão na resolução de problemas específicos. Dentre os algoritmos de aprendizagem por reforço dá-se o nome de State-Action-Reward-State-Action (SARSA) ou Modified Connectionist Q-Learning (MCQ-L) ao algoritmo que aplicado na forma proposta por (Rummery 1994) associa a cada ação uma rede neural. Esta recebe como entrada as variáveis de estado e retorna o valor real Q uma função de valor do par estado-ação. A rede é treinada iterativamente. Os passos do algoritmo podem ser observados na Figura 1.

2 1.!! = ; 2.! = ; 3. Selecionar ação!! ; 4. Se! > realizar as correções de peso:!! =!!!! +!.!!!! +!!!!!!!.!!!! ; 5. Calcular!!! com respeito apenas à ação!! ; 6.!! =!!! +!"!!!! ; 7. Executar!! e receber! ; 8. Se o estado final não foi atingido!! + 1 e ir para o passo 3. Figura 1. Algoritmo SARSA (Rummery 1994). 2. Material e Métodos Inicialmente realizou-se uma pesquisa literária para a obtenção de conhecimentos básicos sobre métodos técnicas e ferramentas de IA. Dentre os principais assuntos pesquisados incluíram-se: sistemas inteligentes redes neurais artificiais aprendizagem de máquina e aprendizagem por reforço. Além disto buscaram-se formas de aplicação destas técnicas com praticidade para que elas pudessem ser utilizadas em diversos domínios e testadas em problemas concretos e em diferentes níveis de complexidade. Esta pesquisa de IC compõe-se de três fases: Pesquisa Bibliográfica e Capacitação realizada nos dois primeiros bimestres; Desenvolvimento do método e elaboração de um sistema inteligente proposto nos dois próximos bimestres; e Aplicação do sistema em um estudo de caso atividade realizada nos últimos dois bimestres. A primeira fase englobou a reunião de um apanhado de técnicas recentes algoritmos importantes e dados bibliográficos relevantes ao estudo. A segunda referiu-se ao desenvolvimento e implementação do método para a utilização da técnica de aprendizado por reforço SARSA em um sistema inteligente. Finalmente na última fase aplicou-se a técnica em um estudo de caso no domínio dos jogos para aperfeiçoar a técnica de roubada de bola de um robô em uma simulação de futebol. Dessa forma ao fim deste ano de trabalho dispõe-se de conhecimentos e de prática nos aspectos explorados durante a pesquisa. Dentre eles: a realização de inferências em sistemas inteligentes; a construção e o treinamento de redes neurais artificiais; a aplicação de aprendizado por reforço utilizando-se de algoritmos como Q-Learning e SARSA; a criação de bibliotecas em C++; e a utilização do servidor RCSoccerSim (Chen et. al 22) empregado no estudo de caso. 3. Resultados e Discussão Ao longo desta seção discutiram-se os resultados obtidos durante a segunda e a terceira fase do projeto que se referem ao desenvolvimento do sistema inteligente e seu teste Desenvolvimento do Método Como descrito na seção 1 esta pesquisa de IC teve como objetivo a criação de uma forma prática para a aplicação de métodos de aprendizagem de máquina dentro do escopo dos problemas com a propriedade Markoviana Requisitos do Sistema Inteligente Para que se pudesse definir o formato desse sistema inteligente especificaram-se inicialmente alguns requisitos: Portabilidade; Facilidade de entendimento e uso; Abrangência com relação aos tipos de problemas; Eficiência; e Implementação de método de aprendizagem por reforço. O método escolhido baseou-se na criação de uma biblioteca em C++ de modo que funcionasse como um sistema inteligente. Isto porque o formato de biblioteca garante elevada portabilidade. Além disto a implementação em C++ contribui para a facilidade de entendimento e uso visto que esta constitui uma linguagem bastante utilizada e conhecida no meio da computação.

3 Além disso optou-se pelo algoritmo SARSA de aprendizagem por reforço uma vez que ele cobre de forma eficiente abrangente quantidade de problemas em IA aqueles caracterizados por ambientes contínuos com a propriedade de Markov Estrutura e Implementação do Sistema Inteligente Um dos primeiros passos para a construção de uma forma adaptável de aplicação do algoritmo foi a escolha da estrutura do sistema inteligente. A estrutura adotada esquematiza-se de acordo com a Figura 2. Percepção) (classe) Percep&on)) Ambiente) Agente)(classes)SARSA)e) NeuralNetwork)) Ação)(classe) Ac&on)) Figura 2. Estrutura adotada para o sistema inteligente. Conforme a Figura 2 verifica-se que o sistema se compõe de quatro classes em C++: Action Perception SARSA e NeuralNetwork. As duas últimas constituem o processo de aprendizagem do agente enquanto as duas primeiras são responsáveis pela interação deste com o ambiente. A classe Action implementa os comandos básicos necessários às ações desempenhadas pelo agente. Já a classe Perception recebe as percepções do ambiente realizadas pelo agente transformando-as em entradas para as redes neurais. A classe SARSA centraliza a tomada de decisões de acordo com o algoritmo de aprendizagem. Finalmente a classe NeuralNetwork constitui-se dos métodos e estruturas de uma rede neural feedforward à qual cada ação se associa. O código fonte encontra-se disponível e pode ser obtido no seguinte endereço eletrônico < Uso do Sistema Inteligente Para utilizar o sistema inteligente cabe ao usuário definir o ambiente os sensores e as ações disponíveis. Desta forma faz-se necessário implementar: O ambiente que deve ser alterado a cada ação executada e progredir de forma cíclica ou não; A classe MyPerception derivada da Perception que completa seus métodos virtuais os quais transformam as leituras dos sensores em entradas para as redes neurais; e As classes correspondentes a cada ação disponível herdando da classe Action e implementando seus métodos virtuais os quais executam e fazem as verificações necessárias às ações. 3. Para que se dê o processo de aprendizagem deve-se inicializar e iterar conforme a estrutura apresentada na Figura

4 // Inicialização SARSA* brain; MyPerception perception; vector<action*allocator<action*> > actionarray; ////// Inicializar ações no vetor de ações brain = new SARSA(&perception actionarray); brain->setparameters(alpha lambda gamma numberhiddenunits tempini tempfim numiterations); // No início de cada episódio brain->initepisode(); // Em cada iteração perception.setinputs(); if(train){ perception.setreward(); action = brain->learningiteration(); } else action = brain->choosebestaction(); if (action>=) actionarray[action]->execute(); // Finalização brain->saveweights(); Figura 3. Estrutura a ser aplicada para a utilização do algoritmo Teste do Sistema Inteligente Jogo da Velha Para que o funcionamento do sistema inteligente fosse testado e se pudesse exemplificar sua aplicação ele foi aplicado em um experimento envolvendo o aprendizado do Jogo da velha. Este jogo se baseia nas seguintes regras (< Acesso em: 2 de junho de 212): O tabuleiro forma-se por uma matriz de três linhas por três colunas; Dois jogadores escolhem uma marcação cada um geralmente um círculo (O) e um xis (X); Os jogadores jogam alternadamente uma marcação por vez em uma lacuna que esteja vazia; e Objetiva-se conseguir três círculos ou três xis em linha quer horizontal vertical ou diagonal e ao mesmo tempo quando possível impedir o adversário de ganhar na próxima jogada. Figura 4. Exemplo de partida do Jogo da Velha em que o jogador com xis (X) é vencedor. (< Acesso em: 2 de junho de 212). Para que o sistema inteligente pudesse aprender uma política ótima para o jogo implementaram-se: a classe Mark derivada de Action; a classe MyPerception derivada de Perception; e o programa TicTacToe que simula o jogo e o adversário possibilitando o treinamento do agente. O código fonte pode ser encontrado no seguinte endereço eletrônico < Basicamente o programa TicTacToe define o adversário os parâmetros de treinamento o número de iterações e simula as partidas alternando quem as inicia. Em cada rodada ele aciona o respectivo jogador o qual escolhe uma ação segundo sua política de jogo.

5 O conjunto de ações possíveis se caracteriza pela marcação de posições livres do tabuleiro. Cada ação recebe uma rede neural a qual avalia o valor de realizá-la no estado atual. O tabuleiro constitui-se de uma matriz 3x3 de inteiros com os valores: para espaço vazio; 1 para o primeiro jogador; e 2 para o segundo. Estes valores por meio das funções de percepção são transmitidos como entrada para as redes neurais. O adversário empregado no aprendizado foi escolhido de duas formas. Primeiramente realizou-se treinamento contra um adversário baseado numa política simples que executa uma entre três ações na seguinte ordem de prioridade: marcar se for possível uma fileira para vencer; marcar caso seja necessário uma fileira para não perder; e marcar uma posição aleatória. Em seguida realizou-se um treinamento contra outro aprendiz. As recompensas/penalidades fixadas consistiram em: -1 para derrota; para empate; e 1 para vitória. Contra o primeiro adversário testaram-se diversas configurações para os parâmetros do algoritmo quais sejam a taxa de aprendizagem (α) o fator de desconto (γ) o parâmetro de elegibilidade (λ) o número de células na camada intermediária das redes neurais e a temperatura da distribuição de Boltzmann. Nota-se nas Figuras de 5 a 9 a relação entre os parâmetros e as médias de vitórias empates e derrotas. 5 5 Média de partidas alpha Figura 5. Média de partidas em função do parâmetro alpha variando-se os outros parâmetros..7.6 Média de partidas Temperatura Figura 6. Média de partidas em função do parâmetro temperatura variando-se os outros parâmetros.

6 5 5 Média de Partidas lambda Figura 7. Média de partidas em função do parâmetro lambda variando-se os outros parâmetros..7.6 Média de partidas gamma Figura 8. Média de partidas em função do parâmetro gamma variando-se os outros parâmetros..7.6 Média de partidas Número de células Figura 9. Média de partidas em função do número de células intermediárias na rede neural variando-se os outros parâmetros.

7 A partir dos dados obtidos pode-se inferir que a configuração com maior quociente entre o número de vitórias e o número de derrotas encontra-se próxima àquela com! =!! =.8! =.8 4 células na camada intermediária de cada rede neural e.7 para a temperatura de Boltzmann. Para esta configuração a convergência do algoritmo pode ser observada na Figura Média de Partidas Número de Iterações x 1 4 Figura 1. Média de partidas em função do número de iterações para a configuração que maximiza o quociente entre o número de vitórias e o número de derrotas. Esta mesma configuração foi empregada para o treinamento entre dois aprendizes para o que se chegou ao resultado representado na Figura 11 em que o jogador 1 inicia o primeiro jogo do Jogador 1 do Jogador 2.7 Média de Partidas Número de Iterações x 1 4 Figura 11. Média de partidas em função do número de iterações para a mesma configuração da Figura 1 mas entre dois aprendizes. Nota-se que esta configuração de parâmetros parece não ter gerado convergência para a política ótima do jogo na qual ambos minimizariam a média de derrotas o que por conseguinte maximizaria a média de empates. 3.2 Estudo de Caso Simulador de Futebol em duas Dimensões Esta subseção se refere à aplicação do sistema inteligente a um estudo de caso e à análise de seus resultados.

8 3.2.1 Requisitos e Escolha do Estudo de Caso A busca por um problema específico para a realização de um estudo de caso levou em consideração dois fatores: A complexidade do problema que deveria ser suficiente para colocar em prova a capacidade de convergência e aperfeiçoamento do algoritmo; e O caráter realístico do problema simulando por exemplo uma aplicação real em robótica. Dessa forma após um período de pesquisas decidiu-se pela utilização do sistema para o treinamento de um time de futebol de robôs em uma plataforma de simulação com duas dimensões. Isto porque como será mais bem detalhada a seguir esta aplicação mostrou-se conveniente interessante e desafiadora Robocup Soccer2D Como uma renomada competição mundial de robótica a RoboCup possui foco em futebol de robôs e ocorre anualmente envolvendo diversas categorias com robôs simulados e reais. Ela tem por objetivo a promoção do desenvolvimento da robótica e da IA de tal forma que na metade do século 21 um time de robôs autônomos vença a última seleção campeã da Copa do Mundo de futebol humano (< Acesso em: 5 de fevereiro de 212). Em uma de suas categorias a chamada RoboCup Soccer Simulation League 2D competem times de simulação de futebol de robôs autônomos em duas dimensões. As características e a forma de utilização do servidor de simulação (RCSoccerSim) encontram-se em (Chen et. al 22). A Figura 12 ilustra uma partida nele simulada. Figura 12. Campo do Simulador RCSoccerSim (< Field.jpg>. Acesso em: 1 de fevereiro de 212). Aplicando-se o sistema inteligente criado esta pesquisa de IC realizou um estudo de caso para aperfeiçoar a aptidão de roubada de bola de um time-base dessa categoria conhecido como Agent2d (Akiyama et al. 27). A aplicação baseou-se nos testes realizados em (Gabel et al. 28). Dentre os desafios encontrados neste estudo de caso encontram-se as dificuldades práticas de manipulação do servidor e do código do time-base. Além disto este problema se apresenta como uma tarefa complexa para o algoritmo devido a sua alta dimensionalidade às incertezas (o simulador impõe incertezas e limitações na realização das ações e nos dados por ele fornecidos) e ao caráter multi-agente da tarefa Estrutura e Implementação do Estudo de Caso A aprendizagem consistiu basicamente da repetição exaustiva de episódios em que um agente disputa a bola com o adversário. Em cada episódio inicializa-se o ambiente da seguinte forma: Marcador no centro de uma das quatro possíveis configurações representadas na Figura 13 com orientação aleatória; Atacante com uma posição e orientação randômica em torno do centro da configuração dentro do semicírculo de raio 3 metros entre o marcador e o gol ou dentro do semicírculo de raio 5 metros com o marcador entre ele e o gol; e Bola dentro da região em que o atacante pode chutar com o vetor velocidade escolhido aleatoriamente.

9 Figura 13. Possíveis configurações iniciais para o treinamento (Gabel et al. 28). As ações possíveis para o agente (marcador) são: girar em ângulos múltiplos de 15 e mover-se com 5 possíveis valores de velocidade. Tais ações ocorrem de forma inexata bem como se medem a posição orientação e velocidade de todos os componentes do treinamento com erros. Desta forma fixaram-se as seguintes entradas para as redes neurais: Distância para o oponente; Ângulo relativo ao oponente; Módulo da velocidade do oponente; Módulo da velocidade do agente; Distância do agente para a bola; Ângulo do agente relativo à bola; Ângulo do oponente em relação à reta que liga o agente ao centro do gol; e Ângulo entre os segmentos que ligam o oponente ao agente e o oponente ao gol. Cada episódio pode acabar: com vitória se o marcador dominar a bola ou se ele puder alcançá-la em tempo menor que o adversário ou se a probabilidade dele conseguir tomá-la for maior ou igual a 75%; com derrota se o adversário se afastar mais de 7 metros do marcador ou se o episódio durar mais que 35 ciclos ou se a probabilidade do adversário marcar um gol for maior que 5%. No primeiro caso fixou-se a recompensa recebida em +1 enquanto que no segundo em -1. Ainda em cada ciclo o agente é recompensado por sua proximidade à bola segundo a função:!! ! 1!"!!!!"#$â!"#!!!"é!!!!"#$!!"#!!"#$%!!"#!1!!"#$%&!"!!!!"#$â!"#$!!!!"é!!!!"#$!!"#!!"#$%!!"!!"#$%!!!1!!"#$%&!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!(1) Seguindo as instruções de uso do sistema inteligente como exposto e exemplificado nas seções anteriores utilizaram-se as classes básicas do sistema combinadas com a simulação do ambiente realizada pelo servidor (Chen et. al 22) a classe MyPerception e as classes para as ações possíveis Resultados Alcançados Após a execução do algoritmo com diversas combinações de parâmetros verificou-se que uma combinação que fornecia uma maior quantidade de roubadas de bola foi! =.95!! =.99! = 6 células na camada intermediária de cada rede neural e para a temperatura de Boltzmann. Para esta configuração a convergência pode ser verificada a partir da Figura 14.

10 - - Recompensa Média Número de Iterações Figura 14. Recompensa média recebida pelo marcador em função do número de iterações. Observando o resultado ao final do treinamento verificou-se que o aprendiz não apresentou desempenho satisfatório. Isto porque como se pode observar na Figura 15 a quantidade de derrotas permaneceu muito alta (superior a 8%) e a recompensa média embora tenha aumentado durante os treinamentos convergiu para um mínimo local de valor negativo..9.8 Média de Partidas Número de Iterações Figura 15. Média de partidas em função do número de iterações para um conjunto de parâmetros escolhido por meio de testes. Isso caracterizou a ocorrência do fenômeno de underfitting significando que o modelo desempenhou-se de forma muito simplista durante o processo de aprendizagem. Isto é ele não foi capaz de distinguir padrões importantes a partir de seu treinamento. Algumas possíveis explicações para esse underfitting podem ser: A necessidade de critérios mais apurados para a escolha dos parâmetros podendo-se aplicar algum método de otimização; Baixa quantidade de iterações; A escolha de uma função de recompensa cuja minimização não resulta no desempenho esperado para o que seria necessária outra função de recompensa; e O método de inteligência artificial proposto não foi capaz de lidar com o grau de complexidade do problema ou com os erros injetados pelo servidor.

11 4. Conclusões e Recomendações Esta pesquisa em nível de Iniciação Científica realizou-se com êxito de acordo com os termos da proposta de trabalho. Ao fim de dois semestres o bolsista familiarizou-se com as fontes bibliográficas concernentes ao tema capacitou-se nos métodos necessários ao desenvolvimento do projeto envolvendo: a utilização de bibliotecas em C++; a aplicação de artifícios de Inteligência Artificial (IA); e a aprendizagem de máquina. Assim pode-se desenvolver e aplicar a técnica proposta que se baseia na criação de um sistema inteligente para treinar redes neurais de modo a se aprender políticas ótimas em espaços Markovianos. Além disso o bolsista entrou em contato com a plataforma de simulação de futebol em duas dimensões utilizada para o estudo de caso na etapa final do projeto em que se verificou a capacidade de convergência do algoritmo. Todavia devido à elevada complexidade da tarefa e a outros possíveis fatores descritos na seção o modelo desempenhou-se de forma muito simplista durante o processo de aprendizagem. Dessa forma a construção do sistema inteligente constituiu apenas um primeiro passo para a construção de formas mais simples e rápidas de se utilizar algoritmos de IA. Recomenda-se como continuação deste trabalho de pesquisa que o algoritmo implementado seja submetido à otimização de seus parâmetros a um maior número de iterações e que sua função de recompensa possa vir a ser remodelada. Assim resolver-se-iam os problemas detectados no estudo de caso. Sugere-se para trabalhos futuros a expansão do sistema inteligente com a implementação de novos algoritmos de IA como por exemplo métodos de planejamento e localização para agentes os quais poderiam ainda ser aplicados ao estudo de caso de futebol de robôs. 5. Agradecimentos O autor deste trabalho de Iniciação Científica agradece às pessoas envolvidas no Projeto e diretamente ligadas a ele: ao Prof. Dr. Adilson Marques da Cunha; e ao Aluno de Pós-Graduação do ITA Caio Henrique Coutinho. Até este momento essas pessoas forneceram a oportunidade de aquisição de muitos conhecimentos nas áreas de IA Sistemas Inteligentes e Métodos de Aprendizagem. Agradece-se também ao CNPq que vinculado ao Ministério da Ciência e Tecnologia (MCT) apoia a pesquisa brasileira e contribui diretamente para a formação de jovens pesquisadores investindo e promovendo o aumento da produção de conhecimento e gerando novas oportunidades para universitários desejosos em iniciar uma vida de pesquisa e desenvolvimento nas diversas áreas do conhecimento. 6. Referências Russell D.E. e Norvig P. 23 Artificial Intelligence: a modern approach 2nd ed. Prentice-Hall. Chen M. Foroughi E. Heintz F. Huang Z. Kapetanakis S. Kostiadis K. Kummeneje J. Noda I. Obst O. Riley P. Steffens T. Wang Y. e Yin X. 22 User s Manual: RoboCup Soccer Server for Soccer Server Version 7.7 and Later The RoboCup Federation. Rummery G. e Niranjan M On-line Q-learning using Connectionist systems technical report no. 166 University of Cambridge Engineering Department. Akiyama H. Shimora H. e Noda I. 27 Helios27 team description The RoboCup Federation. Gabel T. Reidmiller M. e Trost F. 28 A Case Study on Improving Defense Behavior in Soccer Simulation 2D: The NeuroHassle Approach The RoboCup Federation.