- PDF Free Download

Transcrição

1 APRENDIZADO POR REFORÇO MULTIAGENTE MULTIOBJETIVO ACELERADO POR HEURÍSTICAS APLICADO AO PROBLEMA DA PRESA E PREDADOR Leonardo A. Ferreira, Carlos H. C. Ribeiro, Reinaldo A. C. Bianchi Centro Universitário da FEI, Av. Humberto de Alencar Castelo Branco, 3972 São Bernardo do Campo, São Paulo, Brasil Instituto Tecnológico da Aeronáutica, Praça Marechal Eduardo Gomes, 50 São José dos Campos, São Paulo, Brasil s: laferreira@fei.edu.br, carlos@ita.br, rbianchi@fei.edu.br Abstract This article introduces two possibles solutions for Heuristically Accelerated Multi-Agent Multi- Objective Reinforcement Learning: the first solution uses an algorithm that has only one Value-Action function and must learn all objectives from various reinforcement values, while the second uses an algorithm that divides the learning process in modules, each one responsible for learning only one objective independently from the others.for testing we used the Predator-Prey Problem, in which the learning agent plays the role of the prey and must learn to avoid the predator while reaching for the food. From the results it is possible to conclude that the algorithm that uses modules learns faster than the others, and the heuristics used accelerated even more the learning process. Resumo Este artigo apresenta duas possíveis soluções para problemas de Aprendizado por Reforço Multiagente Multiobjetivo Acelerado por Heurística: a primeira é o uso de um algoritmo que possui apenas uma função Valor-Ação que deve aprender todos objetivos a partir de diferentes valores de reforços recebidos, enquanto a segunda solução é um algoritmo que divide o processo de aprendizado e utiliza cada módulo resultante da divisão para apenas um objetivo. Para testar os algoritmos foi utilizado o problema da Presa e Predador, onde um agente aprendiz assume o papel de presa e deve aprender a fugir do predador que o persegue enquanto busca comida. A partir dos resultados conclui-se que o algoritmo que divide os objetivos aprende mais rapidamente do que os demais, e a heurística utilizada é capaz de acelerar mais ainda o aprendizado. Palavras-chave Aprendizado por Reforço, Aceleração, Heurísticas, Multiagentes, Multiobjetivos 1 Introdução Algoritmos de Aprendizado por Reforço (RL) procuram encontrar a solução ótima de problemas através da interação com o ambiente. Estes algoritmos já foram estendidos na literatura para ambientes em que o agente que aprende deve interagir com outros agentes tanto de forma cooperativa quanto competitiva para encontrar uma melhor sequência de ações até a solução do problema. Entretanto, em domínios com múltiplos objetivos, a solução ótima de um objetivo pode não ser ótima para os outros, e o critério utilizado para selecionar a melhor ação pode influenciar na política de ações encontrada pelo agente que aprende por reforço. Este trabalho apresenta uma comparação entre quatro métodos de RL para um domínio que inclui tanto as características de múltiplos agentes quanto de diversos objetivos o problema da Presa e Predador, onde o agente que aprende deve encontrar a comida em uma posição de um ambiente ao mesmo tempo que foge de um predador que o persegue e propõe o algoritmo HAMQL (Q-Learning Modular Acelerado por Heurísticas) que é capaz de aprender a solucionar este tipo de problema utilizando o conceito de aprendizado modular introduzido por Singh (1992), junto com o algoritmo Minimax-Q proposto por Littman (1994). Para acelerar o processo de aprendizado, o HAMQL utiliza heurísticas retiradas do ambiente, de modo similar ao algoritmo HAQL proposto por Bianchi (2004). Os resultados mostram que a divisão em módulos facilita o aprendizado, pois diminui o espaço de estados de cada objetivo, tornando-o mais rápido do que os métodos que trabalham com todos os objetivos simultaneamente. As heurísticas utilizadas no HAMQL aceleram ainda mais o aprendizado, pois ajudam o agente a encontrar a solução ótima com menor número interações diretas com o ambiente. Este artigo está organizado da seguinte maneira: a seção 2 apresenta os conceitos fundamentais do Aprendizado por Reforço. As seções 3 e 4 apresentam os algoritmos de RL voltados a problemas com múltiplos agentes e a aceleração por heurísticas aplicada ao RL. Em seguida, na seção 5, é introduzido o conceito de RL modular e a divisão em módulos introduzida por Singh (1992) e utilizada por Humphrys (1997) para a solução de problemas com múltiplos objetivos. Na seção 6 é descrito o algoritmo proposto HAMQL seguido pela seção 7 em que é introduzido o domínio da Presa e Predador utilizado para os testes. Finalmente, a seção 8 apresenta os resultados experimentais, e a seção 9 encerra com as conclusões do trabalho. ISSN: Vol. X 57

2 2 Aprendizado por Reforço Aprendizado por Reforço (RL) é uma classe abrangente de métodos de controle que procuram estimar o valor de funções a partir da experiência, simulação e busca (Sutton, 1996). Em um problema de RL, um agente aprendiz interage com o ambiente com a finalidade de adquirir conhecimento sobre o mundo ao seu redor a partir de reforços recebidos durante esta interação. Estes reforços podem ser positivos ou negativos, dependendo do estado em que o agente se encontra em determinado instante, e são utilizados a partir da experiência adquirida na interação para atualizar um funcional dos reforços (função valor), cujo valor para um determinado estado representa o quão útil este o é para o agente. De modo mais geral, a função valor também pode produzir o valor de cada ação possível em cada estado, e é definida utilizando como base a Teoria de Processos Markovianos de Decisão (PMD), em que o problema é formalizado a partir de uma quádrupla S, A, T, R onde S representa o conjunto de estados do ambiente, A o conjunto de ações que o agente aprendiz pode executar, T : S A (S) é a função de transição de estados e R : S A R representa a função que fornece o reforço recebido pelo agente ao executar cada ação do conjunto A em cada um dos estados de S. O algoritmo de RL mais utilizado atualmente é o Q-Learning proposto por Watkins (1989). Neste algoritmo um agente aprendiz atualiza os valores de uma função Valor-Ação Q(s t, a t ), que produz para cada par estado-ação s t, a t um valor indicativo da qualidade da escolha da ação no estado em questão, assumindo uma política ótima a partir da iteração seguinte. A partir da interação com o ambiente e da utilização dos reforços recebidos para a atualização da função Valor-Ação, existem condições teóricas que garantem o aprendizado da política ótima π que descreve a melhor sequência de ações dentre as disponíveis para cada estado possível. A regra de atualização dos valores Q considerando que a ação a t foi executada no estado s t é descrita pela equação 1. Q(s t, a t ) Q(s t, a t )+ [ α r t+1 + γ max a ] Q(s t+1, a) Q(s t, a t ) 3 Aprendizado por Reforço Multiagente (1) O algoritmo Q-Learning pode ser estendido para tratar de problemas onde mais de um agente atua no ambiente. Para tanto, uma possibilidade é utilizar como base a Teoria de Jogos de Markov (JM), que são uma extensão da Teorias dos Jogos para os PMDs. Um JM difere de um PMD por considerar também as ações que podem ser tomadas pelos outros agentes. Formalmente um JM pode ser definido pela tupla S, A 1,..., A i, T, R onde S, T e R são respectivamente o conjunto de estados, a função de transição de estados e os reforços que serão fornecidos ao agente aprendiz, e A 1 à A i são os conjuntos de ações disponíveis para cada um dos i agentes existentes. Uma simplificação dos JM muito estudada é a que considera apenas dois agentes, sendo um deles o oponente. Este tipo de jogo é a base para o algoritmo Minimax-Q, proposto por Littman (1994), que escolhe a melhor ação a ser executada no estado atual procurando maximizar o valor do estado futuro ao mesmo tempo que minimiza o do adversário. O algoritmo atua da mesma forma que o Q-Learning, mas utiliza os conceitos do algoritmo Minimax para problemas com mais de um agente. Enquanto o Q-Learning atualiza Q(s t, a t ) de acordo com o valor máximo das ações permitidas no estado seguinte, o algoritmo Minimax-Q utiliza também o valor mínimo das ações do oponente, conforme mostrado pela equação abaixo: V (s) = max min Q(s, a, o) π a (2) π P D(A) o O a A 4 Aprendizado por Reforço Acelerado por Heurísticas A utilização de heurísticas para acelerar o RL foi proposta originalmente por Bianchi (2004). No Aprendizado por Reforço Acelerado por Heurísticas (HARL), além da função Q(s t, a t ) o agente também utiliza uma função heurística H(s, a), atualizada a partir da interação com o ambiente. O valor de H(s, a) é então usado no instante de seleção de ação conforme a equação: a random, se q ɛ π(s t ) = max [Q(s t, a t ) + H(s t, a t )], a t (3) caso contrário onde π(s t ) é a política que vai ser seguida, a random é uma ação selecionada aleatoriamente, Q(s t, a t ) é o valor ao executar a ação a t no estado s t, e H(s t, a t ) é o valor da heurística calculada para o par estado-ação. As variáveis q e ɛ servem para controlar a taxa de exploração. O algoritmo Q-Learning modificado utilizando Heurísticas foi proposto por Bianchi et al. (2008) e está descrito no algoritmo 1. Assim como o Q-Learning, o Minimax-Q também pode ser acelerado por heurísticas utilizando as mesmas regras mostradas anteriormente. Da mesma forma que no Q-Learning, a função Heurística é utilizada no instante da seleção de ação ISSN: Vol. X 58

3 Inicialize Q(s t, a t ) arbitrariamente. Determine a heurística H(s t, a t ) utilizando o método adequado. Repita: Visite o estado s t. Selecione uma ação a t a partir da combinação correta da função Valor-Ação e da função Heurística. Receba a recompensa r(s t, a t ). Atualize H(s t, a t ). Observe o próximo estado s t+1 Atualize os valores de Q t (s t, a t ) usando: Q(s t, a t ) Q(s t, a t ) + α [ r + γ Q(s t+1, a t+1 ) Q(s t, a t )]. Atualize o estado: s t s t+1. Até que algum critério de parada seja atingido. Algoritmo 1: Algoritmo HAQL (Bianchi et al. 2008). Inicialize Q(s t, a t, o t ) e H(s t, a t, o t ). Repita: Visite o estado s t. Selecione uma ação a t a partir da combinação correta da função Valor-Ação e da função Heurística. Execute a t e observe a ação o t do oponente Receba a recompensa r(s t, a t, o t ) Observe o próximo estado s t+1 Atualize os valores de H(s t, a t, o t ) Atualize os valores de ˆQ t (s t, a t, o t ) usando: ˆQ(s t, a t, o t ) ˆQ(s t, a t, o t ) + α [r(s t, a t, o t )+ γ V t (s t+1 ) ˆQ(s ] t, a t, o t ) Atualize o estado: s t s t+1. Até que algum critério de parada seja atingido. Algoritmo 2: Algoritmo HA-Minimax-Q (Bianchi et al. 2007). e atualizada a cada episódio do aprendizado, de acordo com o algoritmo proposto por Bianchi et al. (2007) e mostrado no algoritmo 2. 5 Aprendizado por Reforço Multiobjetivo A forma de resolução de problemas de RL com múltiplos objetivos utilizada neste trabalho baseia-se na arquitetura de RL modular proposta por Singh (1992) e utilizada para a resolução de problemas com múltiplos objetivos através do W- Learning proposto por Humphrys (1997). A decomposição do aprendizado em módulos que se dedicam a apenas um objetivo é promissora, pois permite que os espaços de estados de cada módulo seja menor e com função de reforços mais simples (Sousa, 2007). Juntamente com estes conceitos, o algoritmo proposto também é influenciado pelo RL Distribuído proposto por Mariano and Morales (2000). No W-Learning, o aprendizado é dividido em módulos e cada um destes é responsável pelo aprendizado da política ótima de apenas um objetivo. Entretanto, apesar do W-Learning considerar que a interação com o ambiente atualiza todos os módulos ao mesmo tempo, o estado terminal de um módulo não força o início de um novo episódio, mas continua o aprendizado a partir daquele estado, como se o agente não estivesse chegado ao fim do episódio, o que não é adequado a um caso real (Sousa, 2007). O algoritmo MDQL proposto por Mariano and Morales (2000) estende o Q-Learning Distribuído utilizando agentes independentes para cada objetivo. No MDQL, cada agente atualiza uma função Valor-Ação de somente um objetivo e apenas ao final do episódio de todos os agentes, uma tabela Q que considera todos os objetivos do aprendizado é atualizada a partir da melhor solução encontrada por todos os agentes. Porém, no episódio seguinte, o agente utilizará para seu aprendizado os valores da função Valor-Ação que considera todos os objetivos e não a tabela Q respectiva ao seu único objetivo. 6 O algoritmo HAMQL O objetivo deste trabalho é unir algumas das característica dos algoritmos apresentados anteriormente para conseguir resolver de uma forma simples um problema de Aprendizado por Reforço Multiagente Multiobjetivo Acelerado por Heurísticas. O HAMQL reúne as características mais interessantes dos algoritmos para problemas com múltiplos objetivos de forma a realiza o aprendizado em módulos independentes, com interações independentes e atualizando tabelas independentes, para que o aprendizado de um objetivo não afete e não seja afetado pelo aprendizado dos demais. O conceito de divisão de objetivos permite a realização do aprendizado de forma modular, com cada módulo utilizando apenas informações relevantes a seu objetivo. Desta forma, para um problema Multiagente Multiobjetivo podemos ter uma camada com um algoritmo Minimax-Q (que trabalha apenas no problema com diversos agentes) e outro somente com o Q-Learning que resolve os problemas que não possuem outros agentes. Se cada objetivo é aprendido de forma independente dos outros módulos então pode-se utilizar heurísticas independentes para cada um como forma de aceleração do aprendizado. Para isto basta substituir o algoritmo de RL pelo seu equivalente com heurística (Minimax-Q por HA- Minimax-Q ou Q-Learning por HAQL). ISSN: Vol. X 59

4 Apesar do aprendizado ser feito em módulos, a interação final do agente com o ambiente acontece considerando todos os objetivos ao mesmo tempo, portanto após o aprendizado é necessário uma função que consiga selecionar a melhor ação a ser executada pelo agente a partir dos valores Q i (s t, a) de todas as ações a no estado atual s t fornecidos por cada módulo. Para realizar a seleção este trabalho utiliza o mesmo método que o algoritmo Maximização da Satisfação Coletiva de Humphrys (1997) onde é feita a soma dos valores Q(s t, a t ) de todas as ações possíveis de serem executadas no estado atual para todos os objetivos. Este método é interessante pois uma vez que na convergência todas as ações de todos os estados possíveis de serem visitados possuem um valor diferente do inicial (causado pelas atualizações) e considerando que o valor de uma ação é uma forma de computar a importância desta para que o agente consiga alcançar o seu objetivo, a soma destes valores é capaz de fornecer uma medida de quão interessante é executar aquela ação naquele estado, para todos os objetivos considerados. O algoritmo que foi utilizado neste trabalho para resolver o problema de Aprendizado por Reforço Multiagente Multiobjetivo Acelerado por Heurísticas é dividido em módulos onde cada aprendizado é executado separadamente dos demais (primeiro é executado n episódios considerando o apenas um dos objetivos e depois n somente o outro). Os algoritmos de cada módulo possuem suas próprias heurísticas baseadas somente em seus objetivos (heurísticas independentes) e só são utilizadas no instante de seleção da ação durante o aprendizado. No instante da seleção da ação as heurísticas não são consideradas. Finalmente, o HAMQL utilizado neste trabalho é apresentado no algoritmo 3. 7 Experimentos Realizados O problema da Presa e Predador foi utilizado para comparar o resultado do aprendizado de quatro algoritmos testados: o primeiro algoritmo utiliza apenas uma função Valor-Ação com múltiplos reforços (Q-Learning), o segundo o mesmo algoritmo do anterior só que acelerado por heurísticas (HAQL). Os outros dois algoritmos são o HAMQL proposto neste trabalho e a sua versão sem aceleração por heurísticas. O ambiente para esse problema é um mundo de grades de 5x5 que permite aos agentes a execução de quatro ações: ir para cima, baixo, direita e esquerda. Em uma posição fixa no mapa encontra-se a comida, que é um dos estados terminais do domínio. Além da comida e da presa existe um predador, que tenta capturar esta última utilizando um algoritmo que considera a posição da presa para escolher a ação a ser realizada Algoritmo de Aprendizado Repita para os n objetivos: Inicialize a função Valor-Ação Q n (s, a) Inicialize a função Heurística H n (s, a) Aprenda a política ótima π n utilizando um algoritmo de RL apropriado Algoritmo de Seleção de Ação Repita: Observe o estado s t Para cada uma das i ações faça: Para cada um dos n objetivos faça: a i = n 0 an i Selecione a ação a t a ser executada utilizando: a t = max a i i Executa a ação a t Atualize o estado: s t s t+1 Até que algum critério de parada seja atingido. Algoritmo 3: Algoritmo HAMQL com heurísticas independentes. e quando o consegue capturar o domínio chega ao fim do episódio. O agente aprendiz é a presa, e seu objetivo é chegar a comida sem ser capturado pelo predador. Nos algoritmos que utilizam somente uma Função Valor-Ação foi utilizado apenas uma tabela que contém as posições x e y e as ações a do agente, junto com as posições ox e oy do predador. Nos algoritmos que utilizam a divisão dos objetivos em módulos, um módulo ficou responsável por aprender a chegar a comida (objetivo 1) e o outro a fugir da presa (objetivo 2). As funções Valor-Ação utilizadas foram representadas em duas tabelas com as posições x e y e a ação a do agente para o objetivo 1, e com x e y e a do agente junto com as posições ox e oy e a ação o do oponente (predador) para o objetivo 2. Para escolher a ação a ser realizada após o aprendizado foi utilizado a soma dos valores das funções Valor-Ação de cada objetivo. Para o estado atual s(x, y, ox, oy) cada módulo passa os valores Q de todas as ações para a função de Seleção de Ação. Esta faz a soma de todos os valores e escolhe a ação com o valor máximo para ser executada. Os reforços utilizados para todos os algoritmos foram +100 para cada vez que o agente encontra a comida, -100 quando é capturado e -1 para qualquer outro estado visitado. Os valores das heurísticas são +10 para as ações que levam a presa a comida e que a afasta do predador e -10 caso contrário. A taxa de aprendizado foi fixada em α = 0.2 e o desconto em γ = 0.9 Para todos os algoritmos foram feitos 30 testes de episódios com amostragem a cada 10 episódios. Para os algoritmos com divisão em ISSN: Vol. X 60

5 Diferença Quadrática Média HAQL Q Learning MQL HAMQL Número de Passos Médios do Objetivo HAMQL MQL Episódio Episódio Figura 1: Diferença Quadrática Média dos algoritmos dos quatro algoritmos utilizados, onde HAMQL e MQL indicam os algoritmos modulares utilizando ou não heurísticas. módulos foram realizados 10 episódios de cada objetivo para a amostragem. Os resultados mostram a média dos 30 testes para cada instante amostrado. Nem todos os gráficos mostram os resultados de todos os episódios para não dificultar a compreensão que seria causada pela grande quantidade de pontos ilustrados. 8 Resultados A melhor forma encontrada de comparar diretamente os quatro algoritmos testados foi calculando a média dos 30 testes da Diferença Quadrática da tabela Q, pois quanto menor este valor mais perto da convergência o agente aprendiz se encontra. Para os algoritmos que possuem somente uma função Valor-Ação o valor foi utilizado diretamente na comparação, quando o agente utilizava duas tabelas (uma para cada objetivo) foi utilizado a soma dos valores absolutos da diferença quadrática entre os valores de Q(s t, a t ) de cada tabela. Neste método faz-se a soma dos quadrados das diferenças de cada valor Q do episódio atual com o do episódio anterior, conforme a equação a seguir. s = (Q t (s, a) Q t 1 (s, a)) 2 (4) A partir do gráfico que apresenta a Diferença Quadrática Média dos quatro algoritmos (figura 1) podemos perceber que a heurística utilizada durante o aprendizado acelera o processo quando utilizamos múltiplos reforços para aprender ambos objetivos. Quando utilizamos a divisão em módulos a diferença quadrática inicia com um valor muito mais baixo do que quando somente o Q-Learning é aplicado. A influência da heurística para os algoritmos com divisão módulos é de difícil visualização no gráfico de Diferença Quadrática, pois para ambos o valor é muito pequeno. Figura 2: Comparação entre o número de passos até o objetivo 1 somente entre os algoritmos com divisão em módulos. A segunda camada do aprendizado é responsável por aprender a fugir do predador e, portanto, deve aumentar o número de ações executadas (passos) a medida que o aprendizado avança. Na figura 3 observa-se que o número de passos oscila para ambos algoritmos, porém também percebe-se que já no início do aprendizado o HAQL consegue realizar mais passos antes do estado terminal do que o Q-Learning. A comparação da quantidade de passos entre os quatro algoritmos não foi feita, pois enquanto os aprendizados com múltiplos reforços devem diminuir o número de passos com o passar do tempo, a divisão em módulo prevê o aumento deste no objetivo 2, tornando a comparação inadequada. Porém a diferença entre estes algoritmos é claramente visível quando analisamos o número de passos necessários até cada objetivo (figuras 2 e 3). Como o domínio do mundo de grades possui tamanho de 5x5 e a comida encontra-se no canto superior direito do mapa, a quantidade máxima de passos que o agente deve realizar (considerando que este inicia o episódio no canto oposto a comida) afim de chegar ao objetivo é oito quatro movimentos na vertical e quatro na horizontal. Analisando o gráfico da figura 2 percebemos que a convergência deste objetivo é rápida para ambos algoritmos que realizam divisão modular das tarefas, porém a utilização de heurísticas permite ao agente já iniciar o aprendizado mais próximo da política ótima deste objetivo. 9 Conclusão O HAMQL, que foi proposto neste trabalho, separa o aprendizado dos objetivos, simplificando o espaço de estados e tornando o aprendizado acelerado por Heurísticas mais rápido. Assim como os objetivos, as heurísticas foram tratadas de forma independente, sendo calculadas focando na aceleração de apenas um objetivo de cada vez. O ISSN: Vol. X 61

6 Número de Passos Médios do Objetivo HAMQL MQL Agradecimentos Leonardo Anjoletto Ferreira agradece o apoio do CNPq e Reinaldo A. C. Bianchi agradece o apoio da FAPESP (Processo número 2011/ ). Carlos H. C. Ribeiro agradece o apoio do CNPq (Processo número /2010-4). Referências Episódio Bianchi, R. A. C. (2004). Uso de Heurísticas para a Aceleração do Aprendizado por Reforço, Tese de Doutorado, USP. Figura 3: Comparação entre o número de passos até o objetivo 2 somente entre os algoritmos com divisão em módulos. resultado final foi um aprendizado muito mais rápido do que o Q-Learning com múltiplos reforços, sendo capaz de conseguir resolver o problema proposto com muito menos interações com o ambiente e levando menos tempo. Entre os trabalhos futuros possíveis estão a comparação com outros algoritmos de Aprendizado por Reforço que específicos para problemas com múltiplos agentes e multiobjetivos e o estudo dos algoritmos que fazem atualização de uma só vez em todos os módulos, mas que utilizem uma interação com o ambiente diferente daquela utilizada no W-Learning, onde o fim do episódio não é identificado pelo agente aprendiz alcançar o estado terminal, somente pelo número de passos. Outro ponto importante a ser estudado futuramente é o modo como é feito a seleção de ação, pois utilizando a soma não-ponderada não é possível garantir que o valor da ação boa para todos os objetivos terá valor maior que a ação que é somente boa para alguns. Entretanto a soma dos valores Q(s t, a t ), que foi utilizada neste trabalho, é capaz de encontrar uma política que consegue resolver o problema, mas outras formas de soma ponderada e a mudança dos valores dos reforços mudam o comportamento do agente aprendiz. O estudo destes diferentes comportamentos é interessante uma vez que todas são possíveis soluções para um problema com múltiplos objetivos. Uma outra forma possível de selecionar a ação é utilizando fronteira de Pareto no lugar da soma ponderada, uma vez que esta nem sempre é capaz de encontrar a solução ótima (Vamplew et al., 2008) A heurística foi calculada de forma independente para cada camada, porém esta também pode ser calculada de outras formas, algo que também deve ser estudado. Bianchi, R. A. C., Ribeiro, C. H. C. and Costa, A. H. R. (2007). Heuristic selection of actions in multiagent reinforcement learning, IJCAI, pp Bianchi, R. A. C., Ribeiro, C. H. C. and Costa, A. H. R. (2008). Accelerating autonomous learning by using heuristic selection of actions, Journal of Heuristics 14(2): Humphrys, M. (1997). Action selection methods using reinforcement learning, PhD thesis, University of Cambridge. Littman, M. L. (1994). Markov games as a framework for multi-agent reinforcement learning, 11th ICML, pp Mariano, C. and Morales, E. (2000). A new distributed reinforcement learning algorithm for multiple objective optimization problems, Vol of Lecture Notes in Computer Science, pp Singh, S. (1992). Transfer of learning by composing solutions of elemental sequential tasks, Machine Learning 8(3): Sousa, C. d. O. (2007). Aprendizagem por Reforço de Sistemas com Múltiplos Objectivos: o Problema da Selecção de Acções, Dissertação de Mestrado, Universidade Técnica De Lisboa. Sutton, R. S. (1996). Generalization in reinforcement learning: Successful examples using sparse coarse coding, Advances in Neural Information Processing Systems 8, MIT Press, pp Vamplew, P., Yearwood, J., Dazeley, R. and Berry, A. (2008). On the limitations of scalarisation for multi-objective reinforcement learning of pareto fronts, Vol of Lecture Notes in Computer Science, pp Watkins, C. J. C. H. (1989). Learning from Delayed Rewards, PhD thesis, University of Cambridge. ISSN: Vol. X 62