CES Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov

Transcrição

1 CES Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov Prof. Paulo André Castro pauloac@ita.br Sala 110, IEC-ITA

2 Aprendizado - paradigmas Aprendizado supervisionado O crítico comunica a EA o erro relativo entre a ação que deve ser tomada idealmente pelo EE e a ação efetivamente escolhida pelo agente. Pares (corretos) de entrada/saída podem ser observados (ou demonstrados por um supervisor). Aprendizado por reforço O crítico comunica apenas uma indicação de desempenho (indicação de quão bom ou ruim é o estado resultante), por vezes de modo intermitente e apenas quando situações dramáticas são atingidas (feedback indireto, com retardo). Aprendizado não-supervisionado O crítico não envia nenhum tipo de informação ao EA, não há pistas sobre as saídas corretas (geralmente utiliza-se regularidades, propriedades estatísticas dos dados sensoriais) Busca-se encontrar padrões ou estruturas / agrupamentos nos dados. Inclui por exemplo técnicas de clusterização 2/80

3 Decisões Sequenciais em Ambientes Estocásticos O resultado imediato (próximo estado) não depende apenas do estado atual e da ação do agente, outros fatores influenciam de modo não plenamente conhecido (estocástico) O estado atual e a ação tomada definem um conjunto de possíveis estados sucessores com as respectivas probabilidades O agente tem como objetivo maximizar seu retorno acumulado a longo prazo Decidir por um caminho ruim agora é plenamente aceitável se no futuro houver recompensa significativa 3/80

4 Problema de Decisão Sequencial O problema de decisão sequencial ocorre quando a cada passo o agente deve: 1. Observa o estado do sistema; 2. Escolhe e realiza uma ação; (Sistema evolui para um novo estado) 3. Observa um reforço imediato 4. Repetir os passos 1 3 Assume-se tempo discreto 4/80

5 Example 5/80

6 Exemplo - 2 6/80

7 Processo Decisório de Markov (Markov Decision Process) Método de decisão para problema de decisão sequencial pode ser modelado como um modelo de transição Markoviano e reforços aditivos O qualificador Markov significa que as transições dependem de um subconjunto dos últimos estados e da ação selecionada. 7/80

8 Formal Definition of a MDP 8/80

9 Formal definition of a MDP - 2 9/80

10 Formal definition of a MDP /80

11 Exemplo 1: Controle de Inventário Problema: comprar uma quantidade de um certo produto a intervalos regulares (em um total de N intervalos) de modo a satisfazer uma certa demanda Estado: s k = estoque no começo do período k Ação: a k = compra feita no começo do período k Uma perturbação aleatória w k = demanda no período k, respeitando uma certa distribuição de probabilidade Reforço r k = r(s k ) + ca k, onde r(s k ) é o custo de estocar s k unidades do produto no período k e c é o custo unitário do produto comprado /80

12 Exemplo 1: Controle de Inventário Evolução do estado: s k+1 = s k + a k - w k Função de custo a ser minimizada: N 1 ( ) E r( s ) + ( r( s ) + ca ) V s o = N k= 0 k k 12/80

13 Exemplo 2: Pêndulo Invertido Problema: controlar um pêndulo invertido exercendo forças +F ou -F sobre a base do carrinho (controle bang-bang). Controlar significa não permitir que a barra caia +F -F 13/80

14 Exemplo 2: Pêndulo Invertido Estado: quádrupla Ação a k : +F ou -F xt, x t, θt, θ t Reforço: -1 em caso de falha, senão 0. ( ) Evolução do estado: s k+1 = f(s k, a k ) (?) Possível função recompensa a ser maximizada: V = k s o E γ r t=0 ( ) desconto temporal γ < 1: POR QUÊ? t 14/80

15 O que é uma solução para um Problema de Markov? Uma sequencia de ações (plano) pode resolver um ambiente Estocástico? Políticas (ou Estratégia) versus Planos Formalização 15/80

16 O que é uma solução para um Problema de Markov? Exemplo: Controle de Movimentação de robô modelado como um PDM No início, robô está em l1 (estado s 1 ) Objetivo é levar o robô até l4 (estado s 4 ) Robô pode deslizar ao tentar se mover de uma posição para outra 16/80

17 Exemplo MDP 17/80

18 MDP Robot /80

19 MDP Robot /80

20 MDP Robot /80

21 Seqüencia não funciona É necessário uma função que mapeie estados a ações. Esta função é chamada de estratégia ou politica(policy) 21/80

22 Policies for the Grid World 22/80

23 Exemplos de Políticas Problema 2 23/80

24 Initial state It is possible to define a probability distribution over states for the first, but for simplicity. Let s define s 0 24/80

25 History: sequence of states 25/80

26 History: sequence of states /80

27 History: sequence of states /80

28 History: sequence of states -4 28/80

29 Qualidade de Políticas Em um PDM com transicões não deterministicas, Uma política pode garantir alcançar sempre o estado objetivo em um determinado número de passos ou custo? Como definir quando uma política é melhor que outra? Chegar ao estado objetivo é o bastante? É necessário uma forma de medir a qualidade de uma dada política. Como? 29/80

30 Qualidade de Políticas - 2 Qual o valor de uma política? Valores são na verdade associados a históricos Mas como vimos, políticas induzem uma distribuição de probabilidades sobre históricos. Assim Essa qualidade (ou utilidade) pode ser medida através do valor esperado da adoção de uma política. 30/80

31 Política Ótima Pode-se definir política ótima (π*) como a política com o maior valor esperado. Pergunta: Pode-se afirmar que ao adotar um política ótima um agente A sempre obterá maior valor que outro agente B com uma política não ótima em um dado período de tempo? 31/80

32 Reinforcements can be negative (cost) or positive (reward) 32/80

33 Algum problema com recompensa infinita? 33/80

34 Discounted Reinforcements Time should influence the value of a reinforcement?. A 100 dollars reward now or 100 dollars reward six months from now are the same? Problems with infinitive time require discounted reinforcements! Why? 34/80

35 Value with discounted reinforcement 35/80

36 Otimalidade de Políticas e Horizonte A maximização do valor esperado é o critério mais utilizado para determinar otimização de políticas. Entretanto, isso é dependente do número de passos (decisões) que o agente dispõe para agir. Isto é comumente chamado de horizonte de tomada de decisão. O horizonte pode ser finito ou infinito 36/80

37 MDP de Horizonte Finito e Políticas Estacionárias 37/80

38 Stationary policies and Infinite Horizons 38/80

39 Policy Value with Infinite Horizon 39/80

40 Política Ótima Já vimos que uma política ótima (π * ) é aquele com maior valor esperado, então podemos definir: Como encontrar uma politica ótima dado um MDP? 40/80

41 An algorithm to calculate the optimal policy 41/80

42 Value Iteration Algorithm 42/80

43 Value Iteration Algorithm - 2 or 43/80

44 Exemplo Deterministico Função de Valor 44/80

45 Exemplo /80

46 Calculando V(s) Considerando r(s,a) e fator de desconto igual a 1 46/80

47 Outro Exemplo Gridworld 47/80

48 Discussão da Iteração de Valor Algoritmo de Iteração de valor computa um novo valor a cada iteração e escolhe a política baseado nesses valores Este algoritmo converge em número de iterações em tempo polinomial do número de estados O número de estados pode ser muito grande em problemas reais e É necessário examinar o espaço inteiro em cada iteração. Por tal razão, o algoritmo demanda significativa quantidade de tempo e espaço para problemas com grande número de de estados Há algoritmos alternativos como iteração de política Além disso, a função de transição propabilística p e os retornos devem ser conhecidos, mas muitas vezes não é este o caso! 48/80

49 Processo Decisório de Markov e Aprendizado por reforço

50 Markov Decision Process and Reinforcement Learning 50/80

51 Two options: Learn a model (p,r) or solve directly 51/80

52 Parameter Estimation 52/80

53 Problems in Parameter estimation 53/80

54 Estimate value function directly 54/80

55 Exploitation (Explotação) vs Exploration (Exploração) 55/80

56 Armed bandit (Caça-níqueis) 57/80

57 Opções. Agir aleatoriamente? Mudar de máquina a cada vez que perder? Melhor que aleatório, mas não é ótimo Estimar o retorno de cada máquina através de contagem e depois permanece na melhor?. Como estimar? 58/80

58 Estimation: Frequentism Average Reward: if I choose an action a, K a times and receive the rewards r 1, r 2, r k then I can estimate the reward It is possible to prove that as k grows it converges to the expected value of reward. How to define the actions? 59/80

59 Como selecionar ações? 60/80

60 Strategies 61/80

61 Alguns Resultados com E-greedy 62/80

62 Q Function: value of the pair state-action Let s take an action a and then continue optimally 64/80

63 Q Function: value of the pair state-action We will see an algorithm to estimate Q* 65/80

64 Exemplo 66/80

65 Um algoritmo para o aprendizado da Função Q (Q-Learning) O algoritmo Q-Learning (Watkins, 1989) baseia-se em simulações de Monte Carlo e no algoritmo Robbins-Monro Simulações Monte-Carlo baseiam-se na amostragem de estados para estimar seus valores (abordagem força bruta) Algoritmo Robbins-Monro permite aprender uma função onde um de seus parâmetros é uma variável aleatória com distribuição de probabilidade conhecida, utilizando uma taxa de aprendizagem α que se altera ao longo do tempo segundo certas condições. Maiores informações sobre a dedução do Q-Learning, Monte Carlo e Robbins-Monro podem ser obtidas em: Reinforcement Learning: An Introduction, Sutton,R. and Barko,A. MIT Press /80

66 Q-Learning 68/80

67 Learning rate and convergence 69/80

68 Guaranteed to converge to Q* if 70/80

69 Um exemplo bastante simples 72/80

70 Exemplos de aplicações 73/80

71 Problemas com Q-Learning 74/80

72 Problemas com Q-Learning /80

73 Conclusões sobre Aprendizado por Reforço Aprendizado por reforço permite que se aprenda a política ótima, mesmo sem saber previamente a função de probabilidade de transição (p) ou a função de recompensa imediata (r) Aprendizado por reforço tem dificuldades em lidar com grande número de estados ou grandezas contínuas, vários algoritmos alternativos (sarsa, por exemplo) tentam obter treinamento mais rápido Aproximações da função Q (redes neurais) ou mais recentemente Deep Reinforcement Learning (DQN) tem sido pesquisados com resultados promissores... Mais referências: Rorcementeinf Learning: An Introduction, Sutton,R. and Barko,A. MIT Press Bertsekas,D. and Tsitsiklis, J.N. Neurodynamic programming. Athena Scientifc. Belmont. Massachusetts /80

74 Exercício: Modele o problema abaixo como um problema de aprendizado por reforço Cada célula representa uma possível localização para um robô. O robô inicia em uma posição qualquer do tabuleiro, escolhida aleatoriamente com distribuição uniforme entre as células. As células (2,3) e (6,2) tem ouro, o que significa um retorno imediato de +100 utils e reinício do jogo. Ao entrar em uma célula habitada pelo monstro (Wumpus) há um retorno imediato de -100 e também reinício do jogo. Ao entrar em uma célula com poço (pit) o reforço imediato é de -50 mas não há reinício do jogo. Há um custo de movimento de -1 a cada movimento. 79/80

75 Uma possível Modelagem Estados = [[(1,1)..(1,4)], [(2,1)..(2,4)] [(8,1)..(8,4)]], 32 estados Ações= [Up,Left,Right,Down] p: Para cada ação, 0,6 no sentido comandado e 0,4 para a direita. Exceto para as células (2,3), (6,2) e (1,3) cuja transição é ir para qualquer outro estado com probabilidade 1/32 R: (2,3) e (6,2) tem retorno +100, (1,3) tem retorno de e os demais retorno /80