lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning)

Tamanho: px

Começar a partir da página:

Download "lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning)"

Luiz Guilherme Furtado Osório
4 Há anos
Visualizações:

1 lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning)

2 Processo Decisório de Markov e Aprendizado por Reforço Quando falamos sobre Processo decisório de Markov e formalizamos o problema como uma tupla <S,A,p,r>. Assumimos que nós sabiamos S,A, p e r e então buscamos uma solução ótima, isto é, uma função ou política que tivesse o maior retorno esperado. Em aprendizado por reforço (Reinforcement Learning), nós queremos um agente que tenha um bom desempenho em um mundo MDP, mas que começa sem saber nada sobre p ou r

3 Como resolver o problema sem p e r? Idéias? Opção A: Aprender p e r e depois utilizar as técnicas conhecidas para encontrar a função de valor e assim a política ótima Opção B: Estimar a função de valor diretamente sem explicitamente calcular p ou r.

4 Como descobrir políticas sem conhecer as probabilidades e retornos

5 Estimativa de Parâmetros

6 Problemas com Estimativa de Parâmetros

7 Estimar a função de valor diretamente

8 Como escolher as ações?

9 Exemplo: Caça-níqueis (Armed bandit)

10 Opções. Agir aleatoriamente? Mudar de máquina a cada vez que perder? Melhor que aleatório, mas não é ótimo Estimar as probabilidades de cada máquina através de contagem e depois permanece na melhor. Como estimar?

11 Estratégias

12 Alguns Resultados com E-greedy

13 Lembrando MDP e definindo Função Q..

14 PDM e Aprendizado por Reforço

15 Exemplo

16 Um algoritmo para o aprendizado da Função Q (Q-Learning) O algoritmo Q-Learning (Watkins, 1989) baseia-se em simulações de Monte Carlo e no algoritmo Robbins- Monro Simulações Monte-Carlo baseiam-se na amostragem de estados para estimar seus valores (abordagem força bruta) Algoritmo Robbins-Monro permite aprender uma função onde um de seus parâmetros é uma variável aleatória com distribuição de probabilidade conhecida, utilizando uma taxa de aprendizagem α que se altera ao longo do tempo segundo certas condições. Maiores informações sobre a dedução do Q-Learning, Monte Carlo e Robbins-Monro podem ser obtidas em: Reinforcement Learning: An Introduction, Sutton,R. and Barko,A. MIT Press. 1998

17 Q-Learning

18 Taxa de Aprendizado e Convergência

19 Taxa de Aprendizado e Convergência

20 Algoritmo Q-Learning

21 Um exemplo bastante simples

22 Exemplos de aplicações

23 Problemas com Q-Learning

24 Problemas com Q-Learning - 2

25 Q-Learning: Exercício

26 Outro algoritmo para RL: SARSA

27 Q-Learning x SARSA Q-Learning é o método mais usado É do tipo off-policy (não é necessário seguir uma política) Sarsa Por eliminar o uso de uma função de maximização, tende a ser mais rápido que Q-Learning, quando há grande número de ações possíveis Tem basicamente as mesmas condições de convergência Permite descontar diferenças temporais gerando um Sarsa(λ) similar a algoritmos TD(λ)

28 Conclusões sobre Aprendizado por Reforço Aprendizado por reforço permite que se aprenda a política ótima, mesmo sem saber previamente a função de probabilidade de transição (p) ou a função de recompensa imediata (r) Aprendizado por reforço é uma tecnologia promissora, há muita pesquisa sendo feita na área e também aplicações real world Mais referências: Reinforcement Learning: An Introduction, Sutton,R. and Barko,A. MIT Press Bertsekas,D. and Tsitsiklis, J.N. Neurodynamic programming. Athena Scientifc. Belmont. Massachusetts. 1996

Documentos relacionados

CES Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov

CES Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov CES -161 - Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov Prof. Paulo André Castro www.comp.ita.br/~pauloac pauloac@ita.br Sala 110, IEC-ITA Aprendizado - paradigmas Aprendizado