Aprendizado por Reforço

Documentos relacionados
Aprendizado por Reforço

CES Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov

lnteligência Artificial Introdução ao Processo Decisório de Markov

CES Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov

Controle Ótimo - Aula 2 (Exemplos 2, 3 e 4)

Aprendizagem por Reforço

3 Aprendizado por reforço

USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO

CEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra Lista de exercícios 04

lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning)

Reinforcement Learning

Aprendizado por Reforço para um Sistema Tutor Inteligente sem Modelo

INF 1771 Inteligência Artificial

Uso de Heurísticas para a Aceleração do Aprendizado por Reforço

Uso de Heurísticas para a Aceleração do Aprendizado por

Aprendizado por reforço em lote para o problema de tomada de decisão em processos de venda

CEFET/RJ Inteligência Artificial (2017.2) Professor: Eduardo Bezerra Lista de exercícios 03

15 29, , , , , , , , , ,55

CENTRO UNIVERSITÁRIO DA FEI DANILO HERNANI PERICO USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO

INF 1771 Inteligência Artificial

Programa: Ciência da Computação Orientadora: Prof ạ Dr ạ Leliane Nunes de Barros

2 Aprendizado de Máquina

3 Otimização Aplicada a Reconstituição de Acidentes

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid

Sinais e Sistemas. Sinais e Sistemas Fundamentos. Renato Dourado Maia. Universidade Estadual de Montes Claros. Engenharia de Sistemas

3 Filtro de Kalman Discreto

Máquinas de Vetores de Suporte

O método Simplex Aplicado ao Problema de Transporte (PT).

SEMÁFORO INTELIGENTE UMA APLICAÇÃO DE APRENDIZAGEM POR REFORÇO

APRENDIZAGEM POR REFORÇO PARA TIMES DE ROBÔS. Carlos Henrique Costa Ribeiro PQ Lucas Heitzmann Gabrielli IC

Otimização de Sistemas Hidrotérmicos por Enxame de Partículas: Uma Abordagem Orientada a Objetos

Transformada Rápida de Fourier (FFT)

Introdução ao Processamento Estatístico de Sinais

Processos Estocásticos e Cadeias de Markov Discretas


BCC465 - TÉCNICAS DE MULTI-OBJETIVO. Gladston Juliano Prates Moreira 22 de novembro de 2017

2 - Modelos em Controlo por Computador

Teoria de dualidade. Marina Andretta ICMC-USP. 19 de outubro de 2016

2. Redes Neurais Artificiais

Métodos de Pesquisa Operacional

Redes Neurais Artificiais

Análise Multivariada Aplicada à Contabilidade

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Jogos de soma zero com dois jogadores

PEA 2522 MÉTODOS DE OTIMIZAÇÃO. Otimização

Controle Ótimo - Aula 6 Exemplos e Exercícios

Redes Neurais e Sistemas Fuzzy

Aprendizado por Reforço Multiagente: Uma Avaliação de Diferentes Mecanismos de Recompensa para o Problema de Aprendizado de Rotas

P2 de Álgebra Linear I Data: 10 de outubro de Gabarito

Prova I - Pesquisa Operacional - 12/05/2011. nome:

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD


Cadeias de Markov. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Física Geral - Laboratório (2013/1) Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Aula - Equações de Chapman-Kolmogorov

Modelagem para previsão/estimação: uma aplicação Neuro-Fuzzy

Controle Ótimo - Aula 8 Equação de Hamilton-Jacobi

5 Decisão Sob Incerteza

Utilização de Aprendizagem por Reforço para Modelagem Autônoma do Aprendiz em um Tutor Inteligente

Processo de Decisão Markoviano com Transição Valorada por Conjunto modelado como um Jogo Alternado de Soma Zero

Aprendizado por Reforço usando Aproximação

Prova Escrita de MATEMÁTICA A - 12o Ano a Fase

CONSTRUINDO CASOS A PARTIR DA ESTRUTURA DO AMBIENTE: UMA NOVA ABORDAGEM PARA A ACELERAÇÃO DO APRENDIZADO POR REFORÇO.

Universidade Federal do Rio Grande do Sul Escola de Engenharia Departamento de Engenharia Elétrica ENG04037 Sistemas de Controle Digitais

Processos estocásticos

Física Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

SCC Capítulo 4 Perceptron de Camada Única

Pesquisa Operacional Introdução. Profa. Alessandra Martins Coelho

SUPPORT VECTOR MACHINE - SVM

Otimização Linear. Profª : Adriana Departamento de Matemática. wwwp.fc.unesp.br/~adriana

4.1. ESPERANÇA x =, x=1

Algoritmos Genéticos e Evolucionários

Aprendizado por Reforço Multiagente: Uma Avaliação de Diferentes Mecanismos de Recompensa para o Problema de Aprendizado de Rotas

CLASSIFICAÇÃO DE PROBLEMAS SEQÜENCIAIS DE MÚLTIPLOS ESTÁGIOS

CONTROLE REGIONAL DE TENSÃO UTILIZANDO LÓGICA FUZZY E APRENDIZADO POR REFORÇO. Alessandro Bulhões Marques

PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR MÉTODO SIMPLEX. Prof. Angelo Augusto Frozza, M.Sc.

O processo de filtragem de sinais pode ser realizado digitalmente, na forma esquematizada pelo diagrama apresentado a seguir:

Sistemas Lineares e Invariantes de Tempo Discreto

PROCESSO SELETIVO N 42/2019 PROVA 2 - CONHECIMENTOS ESPECÍFICOS

Otimização Linear. Profª : Adriana Departamento de Matemática. wwwp.fc.unesp.br/~adriana

2. Redes Neurais Artificiais

Comunicaçõ. ções Digitais II. Texto original por Prof. Dr. Ivan Roberto Santana Casella

Parte I O teste tem uma parte de resposta múltipla (Parte I) e uma parte de resolução livre (Parte II)

3 Planejamento da Operação de Médio Prazo

Aula 19: Lifting e matrizes ideais

Modelagem Computacional. Parte 8 2

Vários modelos: um SAD pode incluir vários modelos, cada um representando uma parte diferente do problema de tomada de decisão Categorias de modelos

Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada.

Teoria de Filas Aula 10

Codificação das variáveis: binária Iniciação da população: aleatória Avaliação: função aptidão Operadores. Critério de parada: número de gerações

Aplicação. Controlo Óptimas. 23º Seminário de Engenharia Mecânica - 4 Junho de Nuno Manuel R. S. Órfão

3. VARIÁVEIS ALEATÓRIAS

Transformada Discreta de Fourier (DFT)

Pesquisa Operacional

UNIVERSIDADE FEDERAL DO ABC

QoS Control for Sensor Networks Ranjit Iyer Leonard Kleinrock. Aluno: Eduardo Hargreaves Professor: Luís Felipe M. de Moraes

1. Converta os seguintes números decimais para sua forma binária: (a) 22 (b) 255 (c) 256 (d) 0.11 (e) (f)

Transcrição:

Aprendizado por Reforço SCC5865-Robótica Roseli A F Romero

Introdução O modelo padrão de aprendizado por reforço

Aprendizado por Reforço Formalmente, o modelo consiste de: Um conjunto discreto de estados do ambiente, S; Um conjunto discreto de ações do agente, A; Um conjunto de sinais de reforço, normalmente {0,1}, ou um número real.

Aprendizado por Reforço AMBIENTE NON DETERMINISTICO Exemplo: Ambiente: Você está no estado 65. Você possui 4 possíveis ações. Agente: Eu realizo a ação 2. Ambiente: Você recebeu um reforço de 7 unidades. Você agora está no estado 15. Você possui 2 possíveis ações. Agente: Eu realizo a ação 1. Ambiente: Você recebeu um reforço de -4 unidades. Você agora está no estado 65. Você possui 4 possíveis ações. Agente: Eu realizo a ação 2. Ambiente: Você recebeu um reforço de 5 unidades. Você agora está no estado 44. Você possui 5 possíveis ações....

Modelos de Comportamento Ótimo 1- Finite-horizon model E h t= 0 em que, r t : recompensa escalar recebida no passo t 2 Infinite-horizont discounted model r t Otimizar sua recompensa esperada para os prox. h passos E t= 0 t γ r t em que, γ: fator de desconto (0 <= γ < 1) - taxa de interesse, probabilidade de vida ou limitador da soma infinita.

Modelos de Comportamento Ótimo 3) Average-reward model lim h E 1 h h t= 0 r t Otimizar a recompensa média de longo termo Tal política é conhecida como política de ganho ótima. Pode ser vista como caso limite do 2o. Modelo quando o fator de desconto se aproxima de 1 (Bertsekas, 1995).

Modelos de Comportamento Ótimo Comparando modelos H=5, as três ações produzirão recompensas: +6.0 0.0 0.0 1a. Ação é escolhida

Medidas de Desempenho do Aprendizado Convergência para o ótimo; Velocidade de convergência para o ótimo; Regret; Aprendizado por reforço e controle adaptativo.

Programação Dinâmica Exemplo 1 Considere o problema de programação linear: max sujeito a f = 8x + 10x 1 2 4x + 2x 12 1 2 x, x 0 1 2 Resolvendo o problema acima (método simplex), obtém-se: x = 0; x = 6; f = 60 1 2

Programação Dinâmica Uma proposta alternativa é determinar a variável gradativamente, através de decomposição do problema em uma série de estágios. A decomposição do problema (1) é ilustrada na Figura 1 abaixo. Figura 1 Diagrama de Fluxo

Programação Dinâmica maxx 1 f = 10x 1 2 sujeito a 2x 12 4x x 2 * 2 1 0 Solução: x = 6 2 x ; f = 60 20x * * 2 1 1 1

Programação Dinâmica maxx 1 f = 8x + f = 60 12x 2 1 1 1 sujeito a 4x 12 x 1 1 0 x Solução: = 0; f = 60 1 2 x = 6 2

Programação Dinâmica O estágio de entrada do estágio no. n,y n-1, é transformado em um estado de saída y n através da mudança provocada pela variável de decisão x n. As mudanças sucessivas do estado do sistema pode ser formalmente descrita pelas equações de tranformação da forma y t ( y, x ) = n= 1, 2,..., n n n 1 n N No exemplo elas tem a forma y = y 4x 1 0 1 y = y 2x 2 1 2

Programação Dinâmica Juntas com as restrições de não negatividade x 1,x 2,y 1,y 2 0, elas são equivalentes as restrições do problema original (1), y 0 sendo igual a 12 e y 2 representando a variável de folga (slack variable). O retorno de cada estágio será dependente, em geral, do estado de entrada e das variáveis de decisão: r r ( y, x ) = n= 1, 2,..., N n n n 1 n No exemplo em questão as funções de retorno são da forma simples r = 10x 1 = 8x1 2 2 r

Programação Dinâmica Introduzindo estes símbolos na Figura 1, o diagrama de fluxo do problema de dois estágios é ilustrado segundo a Figura 2. Figura 2 Diagrama de Fluxo

Programação Dinâmica maxx 2 sujeito a f = r ( x ) = 10x 2x y 1 2 2 2 x 2 2 1 0 Solução: x ( y ) = 0.5y 2 1 1 F( y ) = 5y 1 1 1 em que, F 1 denota o valor máximo da função de decisão do estágio, F = max x 1 1 2 f

Programação Dinâmica max x f = r( x ) + F( y ) = 8x + 5y = 2 2 1 1 1 1 1 1 = 8x + 5( y 4 x ) = 5y 12x em que, 1 0 1 0 1 sujeito a F = 4x x 1 1 0 0 max x 1 y f 2 2 Solução: x ( y ) = 0 1 0 F ( y ) = 5y 2 0 0

Programação Dinâmica F y 1( 1) = maxx 10x x 2 2 y1 1 2 2 0 x 1 1 1 1 1 1 0 1 (0 0.5 ) F ( y ) = max (8 x + F( y )) = max [8 x + F( y 4 x )] x1 y0 x (0 0.25 ) em que, f = F 2 (y 0 ) max f = max [ r( y, x ) + r ( y, x )] x, x 1 0 1 2 1 2 1 2

Programação Dinâmica F( y ) = max [ r ( y, x )] 1 1 x 2 1 2 2 F ( y ) = max [ r( y, x ) + F( t ( y, x ))] 2 0 x 1 0 1 1 1 0 1 1 O diagrama de fluxo para um sistema de N-estágios é apresentado na Figura 3 (próximo slide).

Programação Dinâmica Figura 3 Diagrama de Fluxo

Programação Dinâmica As funções de decisão dos estágios são respectivamente f = r ( y, x ) 1 N N 1 N N, N 1,...,2,1 f = r ( y, x ) + F( y ); y = t ( y, x )... 2 N 1 N 2 N 1 1 N 1 N 1 N 1 N 2 N 1 f = r ( y, x ) + F ( y ); y = t ( y, x )... i N ( i 1) N i N ( i 1) i 1 N ( i 1) N ( i 1) N ( i 1) N i N ( i 1) f = r( y, x ) + F ( y ) N 1 0 1 N 1 1 em que, y 1 = t 1 (y 0,x 1 ) e F j é o máximo de f j, j= 1,2,...,N.

Programação Dinâmica Maximizando a função de decisão de cada estágio em relação a sua variável de decisão e tratando o estado de entrada como um parâmetro, obtêm-se as soluções de estágio paramétricas xn xn( yn 1) = n= N, N 1,..., 2,1

Programação Dinâmica Caso de Otimização Discreta Suponha um exemplo no qual r 1 e r 2 são definidas apenas para os intervalos x 1 3 e x 2 6:

Programação Dinâmica Caso de Otimização Discreta

Programação Dinâmica Caso de Otimização Discreta

Programação Dinâmica Referência ROMERO, R. A. F. ; GOMIDE, F A C. A Neural Network to Solve Discrete Dynamic Programming Problems. Campinas-SP: Relatório Técnico no 16/92, DCA/FEE/UNICAMP, 1992 (Relatório Técnico)

Técnicas Justificadas Formalmente Programação dinâmica * V ( n1, w1,..., nk, wk) maxi E = Future payoff if agent takes action i, then acts optimally for remaining pulls ρ V ( n, w,..., n + 1, w + 1,..., n, w ) + (,,...,, ) = max (1 ) (,,..., 1,,...,, ) * * i 1 i i i k k V n1 w1 nk wk i * ρi V n1 wi ni + wi nk wk

Recompensa Atrasada Processos de Decisão de Markov (MDP) Um MDP consiste de: Um conjunto de estados S; Um conjunto de ações A; Uma função de recompensa R: SxA R;

Recompensa Atrasada Processos de Decisão de Markov (MDP) T : SxA ( S) Uma função de transferência de estado, em que um membro de ( S) é uma distribuição de probabilidade sobre o conjunto S. Dessa maneira, T(s,a,s ) éa probabilidade de realizar a transição do estado s para o estado s através da ação a.

Recompensa Atrasada Definindo uma política de um modelo = * t V () s maxe γ rt π t= 0 = + * * V () s max (, ) (,, ') ('), a R s a γ T s a s V s s S s' S (1)

Recompensa Atrasada Definindo uma política de um modelo * * π () s = arg max Rsa (, ) γ TsasV (,, ') ( s') a + s' S

Algoritmo Value Iteration Definindo uma política de um modelo initialize V(s) arbitrarily loop until policy good enough loop for s S loop for a A Qsa (, ): = Rsa (, ) + γ Tsas (,, ') Vs (') V(): s = max Q(, s a) end loop end loop a s' S Complexidade: quadratica no no. de estados e linear no no. de ações

Recompensa Atrasada Definindo uma política de um modelo baseada na eq. 1 ( γ ) Qsa (, ): = Qsa (, ) + α r+ max Qs (', a') Qsa (, ) a' r é uma amostra com média R(S,a) e variancia limitada e s é amostrado da distr. T(s,a,s )

Algoritmo de Policy Iteration Definindo uma política de um modelo choose an arbitrary policy π loop until π : = π ' compute the value function of policy π: solve the linear equations V () s R(, s π ()) s γ T(, s π (), s s') V (') s π = + s' S improve the policy at each state: ( ) π π '( s) : = arg max R( s, a) + γ T( s, a, s') V ( s') π = π ' a s ' S π

Métodos Livres de Modelos Q-Learning * * Q s a R s a γ T s a s Q s a a' s' S (, ) = (, ) + (,, ')max ( ', ') ( γ ) Qsa (, ): = Qsa (, ) + α r+ max Qs (', a') Qsa (, ) a'

Q-Learning [Watkins, 1989] No tempo t, o agente: observa estado s t e reforço R t, seleciona ação a t ; No tempo t+1, o agente: observa estado s t+1 ; atualiza o valor de ação Q t (s t,a t ) de acordo com Q t (s t,a t )=α t [R t + γ max a Q t (s t+1,a) - Q t (s t,a t )]

Características do Q-Learning Convergência garantida Ações de treino podem ser escolhidas livremente Convergência extremamente lenta

Q-Learning Exploração X Exploitação O algoritmo pode ser tendioso se a escolha for sempre para a melhor ação (exploração). Então deve-se colocar uma taxa de exploitação (ainda que pequena) para que uma ação seja escolhida de forma aleatória.

R-learning [Schwartz, 1993] Semelhante ao Q-learning, mas: Maximiza a recompensa média para cada passo. Não utiliza descontos (γ). Atualiza o valor de ação R t (s t,a t ) de acordo com R t (s t,a t )=α t [r t - ρ + max a R t (s t +1,a) - R t (s t,a t )] ρ só é atualizado quando a não for aleatório: ρ t = ρ t + β [r t + max a R t (s t +1,a) - max a R t (s t,a) ρ t ]

Referências Kaelbling, L. P.; Littman, M. L. ; Moore, A. W. (1996). Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, vol. 4, pg. 237 285.