INF 1771 Inteligência Artificial

Documentos relacionados
INF 1771 Inteligência Artificial

Aprendizagem por Reforço

Aprendizagem de Máquinas

Redes Neurais (Inteligência Artificial)

INF 1771 Inteligência Artificial

Aprendizado por Reforço

Redes Neurais (Inteligência Artificial)

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial

3 Aprendizado por reforço

INF 1771 Inteligência Artificial

Aprendizagem de Máquina

INF 1771 Inteligência Artificial

Aprendizagem de Máquina

Aprendizado por Reforço usando Aproximação

CEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra Lista de exercícios 04

lnteligência Artificial Introdução ao Processo Decisório de Markov

Figura: Capa do Livro Hamburger, H., Richards, D. Logic and Language Models for Computer Science, Prentice Hall.

Redes Neurais (Inteligência Artificial)

INF 1771 Inteligência Artificial

Inteligência Artificial

Inteligência Artificial. Resolução de problemas por meio de algoritmos de busca. Aula VI Busca Competitiva

Reinforcement Learning

Busca Competitiva. Inteligência Artificial. Até aqui... Jogos vs. busca. Decisões ótimas em jogos 9/22/2010

IA - Planejamento II

Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid

Inteligência Artificial. 3º Quadrimestre de 2018

INTELIGÊNCIA ARTIFICIAL

Aprendizado de Máquina (Machine Learning)

INF 1771 Inteligência Artificial

UTILIZAÇÃO DE APRENDIZADO POR REFORÇO PARA APRENDER A ESTRATÉGIA DO JOGO DA VELHA

Tópicos Especiais em Informática

Aprendizagem de Máquina

Conhecimento Incerto Decisões Sobre Incerteza

a) Defina em Prolog iguais/1, um predicado que recebe um estado do jogo e que verifica que todas as pilhas têm o mesmo número de peças.

INF 1771 Inteligência Artificial

CEFET/RJ Inteligência Artificial (2017.2) Professor: Eduardo Bezerra Lista de exercícios 03

Inteligência Artificial

Redes Neurais (Inteligência Artificial)

Inteligência Artificial - IA. Resolução de problemas por meio de busca

Técnicas para Implementação de Jogos

Inteligência Artificial. Agentes computacionais. Aula IV Cap.2 Russell e Norvig (continuação)

Informática Parte 19 Prof. Márcio Hunecke

RESOLUÇÃO DE PROBLEMAS POR MEIO DE BUSCA (PARTE 1) *Capítulo 3 (Russel & Norvig)

Aprendizado por Reforço

INF 1771 Inteligência Artificial

Aprendizado por Reforço para um Sistema Tutor Inteligente sem Modelo

Jogos. Geralmente o oponente tentará, na medida do possível, fazer o movimento menos benéfico para o adversário.

Redes Neurais (Inteligência Artificial)

Agentes Inteligentes

Árvore de Jogos Minimax e Poda Alfa-Beta

Aprendizado de Máquina

Aprendizagem de Máquina

Inteligência Artificial Agentes Inteligentes

INF INTELIGÊNCIA ARTIFICIAL TRABALHO 2 LÓGICA

Informática. Aprendizado de Máquina. Professor Márcio Hunecke.

Inteligência Artificial: 2. Agentes Inteligentes. Capítulo 2 Russell e Norvig

Busca competitiva. Inteligência Artificial. Profª. Solange O. Rezende

Inteligência Artificial. Prof. Tiago A. E. Ferreira Aula 5 Resolvendo Problemas

Implementação e Avaliação do Algoritmo MCTS-UCT para o jogo Chinese Checkers. Jhonny Moreira

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Aprendizado, minimização do arrependimento e equilíbrio (Learning, Regret Minimization, and Equilibria)

Agentes Inteligentes. CAPÍTULO 2 - Russell

CEFET/RJ Disciplina: Inteligência Artificial Professor: Eduardo Bezerra Lista de exercícios 02

4 Construção dos Classificadores

Redes Neurais não Supervisionadas: SOM

XADREZ REGRAS BÁSICAS INTRODUÇÃO O xadrez, diferentemente de muitos jogos, não depende de sorte. O desenvolver do jogo não depende do resultado de

6. QUADRIMESTRE IDEAL 7. NÍVEL Graduação 8. Nº. MÁXIMO DE ALUNOS POR TURMA

APLICAÇÃO DO ALGORITMO SARSA NA COLETA DE LIXO - ESTUDO DO PARÂMETRO ALPHA 1

BUSCA LOCAL (PARTE 4 Resolução de problemas por meio de busca) (C)Russell & Norvig, capítulo 4

Aprendizagem de Máquina

Tópicos Especiais: Inteligência Artificial AGENTES INTELIGENTES

Resolução de Problemas. Universidade Católica de Pelotas Engenharia da Computação Disciplina: Inteligência Artificial

Agentes Inteligentes. Inteligência Artificial

Aula 02a Agentes Inteligentes

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Técnicas de Inteligência Artificial

Enunciados dos Exercícios Cap. 2 Russell & Norvig

Algoritmo Genético. Inteligência Artificial. Professor: Rosalvo Ferreira de Oliveira Neto

Inteligência Artificial

INF 1771 Inteligência Artificial

Inteligência Artificial Prof. Marcos Quinet Pólo Universitário de Rio das Ostras PURO Universidade Federal Fluminense UFF

Inteligência Computacional para Jogos Eletrônicos

Resumo. Como um agente busca de seqüência de ações para alcançar seus objetivos.

Introdução à Inteligência Artificial. Procura em contextos competitivos jogos (cont.)

Introdução a Programação de Jogos

Resolução de Problemas. Hugo Barros

Teoria de Jogos Evolucionária

Transcrição:

INF 1771 Inteligência Artificial Aula 18 Aprendizado Por Reforço Edirlei Soares de Lima <elima@inf.puc-rio.br>

Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor (KNN). Support Vector Machines (SVM). Redes Neurais. Aprendizado Não-Supervisionado Aprendizado Por Reforço

Aprendizado Supervisionado Informação de Treinanento = Entradas + Saídas Entrada Sistema de Aprendizado Supervisionado Saída

Aprendizado Não-Supervisionado Entrada Sistema de Aprendizado Não-Supervisionado Saída Objetivo: Agrupar objetos semelhantes

Aprendizado Por Reforço Informação de Treinanento = Avaliação (Recompenças, Punições) Entrada Sistema de Aprendizado Por Reforço Saída Objetivo: Conseguir o máximo de reforço possível

Introdução Como um agente aprende a escolher ações apenas interagindo com o ambiente? Muitas vezes é impraticável o uso de aprendizado supervisionado. Como obter exemplos do comportamento correto e representativo para qualquer situação? E se o agente for atuar em um ambiente desconhecido? Exemplos: Criança adquirindo coordenação motora. Robô interagindo com um ambiente para atingir objetivos.

Exemplo S 1 S 2 As setas indicam a força entre dois estados. S 4 S 3 Inicialmente todas as setas possuem o mesmo valor de força. S 8 S 7 Iniciando em S 1 como chegar em S 6? S 5 S 6

Exemplo S 1 S 2 S 4 S 3 S 8 S 7 Próximo estado é escolhido aleatoriamente de um dos próximos estados possíveis (ponderado pela força da associação). A primeira ação só pode levar para S 2. S 5 S 6

Exemplo S 1 S 2 Supondo que a próxima escolha leve a S 3. S 4 S 3 S 8 S 7 S 5 S 6

Exemplo S 1 S 2 Em S 3, as possíveis escolhas são S 2, S 4, ou S 7. S 4 S 3 Vamos supor que S 7 é escolhido aleatoriamente. S 8 S 7 S 5 S 6

Exemplo S 1 S 2 Por sorteio, S 3 é o próximo escolhido. S 4 S 3 S 8 S 7 S 5 S 6

Exemplo S 1 S 2 O próximo é S 4. S 4 S 3 S 8 S 7 S 5 S 6

Exemplo S 1 S 2 E então S 5 é escolhido aleatoriamente. S 4 S 3 S 8 S 7 S 5 S 6

Exemplo S 1 S 2 E finalmente atingimos o objetivo S 6. S 4 S 3 S 8 S 7 S 5 S 6

Exemplo S 1 S 2 S 4 S 3 S 8 S 7 Quando o estado objetivo é atingida, reforça-se a conexão entre ele e o estado que levou a ele. Na próxima vez que S 5 for alcançado, parte da força de associação será passada para S 4. S 5 S 6

Exemplo S 1 S 2 Iniciando novamente o percurso. S 4 S 3 S 8 S 7 S 5 S 6

Exemplo S 1 S 2 Supondo que após alguns movimentos o agente chega novamente em S 5. S 4 S 3 S 8 S 7 S 5 S 6

Exemplo S 1 S 2 S 5 tem grande chance de atingir a meta pela rota com mais força. S 4 S 3 S 8 S 7 Em aprendizado por reforço, essa força é passada de volta para o estado anterior. Esse processo leva a criar um caminho entre o início e a meta. S 5 S 6

Exemplo S 1 S 2 Após reiniciar o percurso varias vezes, o agente aprenderia o melhor caminho a ser seguido. S 4 S 3 S 8 S 7 S 5 S 6

Aprendizado Por Reforço Um agente em um ambiente. A cada instante do tempo t: o agente está em um estado s. executa uma ação a. vai para um estado s. recebe uma recompensa r. Problema da aprendizagem por reforço: Como escolher uma política de ações que maximize o total de recompensas recebidas pelo agente.

Aprendizado Por Reforço Agente autômato otimizador adaptativo Estado Interno (modelo do mundo) Percepções Reforço (+/-) Ação Ambiente

Aprendizado Por Reforço Processo de Decisão Conjunto de estados S. Conjunto de ações A. Uma função de recompensa r(s, a). Uma função de transição de estados α(s, a). Política de ações π(s): π : S A

Estados e Ações Estado: conjunto de características que descrevem o ambiente. Formado pelas percepções do agente + modelo do mundo. Deve prover informação para o agente de quais ações podem ser executadas. A representação deste estado deve ser suficiente para que o agente tome suas decisões. A decisão de que ação tomar não pode depender da sequência de estados anteriores.

A Função de Recompensa Feedback do ambiente sobre o comportamento do agente. Indicada por R(S, A) R r(s,a) indica a recompensa recebida quando o agente está no estado s e executa a ação a. Pode ser determinística ou estocástica

Função de Transição de Estados α(s, A) S α(s, a) indica em qual estado o agente está, dado que: Estava no estado s. executou a ação a. Ambientes não-determinísticos: α(s, a, s ) Indica a probabilidade de ir para um estado s dado que estava em s e executou a ação a.

Exemplos de Problemas Problema Estados Ações Recompensas Agente jogador de damas. Configurações do tabuleiro. Mover uma determinada peça. + Capturas Perdas Agente em jogo de luta. Posição,energia dos lutadores, tempo, estar ou estar sendo atacado, etc... Mover-se em uma direção, lançar magia, bater, etc... + Tirar energia do oponente. - Perder energia. Agente patrulhador. Posição no mapa (atual e passadas), ociosidade da vizinhança, etc... Ir para algum lugar vizinho do Mapa Ociosidade (tempo sem visitas) do lugar visitado Atualmente.

Política de Ações π(s) Função que modela o comportamento do agente Mapeia estados em ações. Pode ser vista como um conjunto de regras do tipo s n a m Exemplo: Se estado s = (inimigo próximo, estou perdendo) então ação a = (usar magia); Se estado s =(outro estado) então ação a = (outra ação);

Função Valor dos Estados Vπ(s) (S R) Como saber se um determinado estado é bom ou ruim? A função valor Vπ(s) expressa esta noção, em termos das recompensas e da política de ações. Representa a recompensa a receber em um estado s, mais as recompensas futuras se ele seguir uma política de ações π. Exemplo: tornar-se diretor é bom pelo que o cargo permite e permitirá nas próximas promoções. Vπ(s 0 ) = r0 + r1 + r2 + r3 +... Problema: se o tempo for infinito, a função valor do estado tende a infinito.

Função Valor das Ações Qπ(s, a) : (S, A) R A função valor das ações Qπ(s, a) indica a soma das recompensas a obter, dado que: o agente está no estado s. executou uma ação a. a partir daí, seguiu uma política de ações π. Qπ(s, a) = r(s, a) + Vπ(s ), onde: S = α(s,a) = indica em qual estado o agente está, dado que ele estava no estado s e executou a ação a. O valor da ação é a recompensa da ação mais o valor do estado para onde o agente vai devido à ação.

Aprendizado Por Reforço O aprendizado por reforço consiste em aprender uma política de ações π* ótima, que maximiza a função Vπ(V*) ou a função Qπ(Q*) π* = argmax π [Vπ(s)] Em outras palavras, de que maneira o agente deve agir para maximizar as suas recompensas futuras.

Q Learning Algoritmo Q Learning Para todo estado s e ação a, inicialize a tabela Q[s][a] = 0; Para sempre, faça: Observe o estado atual s; Escolha uma ação a e execute; Observe o próximo estado s e recompensa r. Atualize a tabela Q: Q[s][a] = r + max a (Q[s ][a ]) Usufruir valores conhecidos ou explorar valores não computados?

Dilema de Explorar ou Usufruir Usufruir Escolher a ação que atualmente está com maior valor Q(s,a) Explorar Escolher uma ação randômica, para que seu valor Q(s,a) seja atualizado Dilema Dado que eu aprendi que Q(s, a) vale 100, vale a pena tentar executar a ação a se Q(s, a ) por enquanto vale 20? Depende do ambiente, da quantidade de ações já tomadas e da quantidade de ações restantes.

Aplicações [Tesauro, 1995] Modelagem do jogo de gamão como um problema de aprendizagem por reforço: Vitória: +100 Derrota: 100 Após 1 milhão de partidas contra ele mesmo, joga tão bem quanto o melhor jogador humano.

Aplicações 70% performance against gammontool 50% TD-Gammon self-play Tesauro, 1992 Neurogammon trained with 15,000 expert-labeled examples 0 10 20 40 80

Aplicações [Crites and Barto, 1996] Controle de Elevadores 10 andares, 4 cabines Estados: estados dos botões; posição, direção, e estado de movimentação dos elevadores; passageiros nos elevadores e esperando. Ações: parar em, passar, próximo andar. Recompensas: simplesmente -1 por tempo em que cada pessoa ficava esperando.

Leitura Complementar Mitchell, T. Machine Learning, McGraw Hill Science/Engineering/Math, 1997. Duda, R., Hart, P., Stork, D., Pattern Classification, John Wiley & Sons, 2000