CEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra Lista de exercícios 04

Documentos relacionados
CEFET/RJ Inteligência Artificial (2017.2) Professor: Eduardo Bezerra Lista de exercícios 03

lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning)

3 Aprendizado por reforço

INF 1771 Inteligência Artificial

Aprendizado por Reforço

CEFET/RJ Disciplina: Inteligência Artificial Professor: Eduardo Bezerra Lista de exercícios 01

CEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra Lista de exercícios 05

Aprendizado por Reforço

INF 1771 Inteligência Artificial

CEFET/RJ Disciplina: Inteligência Artificial Professor: Eduardo Bezerra Lista de exercícios 02

CEFET/RJ Disciplina: Inteligência Artificial Professor: Eduardo Bezerra Lista de exercícios 01

Aprendizagem por Reforço

CEFET/RJ. Aprendizado de Máquina - Trabalho 01

CEFET/RJ. Aprendizado de Máquina - Trabalho 03

IA - Planejamento II

Aprendizado por Reforço usando Aproximação

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

a) Defina em Prolog iguais/1, um predicado que recebe um estado do jogo e que verifica que todas as pilhas têm o mesmo número de peças.

lnteligência Artificial Introdução ao Processo Decisório de Markov

INF 1771 Inteligência Artificial

Aprendizado de Máquina (Machine Learning)

Distribuições Amostrais - Tamanho da Amostra

Busca Competitiva. Inteligência Artificial. Até aqui... Jogos vs. busca. Decisões ótimas em jogos 9/22/2010

Aprendizado por Reforço para um Sistema Tutor Inteligente sem Modelo

Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid

INF 1771 Inteligência Artificial

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

Aprendizado por reforço em lote para o problema de tomada de decisão em processos de venda

CAP 254 CAP 254. Otimização Combinatória. Professor: Dr. L.A.N. Lorena. Assunto: Metaheurísticas Antonio Augusto Chaves

Inteligência Artificial

MAT2457 ÁLGEBRA LINEAR PARA ENGENHARIA I Gabarito da 2 a Prova - 1 o semestre de 2015

APLICAÇÃO DO ALGORITMO SARSA NA COLETA DE LIXO - ESTUDO DO PARÂMETRO ALPHA 1

Introdução à Bioestatística Turma Nutrição

Aprendizado de Máquina (Machine Learning)

Departamento de Ciência de Computadores - FCUP Primeiro Teste de Inteligência Artificial / Sistemas Inteligentes (Duração: 2 horas)

Método dos gradientes (ou método de máxima descida)

Aula 6. Zeros reais de funções Parte 3

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

2 Aprendizado de Máquina

USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO

Controle Ótimo - Aula 2 (Exemplos 2, 3 e 4)

Inteligência Artificial

Modelagem Computacional. Aula 9 2

Processamento de Imagens CPS755

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Técnicas de Inteligência Artificial

INE5403 FUNDAMENTOS DE MATEMÁTICA DISCRETA

Inteligência Artificial

Método do Ponto Fixo

SCC Capítulo 3 Linguagens Sensíveis ao Contexto e Autômatos Limitados Linearmente

CENTRO UNIVERSITÁRIO DA FEI DANILO HERNANI PERICO USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO

Inferência Estatística:

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Técnicas de Inteligência Artificial

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC

Técnicas de Inteligência Artificial

Método do Lagrangiano aumentado

Inteligência Artificial (SI 214) Aula 4 Resolução de Problemas por meio de Busca Heurística

Redes de Computadores III / /

INF 1771 Inteligência Artificial

PROVA DE ESTATÍSTICA e PROBABILIDADES SELEÇÃO - MESTRADO/UFMG /2012

Método Simplex dual. Marina Andretta ICMC-USP. 24 de outubro de 2016

Representação de poliedros

Otimização Combinatória - Parte 4

Uso de Heurísticas para a Aceleração do Aprendizado por

Iteração e Pontos Fixos

Análise de Algoritmos

Exemplo do Uso da Integração: O valor médio de uma função contínua

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais

Autovalores e Autovetores

Aula 9: Máquinas de Turing

PROPOSTA DE RESOLUÇÃO DA PROVA DE MATEMÁTICA A DO ENSINO SECUNDÁRIO (CÓDIGO DA PROVA 635) 1ª FASE 23 DE JUNHO 2017 GRUPO I

Primeira Lista de Exercícios de Biofísica II. c n

Sequências e Séries Infinitas. Copyright Cengage Learning. Todos os direitos reservados.

Resolução de sistemas de equações lineares: Método dos Gradientes Conjugados

Redes Neurais Artificiais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Aprendizado por Árvores de Decisão

O estudo utilizando apenas este material não é suficiente para o entendimento do conteúdo. Recomendamos a leitura das referências no final deste

Agentes de Procura Procura Estocástica. Capítulo 3: Costa, E. e Simões, A. (2008). Inteligência Artificial Fundamentos e Aplicações, 2.ª edição, FCA.

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Classificação Seqüencial. HMMs e MEMMs. Cadeias de Markov. Especificação Formal

1 Séries de números reais

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL

Álgebra Linear I - Aula Bases Ortonormais e Matrizes Ortogonais

Otimização em Colônias de Formigas. Prof. Eduardo R. Hruschka (Slides adaptados dos originais elaborados pelo Prof. André C. P. L. F.

Redes Neurais e Sistemas Fuzzy

Relações de Recorrência

Inteligência Artificial (SI 214) Aula 6 Busca com Adversário. Prof. Josenildo Silva


Prova tipo A. Gabarito. Data: 8 de outubro de ) Decida se cada afirmação a seguir é verdadeira ou falsa. 1.a) Considere os vetores de R 3

Variedades Adicionais das Máquinas de Turing

Inteligência Artificial. 3º Quadrimestre de 2018

Busca Heurística - Informada

Transcrição:

. CEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra (ebezerra@cefet-rj.br) Lista de exercícios 04 Créditos: essa lista de exercícios contém a tradução dos exercícios disponibilizados na disciplina CS188 - Artificial Intelligence, da Universidade de Berkeley. Os exercícios originais podem ser encontrados em http://ai.berkeley.edu/section_handouts.html. São também usados exercícios retirados do livro texto da disciplina (AIMA). 1. (Aprendizado por Reforço Baseado em Modelo) Considere o mundo grade e os episódios apresentados abaixo. Que modelos seriam aprendidos (i.e., quais as probabilidades das transições) a partir dos episódios observados acima? (a) T (A, south, C) A ação sul é tomada duas vezes do estado A, e ambas as vezes resultam no estado C. 2/2 = 1 (b) T (B, east, C) A ação a leste é tomada duas vezes do estado B, e ambas as vezes resultam no estado C. 2/2 = 1 (c) T (C, south, E)

A ação sul é tomada quatro vezes do estado C, e resulta em estado E três vezes. 3/4 =.75 (d) T (C, south, D) A ação sul é tomada quatro vezes do estado C e resulta no estado D uma vez. 1/4 = 0.25 2. (Aprendizado por Reforço Baseado em Modelo) Considere um PDM com 3 estados, A, B e C; e 2 ações Clockwise e CounterClockwise. Não sabemos a função de transição nem a função de recompensa para o PDM. Em vez disso, nos são fornecidas amostras do que um agente experimenta quando ele interage com o meio ambiente (embora nós saibamos que o agente não permanece no mesmo estado depois de tomar uma ação). Neste problema, vamos primeiro estimar o modelo (i.e., a função de transição e a função de recompensa), e então usar o modelo estimado para encontrar as ações ideais. Para encontrar as ações ótimas, RL computa as funções de valor ótimas V ou de Q com relação às funções estimadas previamente, T e R. Isto poderia ser feito com qualquer um dos métodos a seguir: iteração de valor, iteração de política, ou iteração Q-valor. Você já resolveu alguns exercícios que envolveram iteração de valor e iteração de política. Sendo assim, vamos usar o Q-learning neste exercício. Considere as seguintes amostras que o agente encontrou: (a) Vamos começar por obter estimativas para as função de transição, T (s,a,s ) e para a função de recompensa R(s,a,s ) para esse PDM. Preencha os valores faltantes na tabela abaixo para T (s,a,s ) e R(s,a,s ). Page 2

M =.4, N = 0.0, O = 0.6, P = 7.0 (b) Agora execute o algoritmo Q-learning usando as funções estimadas T e R. Os valores de Q k (s,a) são dados da Tabela 1. Tabela 1: Valores Q k (s,a) A B C Clockwise -2,0 1,0 3,58 Counterclockwise -5,0 6,52 6,0 Aplique a fórmula a seguir (veja o material da aula Aprendizagem por Reforço I ): Q k+1 [ ] T (s,a,s ) R(s,a,s ) + γ max Q k (s, a ) a s Ao fazer isso, os valores a seguir são obtidos: Q k+1 (Clockwise, A) = 1.096 Q k+1 (Clockwise, B) = 3.000 Q k+1 (Clockwise, C) = 3.208 Q k+1 (Counterclockwise, A) = 3.000 Page 3

Q k+1 (Counterclockwise, B) = 7.800 Q k+1 (Counterclockwise, C) = 5.260 (c) Suponha que o Q-learning convirja para a função Q (s,a) apresentada na Tabela 2. Tabela 2: Valores após a convergência do Q-learning. A B C Clockwise -0,679 3,086 4,07 Counterclockwise -2,914 8,346 6,173 Qual é a ação ótima (Clockwise ou Counterclockwise), para cada um dos estados (A, B e C)? A: Clockwise B: Counterclockwise C: Counterclockwise 3. (Q-learning) No mundo grade apresentado abaixo, o Pacman está tentando aprender a política ótima. Se uma ação resulta em um dos estados sombreados a recompensa correspondente é concedida durante essa transição. Todos os estados sombreados são estados terminais, ou seja, o PDM termina uma vez que o agente chega em um estado sombreado. Os outros estados têm as ações disponíveis North, East, South, West, que deterministicamente movem o Pacman para o estado vizinho correspondente (ou fazem com que o Pacman permaneça no lugar se a ação tentar sair da grade). Considere que o fator de desconto é γ = 0,5 e que a taxa de aprendizagem do Q-learning é α = 0,5 para todos os cálculos. O Pacman começa no estado (1, 3). (a) Qual o valor ótimo para a função V nos seguintes estados? Page 4

O valor ideal V (s) para cada estado s pode ser encontrado ao computar a recompensa esperada pelo agente agindo otimamente desse estado s em diante. Observe que o agente recebe uma recompensa quando ele transita para dentro dos estados coloridos e não para fora deles. Sendo assim, por exemplo, o caminho ideal a partir de (2,2) é ir para o quadrado rotulado com +100 que tem uma recompensa com desconto de 0 + λ 100 = 50. Para (1,3), ir para +25 ou para +100 tem a mesma recompensa com desconto de 12,5. V (3,2) = 100 V (2,2) = 50 V (1,3) = 12,5 (b) Considere que o agente inicia no canto superior esquerdo. Considere também que são dados os seguintes episódios de execuções do agente através do mundo grade, conforme a Tabela 3. Cada linha em um episódio é uma tupla contendo (s, a, s, r). Tabela 3: Episódios no mund grade. Episódio 1 Episódio 2 Episódio 3 (1,3), S, (1,2), 0 (1,3), S, (1,2), 0 (1,3), S, (1,2), 0 (1,2), E, (2,2), 0 (1,2), E, (2,2), 0 (1,2), E, (2,2), 0 (2,2), S, (2,1), -100 (2,2), E, (3,2), 0 (2,2), E, (3,2), 0 (3,2), N, (3,3), +100 (3,2), S, (3,1), +80 Com o uso de atualizações Q-Learning, forneça os Q-valores abaixo após os três episódios acima: Q((3,2),N) = Q((1,2),S) = Q((2,2),E) = Page 5

Q-valores obtidos por atualizações Q-learning: Q(s,a) (1 α)q(s,a) + α(r(s,a,s ) + γ max a Q(s,a )) (c) Considere uma representação baseada em características da função Q: Q f (s,a) = w 1 f 1 (s) + w 2 f 2 (s) + w 3 f 3 (a) f 1 (s) : A coordenada x do estado f 2 (s) : A coordenada y do estado f 3 (N) = 1, f 3 (S) = 2, f 3 (E) = 3, f 3 (W ) = 4 (i) Dado que todos os w i são inicialmente iguais a 0, quais são seus valores após o primeiro episódio? w 1 = -100 w 2 = -100 w 3 = -100 Para obter os valores acima, foram usadas as atualizações Q-learning aproximadas para pesos: w i w i + α[(r(s,a,s ) + γ max Q(s,a )) Q(s,a)]f i (s,a) a A única ocasião em que a recompensa é diferente de zero no primeiro episódio é quando ocorre a transição para o estado -100. (ii) Considere que o vetor de pesos w é igual a (1, 1, 1). Qual a ação recomendada pela função Q no estado (2,2)? Page 6

A ação recomendada em (2,2) é max a Q((2,2), a), onde Q(s,a) é computado com o usa da representação por características. Nesse caso, o Q-valor para West é máximo (2 + 2 + 4 = 8) Page 7