Aprendizagem de Máquina

Documentos relacionados
A Previsão com o Método de Winter 1

Adriano Pedreira Cattai. Universidade Federal da Bahia UFBA Semestre

MATRIZES. Neste caso, temos uma matriz de ordem 3x4 (lê-se três por quatro ), ou seja, 3 linhas e 4

Área entre curvas e a Integral definida

Matrizes Resolução de sistemas de equações lineares por eliminação Gauss e Gauss-Jordan

Lista de Exercícios 4 Cinemática

EQUAÇÃO DO 2 GRAU. Seu primeiro passo para a resolução de uma equação do 2 grau é saber identificar os valores de a,b e c.

PROVA DE FÍSICA 2º ANO - 4ª MENSAL - 1º TRIMESTRE TIPO A

(x, y) dy. (x, y) dy =

Definição: Sejam dois números inteiros. Uma matriz real é uma tabela de números reais com m linhas e n colunas, distribuídos como abaixo:

Material envolvendo estudo de matrizes e determinantes

IFRN Campus Natal/Central. Prof. Tibério Alves, D. Sc. FIC Métodos matemáticos para físicos e engenheiros - Aula 02.

Assíntotas verticais. lim f lim lim. x x x. x 2 x 2. e e e e e. lim lim

CAPÍTULO 4 BASE E DIMENSÃO

CONTEÚDO Introdução Motivação, Objetivo, Definição, Características Básicas e Histórico REDES NEURAIS. Problema dos 100 Passos MOTIVAÇÃO

Matrizes. Matemática para Economistas LES 201. Aulas 5 e 6 Matrizes Chiang Capítulos 4 e 5. Márcia A.F. Dias de Moraes. Matrizes Conceitos Básicos

MODELOS DE EQUILÍBRIO DE FLUXO EM REDES. Prof. Sérgio Mayerle Depto. Eng. Produção e Sistemas UFSC/CTC

Objetivo. Conhecer a técnica de integração chamada substituição trigonométrica. e pelo eixo Ox. f(x) dx = A.

8 GABARITO 1 1 O DIA PASES 1 a ETAPA TRIÊNIO FÍSICA QUESTÕES DE 11 A 20

1 Distribuições Contínuas de Probabilidade

20/07/15. Matemática Aplicada à Economia LES 201

GABARITO. 2 Matemática A. 08. Correta. Note que f(x) é crescente, então quanto menor for o valor de x, menor será sua imagem f(x).

Integral. (1) Queremos calcular o valor médio da temperatura ao longo do dia. O valor. a i

Recordando produtos notáveis

Aprendizado por Reforço

Matemática para Economistas LES 201. Aulas 5 e 6 Matrizes Chiang Capítulos 4 e 5. Luiz Fernando Satolo

Aula 27 Integrais impróprias segunda parte Critérios de convergência

SERVIÇO PÚBLICO FEDERAL Ministério da Educação

Lista de Exercícios Funções Exponenciais

Universidade Federal do Rio Grande FURG. Instituto de Matemática, Estatística e Física IMEF Edital 15 - CAPES MATRIZES

Trigonometria FÓRMULAS PARA AJUDÁ-LO EM TRIGONOMETRIA

Prova Escrita de MATEMÁTICA A - 12o Ano a Fase

Introdução à Integral Definida. Aula 04 Matemática II Agronomia Prof. Danilene Donin Berticelli

3 Teoria dos Conjuntos Fuzzy

CAPÍTULO EXERCÍCIOS pg. 127

O T E O R E M A F U N D A M E N TA L D O C Á L C U L O. Prof. Benito Frazão Pires

Integrais de Linha. Universidade Tecnológica Federal do Paraná Câmpus Francisco Beltrão. Cálculo Diferencial e Integral 3B

CONJUNTOS NUMÉRICOS NOTAÇÕES BÁSICAS. : Variáveis e parâmetros. : Conjuntos. : Pertence. : Não pertence. : Está contido. : Não está contido.

Aula de solução de problemas: cinemática em 1 e 2 dimensões

INTEGRAIS DEFINIDAS. Como determinar a área da região S que está sob a curva y = f(x) e limitada pelas retas verticais x = a, x = b e pelo eixo x?

INTEGRAIS DEFINIDAS. Como determinar a área da região S que está sob a curva y = f(x) e limitada pelas retas verticais x = a, x = b e pelo eixo x?

Uma situação muito comum de função exponencial é aquela em que uma determinada grandeza, que pra um instante t = 0 ela apresenta uma medida y y0

1. Conceito de logaritmo

ÁLGEBRA LINEAR Equações Lineares na Álgebra Linear EQUAÇÃO LINEAR SISTEMA LINEAR GEOMETRIA DA ESQUAÇÕES LINEARES RESOLUÇÃO DOS SISTEMAS

MATRIZES, DETERMINANTES E SISTEMAS LINEARES PROF. JORGE WILSON

Capítulo III INTEGRAIS DE LINHA

Elementos de Análise - Lista 6 - Solução

Lista 5: Geometria Analítica

EQUAÇÕES E INEQUAÇÕES POLINOMIAIS

Cálculo I Lista numero 11

Formas Quadráticas. FUNÇÕES QUADRÁTICAS: denominação de uma função especial, definida genericamente por: 1 2 n ij i j i,j 1.

Taxa de Equilíbrio da Previdência Social Brasileira Segundo um Sistema Nacional

FUNÇÃO DO 2º GRAU OU QUADRÁTICA

Séries temporais Modelos de suavização exponencial. Séries de temporais Modelos de suavização exponencial

Bhaskara e sua turma Cícero Thiago B. Magalh~aes

CÁLCULO I. 1 Funções denidas por uma integral

FÓRMULA DE TAYLOR USP MAT

EEL-001 CIRCUITOS ELÉTRICOS ENGENHARIA DA COMPUTAÇÃO

CÁLCULO I. 1 Área entre Curvas. Objetivos da Aula. Aula n o 24: Área entre Curvas, Comprimento de Arco e Trabalho. Calcular área entre curvas;

Transcrição:

prendizgem de Máquin prendizdo por reforço Inrodução. O prendizdo por reforço é um écnic que possibili prendizgem prir d inerção com o mbiene. (hp://www.cs.ulber.c/~suon/book/he-book.hml) inerção com o mbiene permie inferir relções de cus e efeio sobre s conseqüêncis de nosss ções e sobre o que fzer pr ingir nossos objeivos. prender por reforço signific prender o que fzer - como relizr o mpemeno de siuções em ções (compormeno) - de modo mximizr um sinl numérico de recompens. Ese ipo de prendizdo esá relciondo com s eoris de condicionmeno operne d psicologi. Não se dispõe d informção sobre quis ções devem ser omd como é o cso no prendizdo supervisiondo por um professor. O sisem de prendizgem deve descobrir quis ções êm mis chnces de produzir recompens, e relizá-ls (mbiene evolui probbilisicmene). Dilem: explorção de novs ções proveimeno ds ções conhecids. Dificuldde: s ções podem fer não pens recompens imedi ms mbém próxim siução, e rvés del ods s recompenss subseqüenes. Crcerísics: explorção por eniv e erro, ribuição de crédio emporl. O problem d prendizgem por reforço Os sisems de prendizgem e de omd de decisão são denomindos de gene. O objeo com o qul o gene inerge é chmdo de mbiene. inerção se dá com o gene selecionndo ções e o mbiene respondendo ess ções presenndo novs siuções pr o gene. O mbiene mbém fornece s recompenss - vlores numéricos que o gene en mximizr o longo do empo. gene e mbiene inergem num seqüênci de empos, 1,, 3,... cd insne, o gene recebe um represenção do esdo do mbiene s S, onde S é o conjuno de esdos possíveis e, com isso, selecion um ção (s ), onde (s ) é o conjuno de ções disponíveis no esdo s. Num psso dine de empo (+1), em pre como conseqüênci d su ção, o gene recebe um recompens numéric, r +1 R, se enconrndo no esdo s +1. cd insne, o gene implemen um mpemeno de esdos em probbiliddes de selecionr cd ção possível. Ese mpemeno é chmdo de políic, onde ( é probbilidde que e s s. Pel prendizgem, o gene mud su políic, oimizndo recompens. 3 O problem d prendizgem por reforço esdo s recompens r r+1 s +1 gene mbiene ção Problems com reforço defsdo são modeldos dequdmene como processos de decisão de Mrkov (PDM), com s seguines crcerísics: O mbiene evolui probbilisicmene ocupndo um conjuno finio de esdos discreos (s S é um vriável leóri formndo um cdei de Mrkov. Pr cd esdo do mbiene há um conjuno de ções possíveis que podem ser relizds pelo sisem de prendizgem ( (s ) é um vriável leóri. Tod vez que o gene reliz um ção, ele incorre em um cero cuso (r +1 R). rnsição de esdo (s s ) devido à ção ocorre com um cer probbilidde P ss. 4

Objeivos e recompenss No prendizdo por reforço, o objeivo é formlizdo pelo sinl de reforço. O sinl de reforço pode ser, p.ex. +1, qundo ção do gene ocsion sucesso, e 1, ou lernivmene, qundo ção não lcnç sucesso. Com isso, o gene irá receber um seqüênci de reforços do mbiene, pós um ção ocorrid num deermindo empo : r +1, r +, r +3,..., r T, onde T é o psso de empo finl. Em gerl, o gene é projedo pr mximizr o reorno esperdo, R, definido como um função específic d seqüênci de reforços. seqüênci considerd pode ser de horizone finio (h pssos) ou infinio. No cso mis simple o reorno esperdo é som dos reforços: R r +1 + r + + r +3 +... + r T O reorno descondo é um form mis dequd de se especificr um função ser mximizd pelo lgorimo de prendizdo. Cd ermo do reorno é muliplicdo por um for de descono que desvloriz o reforço em função d diferenç emporl ( γ 1 é x de descono): R r +1 + γ r + + γ r +3 +... γ k r +k+1 5 Função de descono pr prendizgem por reforço x de descono deermin o vlor presene dos reforços fuuros: um reforço recebido em k pssos de empo no fuuro vle pens γ k 1 vezes o que ele seri válido se ele fosse recebido imedimene. Se γ, o gene é dio míope pois ele só se preocup em mximizr os reforços imedios: como escolher de modo mximizr pens r +1. Conforme γ se proxim de 1, o objeivo d mximizção lev em con mis foremene fuuros reforços. R r +1 + γ r + + γ r +3 +... γ k r +k+1 6 Reorno vliivo crcerísic que disingue o prendizdo por reforço de ours écnics é o uso de informção de reinmeno (reorno vliivo ou recompens que vli s ções omds em vez de insruir, informndo ção corre ser execud. O reorno vliivo serve pr esimr uilidde d ção omd, Q*(, ms não inform se el é melhor ou pior ção possível. Num deermindo insne, uilidde de um ção, pode ser esimd, por Q (, por exemplo, clculndo médi dos reornos recebidos pr quel ção. ssim, se em ção foi omd neriormene k veze produzindo s recompenss r 1, r,..., r k, podemos clculr esimiv de uilidde Q (por: r1+ r + L+ r k Q ( k Q ( pode enão ser uilizd pr selecionr ções no empo. regr de seleção (políic mis simples (gulos escolhe ção * com mis l esimiv de uilidde, ou sej Q (*) mx Q ( Es políic sempre provei o conhecimeno ul pr mximizr recompens imedi, sem nunc explorr ções momennemene inferiore ms que poderim produzir recompenss fuurs superiores. 7 Seleção de ções Um lerniv que permie explorção é escolher ção gulos * n miori ds veze ms não sempre. N seleção ε-gulos, um our ção é escolhid leorimene com probbilidde (pequen ε; implicndo que ção gulos é escolhid com probbilidde 1 ε. Usndo seleção ε-gulos, durne explorção, o gene escolhe de form equiprovável enre ods s çõe podendo escolher ções muio ruins. N seleção sofmx, s ções são ordends de cordo com su uilidde esimd, por exemplo, segundo um disribuição de Gibbs (ou Bolzmnn): τ e ( Q ( τ e Q ( onde τ é um prâmero posiivo chmdo de emperur, que regul o processo de explorção: no início do prendizdo, é ineressne fvorecer explorção, com τ grnde, ornndo s ções equiprováveis; com o empo, τ, diminuindo explorção e umenndo o proveimeno, ornndo seleção gulos. 8

Processos de Decisão de Mrkov (PDM) N bordgem do prendizdo por reforço, o gene om decisões prir de um sinl correspondene o esdo (observdo) do mbiene. Qundo o sinl (ul) do esdo dispõe de ods s informções relevnes pr omd de decisão, diz-se que ele em propriedde de Mrkov. Um ref de prendizgem por reforço que sisfz propriedde de Mrkov é chmd de Processo de Decisão de Mrkov (PDM). Se os espços dos esdos e ções são finio diz-se que ese é um PDM finio. Um PDM finio é definido pelos seus conjunos de esdos e ções e por um dinâmic do mbiene que lev em con um único psso de empo. Dinâmic e objeivo são descrios pelos modelos de rnsição e de recompens: Ddos um esdo e um ção quisquer, s e, probbilidde de rnsição pr cd um dos próximos esdos possíveis s é dd por: P ss Pr {s +1 s s }, com Σ s P ss 1 pr odo s De modo nálogo, ddo um esdo correne s e um ção, junmene com um próximo esdo qulquer s, o vlor esperdo do próximo reforço é: R ss E {r +1 s, s +1 s } 9 Funções de vlor Os lgorimos de prendizgem por reforço procurm esimr funções de vlor - funções de esdo (ou de pres esdo-ção) que esimm quão bom é pr o gene esr num cero esdo (ou relizr um cer ção num cero esdo). noção de quão bom (ou uilidde) é definid em ermos de reornos fuuros que podem ser esperdos. Como s recompenss que o gene pode esperr receber no fuuro dependem de quis ções ele irá omr, s funções de vlor são definids em relção um políic priculr. Um políic é um mpemeno de cd esdo s e ção pr probbilidde ( de efeur ção qundo esiver no esdo s: { 1,,...}, não escionári, ou { 1, 1,...} escionári O vlor de um esdo s sob um políic, função de vlor de esdo pr políic, (s) é o reorno esperdo qundo, começndo em seguimos políic : (E é o vlor esperdo ddo que o gene sig políic ) (s) E {R s s} E γ k r +k+1 s s 1 Função de vlor de ção nlogmene, definimos o vlor ( uilidde) de relizr um ção no esdo s seguindo um políic, função de vlor de ção pr políic, Q (, como o reorno esperdo qundo, começndo em s e relizndo ção, seguimos políic : Q ( E {R s } E γ k r +k+1 s s funções de vlor e Q podem ser esimds prir d experiênci. Se um gene segue um políic e pr cd esdo enconrdo rmzenr médi dos reornos reis que se seguirm prir dese esdo, enão médi dos reornos de cd esdo convergirá pr o vlor do esdo (s). Se forem rmzends s médis pr cd ção omd num esdo, enão ess médis convergirão pr o vlor de ção Q (. Um esimção de vlores como es, envolvendo médis sobre mosrs leóris é chmd de méodo de Mone Crlo. 11 Soluções pr o problem d prendizgem por reforço O objeivo dos lgorimos pr solucionr o problem d prendizgem por reforço é enconrr um políic óim pr o gene. Um políic óim é quel que mximiz função de vlor. Um propriedde fundmenl ds funções de vlor é que els sisfzem relções recursivs priculres. Pr qulquer políic e qulquer esdo s vle seguine relção enre o vlor de s e o vlor de seus possíveis esdos sucessores: (s) E {R s s} E γ k r +k+1 s s E r +1 + γ γ k r +k+ s s (s) ( P ss [R ss + γ (s )] Equção de Bellmn Relção recursiv enre o vlor de um esdo e o vlor dos seus sucessores 1

Equção de Bellmn (s) é o reorno esperdo qundo, começndo em seguimos políic : (E é o vlor esperdo ddo que o gene sig políic ) c B Exemplo de PDM f C + (s) E {R s s} E γ k r +k+1 s s f D f f f f E F G H +1 E r +1 + γ γ k r +k+ s s Lembrndo que: ( : probbilidde de efeur ção qundo esá no esdo s P ss Pr {s +1 s s }: prob. de ir pr se efeuou em s R ss E {r +1 s, s +1 s }: vlor esperdo do reorno Enão, conhecendo-se os modelos de rnsição e de recompens, podemos deerminr relção enre o vlor de um esdo e o de seus sucessores: (s) ( P ss R ss + γe γ k r +k+ s +1 s b I f f f f f J K L M N 1 3 4 5 6 Círculos represenm esdo ses represenm rnsições de esdo. Todos os reornos são, com exceção ds posições erminis mrcds. Nese exemplo, só exise um únic escolh de ção em cd esdo, com exceção do esdo inicil. ções: c (pr cim, f (pr frene), b (pr bixo). Pr o cso deerminísico, são possíveis pens rês políics: 1 {c, f }, com r 1, r {f, f, f, f, f }, com r 1 r r 3 r 4, r 5 +1 +11 (s) ( P ss [R ss + γ (s )] Equção de Bellmn 13 3 {b, f, f, f, f, f }, com r 1 r r 3 r 4 r 5, r 6 +11 14 Cálculo do reorno médio esperdo c f B C + f f f f f D E F G H +1 Cálculo d função de vlor de esdo Considerndo políic clculr função de vlor (s), s S: ( s) r + γr + + γ r + 3 + L s s ( s) r + γ ( s') (Eq. de Bellmn, um ção, cso deerminísico) b I f f f f f J K L M N 1 3 4 5 6 Considerndo s políics deerminísics e γ,9, () é clculdo como: ( s) r + γr + + γ r + 3 + L s s 1 ( ) r1 +,9r + 1,8,8 ) r +,9r +,81r +,73r +,656r,9,81,73+ 6,56 3, 1 ( 1 3 4 5 + 3 ( ) r1 +,9r +,81r3 +,73r4 +,656r5, 59 r 6 3 ( ),9,81,73,656 + 6,49,394 +11 * () : políic óim 15 +1 D E F G H 1,9,81,73,656 ( 1 3 4 5 ) r +,9r +,81r +,73r +,656r,9,81,73+ 6,56 3,1 +1 D E F G H 1,9,81,73 ( 3 4 5 D) r +,9r +,81r +,73r,9,81+ 7,8 4,58 Equção de Bellmn, únic ção possível, cso deerminísico ( ( s) r 1 + γ ( s') + ) r1 +,9 ( D) +,9 * 4,58 3,1 16

Progrmção Dinâmic O ermo PD se refere um coleção de lgorimos que podem ser usdos pr clculr políics óims prir de um modelo perfeio do mbiene, como um PDM (conhecemos odos os P ss, R ss ). idéi d PD é usr funções de vlor pr buscr políics óims. vlição de políic ou problem d predição, é o cálculo d função de vlor de esdo pr um políic qulquer. O vlor de cd esdo pode ser clculdo pel solução dire do sisem de equções coplds (equção de Bellmn), ou ierivmene prir de um proximção inicil. Cd proximção sucessiv, 1,,..., é obid prir d esimiv inicil, ierivmene, usndo equção de Bellmn. k+1 (s) E {r +1 + γ k (s +1 ) s s} vlição ieriv de políic Considerndo políic e γ,9 clculr função de vlor (s), ierivmene: k+1 (s) r +1 + γ k (s +1 ) s s k 1 3 4 5 D E +1 1 3 4 5 (),9,7 3,44 (D),9,71 4,58 (E),9 6, 6, F (F) 8 8 8 G (G) 1 1 1 1 H k+1 (s) ( P ss [R ss + γ k (s )] 17 6 3,1 4,58 6, 8 1 18 Exemplo de vlição ieriv de políic Considere um mundo de grde 4 4, onde os esdos 1 e 16 são erminis. Exisem 4 ções possíveis (c, b, d, e: pr cim, bixo, direi, esquerd. s rnsições são deerminísic p. ex., P c 6, 1, P c 6,1. ções que levrim o gene pr for d grde, o deixm no mesmo lugr. Qulquer ção produz reorno imedio de (R s 1). ref é episódic, sem descono (γ 1). Índices dos esdos (s) 1 3 4 5 6 7 8 9 1 11 1 13 14 15 16 e c b d equiprovável ssumindo um políic equiprovável, (,5, prindo de um função de vlor inicil nul ( (s), s), vlir ierivmene es políic. -14 - - -14-18 - - - - -18-14 - - -14 Melhori de políic O cálculo d função de vlor pr um políic jud enconrr políics melhores. Suponh que deerminmos função pr um políic rbirári. Pr um esdo se seguirmos oberemos (s). Se selecionrmos em s um ção (s) e depois seguirmos, oberemos Q (, o vlor d ção no esdo s pr políic. O vlor dese compormeno é clculdo d equção de Bellmn: Q ( E {r +1 + γ (s +1 ) s } Q ( P ss [R ss + γ (s )] s Se Q ( for mior que (s), enão é melhor selecionr qundo esivermos em s e, prir dí, seguir políic, do que seri seguir o empo odo. 19

Políic gulos Um exensão nurl d esrégi pr melhori de um políic é considerr s mudnçs pr odos os esdos e ods s çõe selecionndo em cd esdo melhor ção segundo Q (. Nese cso, políic melhord será políic gulos, dd por: Exemplo de políic gulos Pr o exemplo do mundo de grde 4 4, clculndo os vlores ds çõe chegrímos n políic gulos mosrd bixo: equiprovável -14 - - (s) rg mx Q ( rg mx E {r +1 + γ (s +1 ) s } rg mx P ss [R ss + γ (s )] s Índices dos esdos (s) 1 3 4 5 6 7 8 9 1 11 1 13 14 15 16 um políic gulos -14-18 - - - - -18-14 - - -14-1 - -3 políic gulos escolhe ção que é melhor curo przo (um psso de empo no fuuro) de cordo com. -1 - -3 - - -3 - -1-3 - -1 1 Deerminção de um políic gulos prir de um podemos ober Q ( e ssim, deerminr. Ierção de Políic Ierção de políic: um vez que um políic enh sido usd pr esimr função de vlor, pode ser usd pr modificr políic inicil, é convergir pr políic óim (: vli, M: melhor -18 - - - - - um políic gulos -14 - - -14-18 - - - - -18-14 - - -14-14 - -18 - -14 - - - - - - Q ( -14-14 -14 - - - -18 - -18 - - - -14-14 - -18 - -18 - - - -14 - -18-14 -14 - - - - -14 - -18 - -14 3 M 1 1 1. Inicilizção: (s), (s). vlição de Políic () Repeir Pr cd s S v (s) (s) P (s) ss [R (s) ss + γ (s )] s mx(, v (s) ) é < θ 3. Melhori de Políic (M) M M * * 4

M 1 1 Ierção de Políic 3. Melhori de Políic políic-esável verdde Pr cd s S b (s) (s) rg mx P ss [R ss + γ (s )] se b (s), enão políic-esável flso se políic-esável, enão prr, senão ir pr. M M * * Ierção de lor Não é necessário esperr convergênci do processo ierivo de vlição de vlor pr melhorr políic. No lgorimo de ierção de vlor, vlição de políic é runcd pós um psso pens. k+1 (s) mx E{r +1 + γ k (s +1 ) s } k+1 (s) mx P ss [R ss + γ k (s )] pr odo s S. Ele represen um operção de regressão simple que combin os pssos de melhori de políic e de vlição runcd 5 6 Inicilizção: (s), rbirário Repeir Pr cd s S v (s) Ierção de lor (s) mx P ss [R ss + γ k (s )] mx(, v (s) ) é < θ síd é um políic l que: (s) rg mx P ss [R ss + γ (s )] 7 prendizdo por Diferenç Temporl É um bordgem pr o problem d predição (vlição de políic: esimr função de vlor pr um dd políic, sem necessidde de conhecimeno prévio do modelo do mbiene (P ss, R ss ). Pr o ouro problem, de conrole, (enconrr um políic óim se us lgum vrine d ierção de políic gulos. TD us um experiênci dquirid seguindo políic pr clculr, um esimiv de. Se um esdo não-erminl s, é visido no empo, su esimiv (s ) é ulizd bsedo no que conece pós visi. Nos méodos Mone Crlo, deve-se esperr é que sej conhecido o reorno que resul d visi (finl do episódio); ese reorno é usdo como lvo pr (s ). Lembrndo que R é o reorno rel, resulne do que segue o empo : ( s) E { R s s} Um form ieriv de clculr médi de R é: [ R ( s )] ( s ) ( s ) + α 8

prendizdo por Diferenç Temporl TD precis esperr só é o próximo psso de empo. Em, ele form um lvo e uliz (s ) usndo recompens observd r +1 e esimiv (s +1 ). O méodo TD mis simple TD() uiliz expressão : [ r + ( s ) ( s )] ( s ) ( s ) + α γ + 1 O méodo mis genérico, TD(λ) uiliz o conceio de elegibilidde. Lembrndo definição recorrene de (s): k ( s) E { R s s} E γ r + k s s k k E r + γ γ r + k + s s E r + + ( s ) 1 γ + 1 s k { s} emos que o lvo pr TD é: r γ s ) + ( + 1 lgorimo TD() pr prender Inicilizr (s) rbirário pr políic ser vlid. Repeir (pr cd episódio): Inicilizr s Repeir (pr cd psso do episódio): ção dd por pr s Relizr ção, observr recompens r e próximo esdo s (s) (s) + α[r + γ (s ) (s)] s s é s ser erminl E o erro TD (que é minimizdo é): δ r + ( s ) 1 ( s ) γ + 9 3 Méodo TD on-policy pr o problem de conrole Seguimos o esquem genérico de prendizgem d ierção de políic, ms usndo méodos TD pr ep de vlição (: vli; M: melhor: M Q 1 Q M 1 M * Q * Deve-se prender um função de vlor de ção, Q, em vez de vlor de esdo,. Devemos esimr Q ( pr políic correne, pr odos os esdos s e ções (méodo TD on-policy) Pode-se usr o mesmo méodo TD descrio pr prender. Considermos gor um rnsição de pr esdo-ção pr pr esdo-ção, e prendemos o vlor de pres esdo-ção. r s +1 r + s +1 s + s, s +1, +1 s +, + O lgorimo correspondene pr vlores de ções é nálogo o TD(): [ r + Q( s, ) Q( s, )] Q( s, ) Q( s, ) + α γ + 1 + 1 Es ulizção é fei pós cd rnsição de um esdo não-erminl, s e us odos os elemenos d quínupl de evenos: (s,, r +1, s +1, +1 ): srs 31 Srs: lgorimo de conrole bsedo em TD on-policy Inicilizção: Q(, rbirário Repeir (pr cd episódio): Inicilizr s Escolher de s usndo políic derivd de Q (p. ex. ε-gulos Repeir (pr cd psso do episódio): Execur ção, observr r, s Escolher de s usndo políic derivd de Q (p. ex. ε-gulos s s ; ; é s ser erminl [ r + γq( s, ) Q( )] Q( Q( + α 3

Q-Lerning No Q-Lerning (QL), função Q prendid proxim diremene Q*, função de vlor de ção óim, independene d políic seguid (off-policy). Iso simplific drmicmene nálise do lgorimo possibilindo provs de convergênci. O efeio d políic é que el deermin quis pres de esdo-ção são visidos e ulizdos. Com QL é possível comprr uilidde esperd ds ções disponíveis sem precisr de um modelo de mbiene. O lgorimo se bsei num ierção de vlor; pr cd esdo s e pr cd ção, ulizção d recompens descond esperd é clculd prir d recompens rel observd pel equção: [ r + γ mx Q( s, Q( s, )] Q( s, ) Q( s, ) + α Inicilizção: Q(, rbirário lgorimo Q-Lerning Repeir (pr cd episódio): Inicilizr s Repeir (pr cd psso do episódio): Escolher de s usndo políic derivd de Q (p. ex. ε-gulos Execur ção, observr r, s Q( Q( + α s s ; é s ser erminl [ r + γ mxq( s, ) Q( ] 33 34 O problem do penhsco prender lcnçr o objeivo, evindo cir no penhsco. r 1 Méodos Bsedos em or e Críico Os méodos bsedos em or e críico são méodos TD que êm um esruur de memóri seprd pr represenr explicimene políic, independenemene d função de vlor. esruur de políic é chmd de or, porque el é responsável por selecionr ções. função de vlor esimd é chmd de críico, porque ele criic s ções relizds pelo or. síd do críico em form de um erro TD. Tipicmene, o críico prende um função de vlor de esdo. pós cd seleção de ção, o críico vli o novo esdo pr deerminr se o resuldo é melhor ou pior do que o esperdo. Es vlição é o erro TD: δ r + γ + ( s ) 1 ( s ) onde é função de vlor correne implemend pelo críico. 35 36

rquieur de um esquem de prendizgem or-críico or Políic s erro TD ção Críico Função de lor mbiene reforço eor de esdo esdo 37 Méodos Bsedos em or e Críico O erro TD pode ser usdo pr vlir ção seleciond,, no esdo s. Se o erro for posiivo, signific que endênci (preferênci selecionr deve ser reforçd, ms se for negivo, el deve ser enfrquecid. Considerndo que s ções sejm gerds pelo méodo sofmx: (, Pr{ onde p( são os vlores em dos prâmeros jusáveis d políic do or, indicndo endênci selecionr cd ção, qundo esiver no esdo s. Enão, o forlecimeno ou o enfrquecimeno d endênci selecionr pode ser implemend umenndo-se ou diminuindo-se p(s, ) por: p( s, ) p( s, ) + βδ [ r + γ ( s ) ( s ] αδ ( s ) ( s ) + ) α s onde β é um prâmero posiivo de psso. Um our solução pr selecionr ções é usr rços de eligibilidde. s} s p( ) e e p( b 38 Trços de eligibilidde Os méodos TD podem ser esendidos uilizndo rços de eligibilidde: TD(λ). eligibilidde é um regisro emporário d ocorrênci de um eveno, p. ex. visi de um esdo ou relizção de um ção, ornndo os prâmeros ssocidos eses evenos elegíveis pr serem modificdos no reinmeno. Qundo ocorre um erro TD, δ, pens os esdos e ções elegíveis são responsbilizdos pelo erro. Os méodos Mone Crlo (MC) fzem regressão pr cd esdo com bse em od seqüênci de recompenss observd do esdo é o fim do episódio. Nos méodos TD simples regressão é bsed pens n próxim recompens e o vlor do próximo esdo como proximção pr s recompenss fuurs. regressão no TD(λ) consider recompenss com decimeno ddo por λ. λ é o prâmero de decimeno (emporl) do rço de eligibilidde. R λ (1 λ) n 1 λ n R ( n) λ [ R ( s )] ( s ) α 39 lgorimo TD(λ) pr prender No lgorimo TD(λ) s ulizções começm do esdo finl (cusl). e (s) é o rço de eligibilidde pr um esdo s no empo, sinlizndo os esdos que form visidos recenemene (qundo e (s) ) cd psso, os rços de eligibilidde pr odos os esdos decem de γλ enquno que pr o esdo visido nese psso o rço umen de 1: γλe 1( s) e ( s) γλe ( s) se s s se s s O erro TD pr um psso (insnâneo) pr previsão do vlor de esdo é clculdo por: δ r + ( s 1) ( s ) γ + No TD(λ), s ulizções de odos os esdos visidos recenemene são proporcionis o erro TD: ( s) αδ e ( s) s S 4

lgorimo TD(λ) pr prender Inicilizção: (s), rbirário e e(s) pr odo s S Repeir (pr cd episódio): Inicilizr s Repeir (pr cd psso do episódio): ção dd por pr s Relizr ção, observr recompens r e próximo esdo s δ r + γ (s ) (s) e(s) e(s) Pr odo s: (s) (s) + αδ e(s) e(s) γλ e(s) s s é s ser erminl lgorimo Q(λ) de Wkins No Q-Lerning (QL), função Q prendid proxim diremene Q*, função de vlor de ção óim, independene d políic seguid (off-policy). Iso signific que QL prende políic gulos, ms seguindo um políic que envolve ções exploróris (sub-óims em relção Q ). Enreno, pr prender políic óim, só podemos usr experiênci enquno ção não for exploróri. No Q(λ) o uso d experiênci é fei pelos rços de eligibilidde. No QL(λ) os rços de eligibilidde são jusdos como previso pr s ções gulos ms eles são zerdos qundo um ção exploróri é relizd. Pr cd esdo s e pr cd ção, ulizção d recompens descond esperd é clculd pel equção: onde δ Q ( Q ( + αδ e ( r + γ + ' mx Q ( s 1, ') Q ( s, ) 41 4 lgorimo Q(λ) de Wkins Inicilizção: Q(, rbirário e e( pr odo Repeir (pr cd episódio): Inicilizr Repeir (pr cd psso do episódio): Relizr ção, observr recompens r e próximo esdo s Escolher de s usndo políic derivd de Q (p. ex. ε -gulos * rg mx b Q(s, b) (se for igul o mx, enão * ) δ r + γ Q(s, *) Q( e( e( Pr odo : Q( Q( + αδ e( Se *, enão e( γλ e( senão e( s s ; é s ser erminl 43