Controle Ótimo - Aula 2 (Exemplos 2, 3 e 4)

Transcrição

1 Controle Ótimo - Aula 2 (Exemplos 2, 3 e 4) Adriano A. G. Siqueira e Marco H. Terra Departamento de Engenharia Elétrica Universidade de São Paulo - São Carlos

2 Sistemas dinâmicos discretos no tempo O Problema Básico x k+1 = f k (x k, u k, w k ), k = 0, 1,..., N 1 com x k S k, u k U k (x k ) C k e w k variável aleatória Dado um estado inicial x 0, encontrar uma política admissível ótima π = {µ 0, µ 1,..., µ N 1 } que minimize o custo esperado N 1 J = J π (x 0 ) = min π Π {E wk {g N (x N )+ k=0 g k (x k, µ k (x k ), w k )}}

3 Algoritmo da Programação Dinâmica Para cada condição inicial x 0, o custo ótimo J (x 0 ) do problema básico é igual a J 0 (x 0 ), o último passo do seguinte algoritmo que evolui de modo reverso no tempo de N 1 até 0 : Passo N: J N (x N ) := g N (x N ) para todo x N S k Passo k: J k (x k ) = min uk U k (x k ){E wk {g k (x k, u k, w k ) +J k+1 (f k (x k, u k, w k ))}}, k = N 1,..., 0 Se u k = µ k (x k) minimiza o lado direito da equação do passo k, a política π = {µ 0, µ 1,..., µ N 1 } é ótima

4 Exemplo 2: Controle de Estoque Exemplo 1.1, p.3 + exemplo 3.2, p.23 [Bertsekas, 95] Considere o problema de se ordenar uma quantidade de um determinado item a cada período de um horizonte de N = 3 períodos (meses). Denota-se: x k o estoque disponível no início do k-ésimo período u k o estoque ordenado (e imediatamente enviado) no início do k-ésimo período w k demanda no késimo período.

5 Exemplo 2: Controle de Estoque Restrições e considerações: O estoque a cada instante é positivo e limitado, 0 x k 2 Ordena-se a cada instante quantidades positivas e limitadas, 0 u k 2 Demanda positiva e limitada, 0 w k 2, com distribuição de probabilidade conhecida: p(w k = 0) = 0.1, p(w k = 1) = 0.7, p(w k = 2) = 0.2, para k = 0,..., N 1 (a mesma distribuição de probabilidade para todos os períodos). As variáveis aleatórias w 0, w 1, w 2 são independentes.

6 Exemplo 2: Controle de Estoque Existe um limite máximo de 2 unidades que podem ser estocadas a cada período: x k + u k 2 Custo do estoque de material: r (s k ) = (x k + u k w k ) 2 Custo de se ordenar u k itens é c k u k com c k = 1 (c k é o custo por unidade) Custo terminal zero: g N (x N ) = g 3 (x 3 ) = 0. Qual melhor política de pedidos (ordem de compra)?

7 Exemplo 2: Controle de Estoque Solução: Vamos colocar o problema de otimização na forma padrão: Custo a ser minimizado em um horizonte de N = 3 min (u0,u 1,u 2 )E (w0,w 1,w 2 ){g 3 (x 3 ) + 2 [u k + (x k + u k w k ) 2 ]} k=0 Sequência {x 1, x 2, x 3 } é gerada segundo a lei dinâmica: x k+1 = f k (x k, u k, w k ) = max{0, x k + u k w k }

8 Exemplo 2: Controle de Estoque Custo a cada período g k (x k, u k, w k ) = u k + (x k + u k w k ) 2, k = 0, 1, 2 g N (x N ) = g 3 (x 3 ) = 0. Restrições: S k = {0, 1, 2}, k = 0, 1, 2 C k = {0, 1, 2} U k (x k ) = {u k C k : x k + u k 2} (para cada x k S k ) x k U k (x k ) 0 {0, 1, 2} 1 {0, 1} 2 {0}

9 Exemplo 2: Controle de Estoque Algoritmo da Programação Dinâmica. Passo k = N = 3: J 3 (x 3 ) = g 3 (x 3 ) = 0, para todo x 3 S 3. x 3 J 3 (x 3 )

10 Exemplo 2: Controle de Estoque Passo k = N 1 = 2: J 2 (x 2 ) =min u2 U 2 (x 2 )E w2 {g 2 (x 2, u 2, w 2 ) + J 3 (f 2 (x 2, u 2, w 2 ))} =min u2 U 2 (x 2 )E w2 {u 2 + (x 2 + u 2 w 2 ) 2 } Note que o domínio de J 2 é dado por S 2 = {0, 1, 2}.

11 Exemplo 2: Controle de Estoque Para x 2 = 0. J 2 (x 2 = 0) = min u2 U 2 (x 2 =0)E w2 {u 2 + (u 2 w 2 ) 2 } = min u2 {0,1,2}E w2 {u 2 + (u 2 w 2 ) 2 } = min u2 {0,1,2}[(u 2 + u 2 2)p(w 2 = 0) + (u 2 + (u 2 1) 2 )p(w 2 = 1) + (u 2 + (u 2 2) 2 )p(w 2 = 2)] = min u2 {0,1,2}[0.1(u 2 +u 2 2)+0.7(u 2 +(u 2 1) 2 )+0.2(u 2 +(u 2 2) 2 )] = min u2 {0,1,2}, [u u (u 2 1) (u 2 2) 2 ] = min{1.5, 1.3, 3.1} = 1.3 A ação ótima de controle para x 2 = 0 é dada por µ 2 (x 2 = 0) = 1.

12 Exemplo 2: Controle de Estoque Para x 2 = 1 J 2 (x 2 = 1) = min u2 U 2 (x 2 =1)E w2 {u 2 + (1 + u 2 w 2 ) 2 } = min u2 {0,1}E w2 {u 2 + (1 + u 2 w 2 ) 2 } = min u2 {0,1}[u 2 + (1 + u 2 ) 2 p(w 2 = 0) + u 2 2p(w 2 = 1) + (u 2 1) 2 p(w 2 = 2)] = min u2 {0,1}[u (1 + u 2 ) u (u 2 1) 2 ] = min{0.3, 2.1} = 0.3 A ação ótima de controle para x 2 = 1 é dada por µ 2 (x 2 = 1) = 0.

13 Exemplo 2: Controle de Estoque Para x 2 = 2. J 2 (x 2 = 2) = min u2 U 2 (x 2 =2)E w2 {u 2 + (2 + u 2 w 2 ) 2 } = min u2 {0}E w2 {u 2 + (2 + u 2 w 2 ) 2 } = E w2 {(2 w 2 ) 2 } = [2 2 p(w 2 = 0) + (1) 2 p(w 2 = 1) + (0) 2 p(w 2 = 2)] = [ ] = 1.1 A ação ótima de controle para x 2 = 2 é dada por µ 2 (x 2 = 2) = 0. Assim, obtemos a função J 2 e a função µ 2 : x 2 J 2 (x 2 ) µ 2 (x 2 )

14 Exemplo 2: Controle de Estoque Passo k = 1 J 1 (x 1 ) = min u1 U 1 (x 1 )E w1 {g 1 (x 1, u 1, w 1 ) + J 2 (f 1 (x 1, u 1, w 1 ))} J 1 (x 1 ) = min u1 U 1 (x 1 )E w1 {u 1 + (x 1 + u 1 w 1 ) 2 + J 2 (max{0, x 1 + u 1 w 1 })} Note que o domínio de J 1 é dado por S 1 = {0, 1, 2}.

15 Exemplo 2: Controle de Estoque Para x 1 = 0 J 1 (x 1 = 0) = min u1 U 1 (x 1 =0)E w1 {u 1 + (u 1 w 1 ) 2 + J 2 (max{0, u 1 w 1 })} J 1 (x 1 = 0) = min u1 {0,1,2}E w1 {u 1 + (u 1 w 1 ) 2 + J 2 (max{0, u 1 w 1 })} J 1 (x 1 = 0) = min{e w1 {w J 2 (max{0, w 1 })}, E w1 {1 + (1 w 1 ) 2 + J 2 (max{0, 1 w 1 })}, E w1 {2 + (2 w 1 ) 2 + J 2 (max{0, 2 w 1 })}}

16 Exemplo 2: Controle de Estoque (u 1 = 0) E w1 {w1 2 + J 2 (max{0, w 1 })} = [0 2 + J 2 (0)]p(w 1 = 0) + [1 2 + J 2 (max{0, 1})]p(w 1 = 1) +[2 2 + J 2 (max{0, 2})]p(w 1 = 2) = J 2 (0) p(w 1 = 0) + [1 + J 2 (0)]p(w 1 = 1) + [4 + J 2 (0)]p(w 1 = 2) = J 2 (0) + p(w 1 = 1) + 4p(w 1 = 2) = = 2.8

17 Exemplo 2: Controle de Estoque (u 1 = 1) E w1 {1 + (1 w 1 ) 2 + J 2 (max{0, 1 w 1 }) = [ J 2 (1)]p(w 1 = 0) + [ J 2 (0)]p(w 1 = 1) +[1 + ( 1) 2 + J 2 (max{0, 1})]p(w 1 = 2) = J 2 (1) p(w 1 = 0) + J 2 (0) [p(w 1 = 1) + p(w 1 = 2)] p(w 1 = 0) + p(w 1 = 2) = [ ] = 2.5

18 Exemplo 2: Controle de Estoque (u 1 = 2) E w1 {2 + (2 w 1 ) 2 + J 2 (max{0, 2 w 1 })} = 2 + E w1 {(2 w 1 ) 2 + J 2 (max{0, 2 w 1 })} = 2 + [4 + J 2 (2)]p(w 1 = 0) + [1 + J 2 (1)]p(w 1 = 1) + J 2 (0) p(w 1 = 2) = 2 + [ ] [ ] = 3.68 Portanto J 1 (x 1 = 0) = min{2.8, 2.5, 3.68} = 2.5 e o valor da lei ótima para x 1 = 0 é dada por µ 1 (x 1 = 0) = 1.

19 Exemplo 2: Controle de Estoque Para x 1 = 1 J 1 (x 1 = 1) = min u1 U 1 (x 1 =1)E w1 {u 1 + (1 + u 1 w 1 ) 2 + J 2 (f 1 (x 1, u 1, w 1 ))} J 1 (x 1 = 1) = min u1 {0,1}E w1 {u 1 + (1 + u 1 w 1 ) 2 + J 2 (max{0, 1 + u 1 w 1 })} = min{e w1 {(1 w 1 ) 2 + J 2 (max{0, 1 w 1 })}, E w1 {1 + (2 w 1 ) 2 + J 2 (max{0, 2 w 1 })}}

20 Exemplo 2: Controle de Estoque (u 1 = 0) E w1 {(1 w 1 ) 2 + J 2 (max{0, 1 w 1 })} = [1 + J 2 (1)]p(w 1 = 0) + J 2 (0) p(w 1 = 1) + [1 + J 2 (0)]p(w 1 = 2) = [ ] [ ] 0.2 = 1.2 (u 1 = 1) E w1 {1 + (2 w 1 ) 2 + J 2 (max{0, 2 w 1 })} = 2.68 Portanto J 1 (x 1 = 1) = min{1.2, 2.68} = 1.2 e o valor da lei ótima para x 1 = 1 é dada por µ 1 (x 1 = 1) = 0.

21 Exemplo 2: Controle de Estoque Para x 1 = 2 J 1 (x 1 = 2) = min u1 U 1 (x 1 =2)E w1 {u 1 + (2 + u 1 w 1 ) 2 + J 2 (max{0, 2 + u 1 w 1 })} J 1 (x 1 = 2) = E w1 {(2 w 1 ) 2 + J 2 (max{0, 2 w 1 })} = 1.68 e o valor da lei ótima para x 1 = 2 é dada por µ 1 (x 1 = 2) = 0. Assim, obtemos a função J 1 e a função µ 1 : x 1 J 1 (x 1 ) µ 1 (x 1 )

22 Exemplo 2: Controle de Estoque Passo k = 0 J 0 (x 0 ) = min u0 U 0 (x 0 )E w0 {g 0 (x 0, u 0, w 0 ) + J 1 (f 0 (x 0, u 0, w 0 ))} J 0 (x 0 ) = min u0 {0,1,2}E w0 {u 0 +(x 0 + u 0 w 0 ) 2 +J 1 (max{0, x 0 + u 0 w 0 })} Procedendo da mesma forma que nos casos anteriores obtemos x 0 J 0 (x 0 ) µ 0 (x 0 ) A política ótima de ordem de compra para cada período é pedir uma unidade se o corrente estoque é zero e não fazer pedido de compra caso haja algum estoque.

23 Exemplo 3: Custo quadrático Exemplo 3 (Adaptado do exemplo 4.2.1, p.298 [Lewis86]) Considere a planta x k+1 = x k + u k, k = 0, 1 (N = 2) na qual o estado pode assumir apenas os valores 0, a, 2a, 3a sendo a > 0 (o estado é positivo, limitado e assume apenas valores discretos) e podemos escolher o valor do sinal de controle u k a cada etapa dentre os seguintes valores (desde que não viole as restrições do estado) 2a, a, 0, a, 2a.

24 Exemplo 3: Custo quadrático Determinar a sequência de controle ótima (u 0, u 1) que minimiza o índice de desempenho quadrático x (u2 0 + u 2 1) para cada valor de x 0 e o respectivo custo ótimo. Solução: Vamos colocar o problema na forma padrão: O sistema dinâmico x k+1 = f k (x k, u k ) = x k + u k, k = 0, 1 (N = 2). Espaço de estados para cada instante k é dado por S 0 = S 1 = S 2 = {0, a, 2a, 3a}

25 Exemplo 3: Custo quadrático A variável de decisão (controle) u k a ser selecionada no instante k pertence ao espaço C k = { 2a, a, 0, a, 2a}, k = 0, 1, 2 Note que o controle u k é restringido a tomar valores em um sub-conjunto U k (x k ) C k que depende apenas do valor corrente do estado x k x k U k (x k ) 0 {0, a, 2a} a { a, 0, a, 2a} 2a { 2a, a, 0, a} 3a { 2a, a, 0}

26 Exemplo 3: Custo quadrático O custo a cada instante g k (x k, u k ) está indicado no funcional desempenho. g N (x N ) = g 2 (x 2 ) = x 2 2 g 1 (x 1, u 1 ) = 1 2 u2 1 g 0 (x 0, u 0 ) = 1 2 u2 0

27 Exemplo 3: Custo quadrático Algorítmo da Programação Dinâmica. Comece com k = N = 2. J 2 (x 2 ) = g 2 (x 2 ) = x 2 2, x 2 S 2 = {0, a, 2a, 3a}. x J 2 (x) 0 0 a a 2 2a 4a 2 3a 9a 2

28 Exemplo 3: Custo quadrático k = N 1 = 1 J 1 (x 1 ) = min u1 U 1 (x 1 ){g 1 (x 1, u 1 ) + J 2 (f 1 (x 1, u 1 ))} = min u1 U 1 (x 1 ){ 1 2 u2 1 + (x 1 + u 1 ) 2 } O espaço de estados é S 1 = {0, a, 2a, 3a}. Se x 1 = 0, o custo ótimo é J 1 (x 1 = 0) = min u1 {0,a,2a}{ 3 2 u2 1} = 0 e a lei de controle ótimo é tal que µ 1 (x 1 = 0) = 0.

29 Exemplo 3: Custo quadrático Se x 1 = a, o custo ótimo é J 1 (a) = min u1 U 1 (a){ 1 2 u2 1 + (a + u 1 ) 2 } = min u1 { a,0,a,2a}{ 1 2 u2 1 + (a + u 1 ) 2 } = min{ 1 2 a2, a 2, 9 2 a2, 11a 2 } = 1 2 a2 e a lei de controle ótimo é tal que µ 1 (x 1 = a) = a. Se x 1 = 2a, o custo ótimo é J 1 (2a) = min u1 { 2a, a,0,a}{ 1 2 u2 1 + (2a + u 1 ) 2 } = min{2a 2, 3 2 a2, 4a 2, 19 2 a2 } = 3 2 a2 e a lei de controle ótimo é tal que µ 1 (2a) = a.

30 Exemplo 3: Custo quadrático Se x 1 = 3a, o custo ótimo é J 1 (3a) = min u1 { 2a, a,0}{ 1 2 u2 1 + (3a + u 1 ) 2 } = min{3a 2, 9 2 a2, 9a 2 } = 3a 2 e a lei de controle ótimo é tal que µ 1 (3a) = 2a. Assim, a função J 1 : S 1 R + e a lei de controle admissível µ 1 : S 1 C 1 são dados pela tabela x 1 J 1 (x 1 ) µ 1 (x 1 ) a 2 a2 a 3 2a 2 a2 a 3a 3a 2 2a

31 Exemplo 3: Custo quadrático k = 0 O custo ótimo é J 0 (x 0 ) = min u0 U 0 (x 0 ){g 0 (x 0, u 0 ) + J 1 (f 0 (x 0, u 0 ))} = min u0 U 0 (x 0 ){ 1 2 u2 0 + J 1 (x 0 + u 0 )} O espaço de estados é S 0 = {0, a, 2a, 3a}. Se x 0 = 0, o custo ótimo é J 0 (x 0 = 0) = min u0 U 0 (x 0 =0){ 1 2 u2 0 + J 1 (x 0 + u 0 )} = min u0 {0,a,2a}{ 1 2 u2 0 + J 1 (u 0 )} = min{0, a 2, 7 2 a2 } = 0 e a lei de controle ótimo é tal que µ 0 (x 0 = 0) = 0.

32 Exemplo 3: Custo quadrático Se x 0 = a, o custo ótimo é J 0 (a) = min u0 { a,0,a,2a}{ 1 2 u2 0 + J 1 (a + u 0 )} = min{ 1 2 a2, 1 2 a2, 2a 2, 5a 2 } = 1 2 a2 e a lei de controle ótimo não é única e podemos fazer µ 1 0 (x 0 = a) = a ou µ 2 0 (x 0 = a) = 0. Se x 0 = 2a, o custo ótimo é J 0 (2a) = min u0 { 2a, a,0,a}{ 1 2 u2 0 + J 1 (2a + u 0 )} = min{2a 2 + J 1 (0), 1 2 a2 + J 1 (a), J 1 (2a), 1 2 a2 + J 1 (3a)} = min{2a 2, a 2, 3 2 a2, 7 2 a2 } = a 2 e a lei de controle ótimo é tal que µ 0 (x 0 = 2a) = a.

33 Exemplo 3: Custo quadrático Se x 0 = 3a, o custo ótimo é J 0 (3a) = min u0 { 2a, a,0}{ 1 2 u2 0 + J 1 (3a + u 0 )} = min{ 5 2 a2, 2a 2, 3a 2 } = 2a 2 e a lei de controle ótimo é µ 0 (x 0 = 3a) = a. Assim, a função J 0 : S 0 R + e a lei de controle admissível µ 0 : S 0 C 0 são dados pela tabela x 0 J 0 (x 0 ) µ 0 (x 0 ) a 1 2 a2 a ou 0 2a a 2 a 3a 2a 2 a

34 Exemplo 3: Custo quadrático A sequência de controle ótima (u 0, u 1) e o respectivo custo ótimo para cada valor possível de x 0 são facilmente determinados conforme a tabela abaixo. x 0 (u 0, u 1) J 0 (x 0 ) 0 (0, 0) 0 a (0, a) ou ( a, 0) 1 2 a2 2a ( a, a) a 2 3a ( a, a) 2a 2

35 Exemplo 3: Custo quadrático

36 Exercício (software) Faça um programa em Matlab para resolver o problema acima para um valor genérico de N e com o índice de desempenho x 2 N + r N 1 k=0 u 2 k, r > 0 para cada valor de x 0 e o respectivo custo ótimo. 1) Teste o programa com o resultado do exemplo acima. 2) O que acontece com os valores de x N quando se aumenta N? 3) Para x 0 e N fixos, o que acontece com o sinal {u k } quando se aumenta r? 4) Existe algum r 0 para qual o problema de otimização ainda tem solução?

37 Exemplo 4: Problema do forno Exemplo 3.1, p.20 [Bertsekas 95]) Certo material atravessa um seqüência de dois fornos x 0 temperatura inicial do material x k temperatura do material na saída do forno k u k temperatura média do forno k Modelo x k+1 = (1 a)x k + au k, k = 0, 1 (N = 2) com 0 < a < 1

38 Exemplo 4: Problema do forno Objetivo: aproximar x 2 de um valor desejado T, gastando menos energia Índice de desempenho quadrático r(x 2 T ) 2 + u u 2 1 com r > 0. O custo a cada instante: g k (x k, u k ) g N (x N ) = g 2 (x 2 ) = r(x 2 T ) 2 g 1 (x 1, u 1 ) = u 2 1 g 0 (x 0, u 0 ) = u 2 0

39 Exemplo 4: Problema do forno Algorítmo da Programação Dinâmica. Comece com k = N = 2. J 2 (x 2 ) = g 2 (x 2 ) = r(x 2 T ) 2 k = N 1 = 1 J 1 (x 1 ) = min u1 {u J 2 (x 2 )} = min u1 {u J 2 ((1 a)x 1 + au 1 )} = min u1 {u r ((1 a)x 1 + au 1 T ) 2 }

40 Exemplo 4: Problema do forno Derivando com relação a u 1 e igualando a zero 0 = 2u 1 + 2ra ((1 a)x 1 + au 1 T ) Portanto µ 1 (x 1 ) = ra(t (1 a)x 1) 1+ra 2 Custo ótimo J 1 (x 1 ) = r((1 a)x 1 T ) 1+ra 2

41 Exemplo 4: Problema do forno k = 0 J 0 (x 0 ) = min u0 {u J 1 (x 1 )} = min u0 {u J 1 ((1 a)x 0 + au 0 )} = min u0 {u r ((1 a) 2 x 0 +(1 a)au 0 T) 2 1+ra 2 } Derivando com relação a u 0 e igualando a zero, temos µ 0 (x 0 ) = r(1 a)a (T (1 a) 2 x 0) 1+ra 2 (1+(1 a) 2 ) Custo ótimo J 0 (x 0 ) = r ((1 a) 2 x 0 T) 2 1+ra 2 (1+(1 a) 2 )

42 Exemplo 4: Problema do forno Considere agora x k+1 = (1 a)x k + au k + w k sendo w 0,w 1 variáveis aleatórias com dada distribuição, média zero (E{w 0 } = E{w 1 } = 0) e variância finita J 1 (x 1 ) = min u1 E w1 {u r ((1 a)x 1 + au 1 + w 1 T ) 2 } = min u1 [u r ((1 a)x 1 + au 1 T ) 2 +2rE{w 1 } ((1 a)x 1 + au 1 T ) + re{w 2 1}] min u1 [u r ((1 a)x 1 + au 1 T ) 2 ] + re{w 2 1} Princípio da Equivalência Certeza

43 O problema linear quadrático Problema do Regulador Linear Quadrático (LQR) de horizonte finito: Dado o sistema linear x k+1 = A k x k + B k u k, k = 0, 1,..., N 1 com as restrições x k S k, u k U k (x k ) C k para cada k, minimizar o índice de desempenho quadrático x T N Q Nx N + N 1 ( k=0 x T k Q k x k + u T k R ) ku k.

44 O problema linear quadrático Problema do Regulador Linear Quadrático Gaussiano (LQG) de horizonte finito: Dado o sistema linear x k+1 = A k x k + B k u k + w k, k = 0, 1,..., N 1 com as restrições x k S k para cada k, u k U k (x k ) C k para cada k, {w 0,..., w N 1 } é uma sequência de vetores aleatórios independentes de média zero, variância finita e distribuição de probabilidade independente de x k e u k,

45 O problema linear quadrático Problema: minimizar em {u k } o índice de desempenho quadrático { E {w0,...,w N 1 } x T N Q Nx N + N 1 ( k=0 x T k Q k x k + u T k R ) } ku k

46 Exercícios, Prazo: 2 semanas Exercício: 1.1 (pág. 37) [Bertsekas 95] Considere o sistema x k+1 = x k + u k + w k, k = 0, 1, 2, 3 com estado inicial x 0 = 5, e função custo N 1 k=0 (x2 k + u2 k ) Aplique o algoritmo da Programação Dinâmica para os seguintes casos: a) O conjunto de restrições do controle U k (x k ) é {u 0 x k + u 5, u inteiro } para todo x k e k, e o distúrbio w k é igual a zero para todo k. b) A restrição do controle e o distúrbio são como em (a), mas existe uma restrição adicional, x 4 = 5 no estado final. Dica: Defina um espaço de estados para x 4 que consiste apenas do valor x 4 = 5, e redefine U 3 (x 3 ). De forma alternativa, você pode usar um custo final g 4 (x 4 ) igual a um valor muito alto para x 4 5.

47 Exercícios, Prazo: 2 semanas c) A restrição do controle é como em (a) e o distúrbio w k assume valores 1 e 1 com probabilidade 1/2 para todo x k e u k, exceto se x k + u k é igual a 0 ou 5 neste caso w k = 0 com probabilidade 1. Exercício: 1.6 (pág. 40) [Bertsekas 95] Seja o problema básico, e considere a seguinte função custo E wk {α N g N (x N ) + N 1 k=0 αk g k (x k, µ k (x k ), w k )} sendo α um fator de desconto com 0 < α < 1. Mostre que uma forma alternativa do algortimo da Programção Dinâmica é V N (x N ) := g N (x N ), V k (x k ) = min uk U k (x k ){E wk {g k (x k, u k, w k ) +αv k+1 (f k (x k, u k, w k ))}}, k = N 1,..., 0