Programação Dinâmica Estocástica

Programação Dinâmica Estocástica Processos de Decisão Estocástica Multiestágios Um processo de decisão multiestágios é estocástico, se o resultado associado a pelo menos uma decisão do processo é aleatório. Esta aleatoriedade ocorre basicamente de dois modos: - Os estados são unicamente determinados pelas decisões, mas os resultados relacionados com um ou mais estados ocorrem ao acaso, - Os resultados são unicamente determinados pelos estados resultantes de uma ou mais decisões e que se dão ao acaso. Se as distribuições de probabilidade que governam os acontecimentos aleatórios são conhecidas e se o número de estágios é finito, a Programação Dinâmica vista atrás é útil para a optimização de um processo de decisão multiestágios estocástico. O procedimento geral é optimizar o valor esperado do resultado. Nos casos em que a aleatoriedade ocorre apenas nos resultados relacionados com os estados e não nos estados resultantes das decisões, este procedimento tem como consequência a transformação de um processo estocástico num processo determinístico. Tabelas Políticas Nos processos em que a aleatoriedade existe em relação aos estados associados com as decisões, uma política - em particular uma política óptima pode ser explicitada através de uma tabela política que é um quadro do tipo: Estados Estágios 1 ( ) 1 a 1 a 1 a 2 a r d d 1( a 2 ) d 1 ( a r ) d d ( ) ( ) 2 a 2 d 2 a r n d n ( a 1 ) ( a 2 ) d n a r 2 ( ) 2 a 1 d n ( ) Nesta tabela, ( ) a k d, = 1,2,..., n ; k = 1,2,..., r, representa a decisão no estágio quando o processo se encontra no estado a k. 1

Exemplo Pretende-se distribuir oito (8) lotes de larana por três (3) mercados. A procura de laranas em cada um deles é aleatória, de acordo com as distribuições de probabilidade seguintes: Probabilidades de Procura Lotes Mercado 1 Mercado 2 Mercado 3 0 0,1 0 0,1 1 0,2 0,2 0,3 2 0,3 0,6 0,2 3 0,2 0 0,2 0,1 0,2 0 5 0,1 0 0,2 O lucro por lote vendido nos mercados 1, 2 e 3 é de 18 euro, 20 euro e 21 euro, respectivamente. Determine o número inteiro de lotes que deveria ser distribuído em cada mercado de modo a maximizar o lucro esperado. Podemos encarar este problema como um processo de decisão de 3 estágios, representando o estágio uma distribuição de laranas no Mercado, = 1,2,3. Os estados de cada estágio são u = 0,1,..., 8 e representam o número de lotes disponíveis para distribuição num mercado. Não existe aleatoriedade no estado resultante de qualquer decisão: - Por exemplo, se se distribuem dois lotes a um certo Mercado ele ficará com dois lotes em stock. Mas existe aleatoriedade no resultado de qualquer estado: - Com dois lotes em stock, um mercado pode vender 0, 1 ou 2 lotes, gerando cada possibilidade lucros diferentes. Em consequência, vamos maximizar o lucro total esperado (como aliás é pedido) em vez do lucro total. Seam f x lucro esperado pela distribuição de x lotes no mercado, - ( ) - m ( u) lucro total esperado iniciando-se o processo pelo estágio no estado u, u - d ( ) decisão tomada no estágio que gera ( u) m. 2

Os valores das funções de pagamento apresentam-se na tabela seguinte (em euro): x f 0 1 2 3 5 6 7 8 ( x) f 1 ( x) 0 16,2 28,8 36,0 39,6 1, 1, 1, 1, f 2 ( x) 0 20,0 36,0 0,0,0,0,0,0,0 ( x) f 3 0 18,9 31,5 39,9,1 8,3 8,3 8,3 8,3 Veamos um exemplo de cálculo: - f ( 3) 1 Com 3 lotes distribuídos, o Mercado 1 consegue um lucro de 0 euro se vender 0 lotes, de 18 euro se vender 1 lote, de 36 euro se vender 2 lotes e de 5 euro se vender 3 lotes. As probabilidades dos três primeiros acontecimentos são, de acordo com a tabela atrás, 0,1, 0,2 e 0,3. A probabilidade do quarto acontecimento é igual à probabilidade de que a procura sea igual ou superior a três lotes: 0,2 + 0,1 + 0,1 = 0,. Assim, Em termos de ( x) ( 3) = ( 0)( 0,1) + ( 18)( 0,2) + ( 36)( 0,3) + ( 5)( 0,) 36 f. 1 = f, = 1,2, 3, temos formalmente um problema determinístico que pode ser resolvido pelos métodos da Programação Dinâmica Determinística, á estudados, conduzindo então à tabela u 0 1 2 3 5 6 7 8 m 3 ( u) 0 18.9 31.5 39.9.1 8.3 8.3 8.3 8.3 d 3 ( u) 0 1 2 3 5 5 5 5 m 2 ( u) 0 20.0 38.9 5.9 67.5 75.9 80.1 8.3 88.3 d 2 ( u) 0 1 1 2 2 2 2 2 3 ( u) ( u) m 1 111,9 d 1 3 3

A política óptima consiste em: - Distribuir 3 lotes de laranas para o Mercado 1, - Distribuir 2 lotes para o Mercado 2, - Distribuir 3 lotes para o Mercado 3 Obtendo-se um lucro total esperado de 111.9 euro. Outro Exemplo Um investidor tem 3 mil unidades de dinheiro disponíveis há um ano para investir num bom negócio. A oportunidade em risco é de que o retorno sea o dobro ou nada. Baseado em acontecimentos do passado, a probabilidade de dobrar o dinheiro é 6,6, enquanto a chance de perder o dinheiro todo é 0,. Determine uma estratégia de investimento para os anos seguintes que maximize os resultados totais esperados no final do período, supondo que o dinheiro ganho num ano pode ser reinvestido no ano seguinte e os investimentos estão restritos a quantidades unitárias. Trata-se de um processo com estágios, em que cada estágio corresponde a um ano. Os estados são os montantes disponíveis para o investimento: u = 0,1,..., 2 (este último valor é igual ao investimento de todo o montante disponível para cada ano, duplicado de cada vez) para o estágio ; u 3 = 0,1,..., 12 para o estágio 3; u 2 = 0,1,..., 6 para o estágio 2; u 1 = 3 para o estágio 1. A aleatoriedade ocorre aqui no estado resultante de uma decisão particular. Por exemplo, - Se alguém tem 3 unidades (isto é: o presente estado é 3) e decide investir duas unidades, então o estado seguinte é 5 ( 1+ 2 2) ou 1 ( 1+ 0), dependendo de o montante investido ter sido duplicado ou perdido. Seam então - m ( u ) Ganhos esperados máximos no final o processo começando no estado u e estágio, - d ( u ) Montante investido no estágio que gera ( u ) Se alguém começa com estágio com m. u unidades, então x unidades, x = 0,1...,u, podem ser investidas, deixando u x unidades de reserva. Se o investimento é duplicado, haverá

2 x + ( u x) = u x + Unidades disponíveis no estágio seguinte; se as unidades investidas são u x estará disponível para o próximo estágio. O perdidas, então a reserva ( ) melhor resultado neste ponto é - m ( u x) +1 + Com probabilidade 0,6 ou - m ( u x) +1 Com probabilidade 0, e o melhor valor esperado para o melhor resultado é, em consequência, ( u x) + 0, m ( u x) 0,6m. + 1 + + 1 A escolha óptima para x é o seu valor que maximiza esta expressão: m ( u ) máximo [,6m ( u + x) + 0,m ( u x) ] = + 1 + 1 x= 0,1,..., u 0. Esta igualdade é a fórmula de recorrência para o processo. Como é evidente, - = 1,2, 3 - E para = tem que se considerar m 5 ( u) = u, visto que o processo termina no fim do.º ano e o estado em que fica nessa altura permanece inalterado. m 5, m, m3, m2 e m 1 são funções crescentes, como é óbvio. Então, ( u ) =,6m ( u + u ) + 0,m ( u u ) = ( 2u ) + 0, ( 0) = m 0 5 5 5 m5 = 0,6.2u = 1,2u ( u ) 1, u m = 2 5

( u ) =,6m ( u + u ) + 0,m ( u u ) = ( 2u ) + 0, ( 0) = m 3 3 0 3 3 3 3 3 m = 0,6.1,2.2u 3 2 = 1,2 u3 2 ( u3 ) 1, u3 m 3 = 2 ( u ) =,6m ( u + u ) + 0,m ( u u ) = ( 2u ) + 0, ( 0) = m 2 2 0 3 2 2 3 2 2 3 2 m3 = 0,6.1,2 2. 2u 2 3 = 1,2 u2 3 ( u2 ) 1, u2 m 2 = 2 m ( u ) =,6m ( u + u ) + 0,m ( u u ) = ( 2u ) + 0, ( 0) = 1 1 0 2 1 1 2 1 1 2 1 m2 = 0,6.1,2 3. 2u 1 = 1,2 u1 ( u1 ) 1, u1 m 1 = 2 Onde d 1( u1 ) = u1, d 2 ( u2 ) = u2, d 3( u3 ) = u3 e ( u ) u óptimo esperado é ( 3) = 1,2.3 6, 2208 m 1 = d =. Assim, o resultado Obtido pelo investimento de todas as unidades disponíveis ao processo em cada ano. Note-se que uma tal política óptima pode resultar - Em 8 unidades ao fim de anos, se todos os investimentos forem duplicados, - Em 0 unidades ao fim de anos, se pelo menos um investimento é completamente perdido. 6

Assim, o resultado esperado desta política é Sendo ( 8)( 0,6) + 01 ( 0,6) [ ] = 6, 2208 - ( 0,6) A probabilidade de todos os investimentos terem sucesso, - 1 ( 0,6) A probabilidade de que pelo menos um investimento falha. Ainda outro exemplo Resolva o problema anterior mas, agora, com outro obectivo: - O de maximizar a probabilidade acumulada de se obter um resultado de 5 (mil) unidades durante anos, pelo menos. Agora este novo problema não se refere ao valor esperado do resultado, mas sim à probabilidade de que os resultados seam de um certo montante. Por exemplo, se o investidor adopta a política de investir todas as unidades em cada estágio, como foi mostrado no problema anterior, a probabilidade de que ele termine com 5 ou mais unidades é ( 0,6) = 0, 1296. A questão é: - Pode este valor ser melhorado pela escolha de outra política (melhor)? Os estados e estágios foram definidos no Problema anterior. Façamos - E Acontecimento que termina o processo com 5 ou mais unidades, - m ( u ) Probabilidade de E, dado que o estado no estágio é u e uma política óptima é seguida do estágio em diante, - d ( u ) Montante investido no estágio que gera ( u ) m. Se x unidades, x = 0,1,...,u, são investidas no estágio, então, de acordo com o Problema anterior - P( u = u + ) 6 + 1 x = 0,, - P( u = u ) + 1 x = 0,. 7

Agora, a expressão 0,6m ( u x) + 0, m ( u x) + 1 + + 1 Representa - A probabilidade de E dado u para a decisão x, e uma extensão óptima para o estágio + 1. Então, m ( u ) máximo [,6m ( u + x) + 0,m ( u x) ] = 0 + 1 + 1, = 1,2, 3. x= 0,1,..., u Formalmente esta é uma equação com diferenças idêntica à obtidano Problema anterior. Mas, uma nova condição de fronteira (final) é pertinente agora. Tendo em conta o resultado da decisão final de investimento, temos: m ( u ) = máximo [,6P( u + x 5) + 0,P( u x 5) ] = máx[ F + G] 0 x= 0,1,..., u x 8

De acordo com esta figura obtemos para m ( u ) m ( u ) 0, = 0,6 1 u = 0,1,2 u = 3, u = 5,6,2 Onde d ( u ) 0, 2, = 1, 0, u u = 0,1,2,... u u = 3 = = 5,6,...,2 d u o menor investimento óptimo. A tabela seguinte Indicando-se para ( ) 0 1 2 3 5 6 12 2 m 0 0 0 0,6 0,6 1 1 1 1 ( ) u ( ) u d 0 0 0 2 1 0 0 0 0 ( ) 3 u 3 m 0 0 0,36 0,6 0,8 1 1 1 ( ) 3 u 3 d 0 0 1 0 1 0 0 0 ( ) 2 u 2 m 0 0,216 0,50 0,68 0,8 1 1 ( ) 2 u 2 d 0 1 2 1 0 0 0 ( ) 1 u 1 m 0,7056 ( ) 1 u 1 d 1 Apresenta a solução da condição de óptimo sueito a estas condições finais. De d é usado no acontecimento. novo, apenas o menor ( ) u O preenchimento de ( u ) m ( u ) e d ( u ) determinados. - m 3( u 3 ) e 3 ( u 3 ) d. m e ( ) Partimos de,6m ( u x) + 0, m ( u x) d u é evidente e segue de imediato dos 0 3 + 3, u 3 = 0,1,..., 12, x = 0,1,..., u3. 9

Assim, u 3 = 0 ( x) + 0,m ( x), x = 0 Ou 0,6 0 + 0,m 0 = 0,6 + 0, 0 = m 3 ( 0) = 0 ; d 3 ( 0) = 0 ( ) ( ) ( ) 0 m. u ( ) ( ) 0, 1 3 = 1 0,6 1+ x + 0,m 1 x, x = ( 1) + 0,m ( 1) = 0 ( 2) + 0,m ( 0) = 0 m 3 ( 1) = 0 ; d 3 ( 1) = 0 m. u 3 = 2 ( 2 + x) + 0,m ( 2 x), x = 0,1, 2. ( 2) + 0,m ( 2) = 0 3 + 0,m 1 = 0,6 0,6 + 0, 0 = + 0,m 0 = 0,6 0,6 + 0, 0 = m 3 ( 2) = 0, 36 ; d 3 ( 2) = 1 ( ) ( ) 0, 36 ( ) ( ) 0, 36 u 3 = 3 ( 3 + x) + 0,m ( 3 x), x = 0,1,2, 3. 3 + 0,m 3 = 0,6 0,6 + 0, 0,6 = + 0,m 2 = 0, 0,6 + 0, 0 = ( 5) + 0,m ( 1) = 0, 1+ 0, 0 = 0, ( 6) + 0,m ( 0) = 0, 1+ 0, 0 = 0, m 3 ( 3) = 0, 6; d 3 ( 3) = 0 ( ) ( ) 0, 60 ( ) ( ) 0, 2 u 3 = ( + x) + 0,m ( x), x = 0,1,2,3,. ( ) + 0,m ( ) = 0,6 0,6 + 0, 0,6 = 0, 60 5 + 0,m 3 = 0,6 1+ 0, 0,6 = 0,6 + 0,2 = ( 6) + 0,m ( 2) = 0,6 1+ 0, 0 = 0, 6 ( 7) + 0,m ( 1) = 0,6 1+ 0, 0 = 0, 6 ( 8) + 0,m ( 0) = 0,6 1+ 0, 0 = 0, 6 m 3 ( ) = 0, 8 ; d 3 ( ) = 1 ( ) ( ) 0, 8 10

u ( ) ( ) 0,1,2,3,, 5 3 = 5 0,6 5 + x + 0,m 5 x, x = ( 5) + 0,m ( 5) = 0,6 + 0, = 1 6 + 0,m = 0,6 + 0, 0,6 = 7 + 0,m 3 = 0,6 + 0, 0 = 0, 8 + 0,m 2 = 0,6 + 0, 0 = 0, 9 + 0,m 1 = 0,6 + 0, 0 = 0, 10 + 0,m 0 = 0,6 + 0, 0 = m 3 ( 5) = 1; d 3 ( 5) = 0 m. ( ) ( ) 0, 8 ( ) ( ) 8 ( ) ( ) 6 ( ) ( ) 6 ( ) ( ) 0, 6 E, assim sucessivamente. Assim, a probabilidade máxima acumulada de se obter pelo menos 5 unidades em quatro anos é 0,7056. Assim, - No estágio 1 em que o estado é 3 deve investir-se 1 unidade. Chega-se ao estágio 2 com unidades com probabilidade 0,6 ou com 2 unidades com probabilidade 0,. - No estágio 2 Se se estiver no estado não se deve investir nada chegando-se ao estágio 3 com unidades com probabilidade 1, Se se estiver no estado 2 deve investir-se tudo chegando-se ao estágio 3 com unidades com probabilidade 0,6 ou com 0 unidades com probabilidade 0,. - No estágio 3 Se se estiver no estado deve investir-se 1 unidade chegando-se ao estágio com 5 unidades com probabilidade 0,6 ou com 3 unidades com probabilidade 0,, Se se estiver no estado 0 obviamente não há nada para investir e chegase ao estágio com 0 unidades. - No estágio Se se estiver no estado 5 nada se deve investir chegando-se ao fim do processo com 5 unidades, Se se estiver no estado 3 devem investir-se 2 unidades chegando-se ao fim do processo com 5 unidades com probabilidade 0,6 ou com 1 unidade com probabilidade 0,, Se se estiver no estado 0 obviamente não há nada para investir e chegase ao fim do processo com 0 unidades. 11

Esquematicamente Assim, no fim do processo podemos estar nos estados 5, 1 ou 0. Calculemos as respectivas probabilidades - 5 ( 0,6 1+ 0, 0,6)( 0,6 1+ 0, 0,6) = ( 0,8)( 0,8) = 0, 7056-1 ( 0,6 1+ 0, 0,6)( 0, 0,) = ( 0,8)( 0,16 ) = 0, 13-0 ( 0,)( 0,)( 1)( 1) = 0, 16 E 0,7056 + 0,13 + 0,16 = 1 Mais um exemplo Um fabricante de plataformas espaciais para a NASA tem capacidade para produzir no máximo 2 plataformas por ano. Demora-se um ano completo para fabricar uma plataforma, mas como a NASA não faz pedidos antes de Julho, para entregar em Dezembro, o fabricante deve estabelecer a escala de produção antes mesmo de conhecer a procura exacta. Esta procura será de uma plataforma com probabilidade 0,6 ou de duas com probabilidade 0,. Um pedido de plataforma não satisfeito incorre numa multa de 1,5 milhões de dólares e deve ser entregue no ano seguinte tendo prioridade sobre quaisquer novos pedidos. Os custos de produção são função do número de plataformas fabricadas, com o custo de uma plataforma fixado em 10 milhões de dólares e o de duas em 19 milhões de dólares. Uma superprodução pode ser armazenada para uma 12

entrega futura, a um custo de 1,1 milhões de dólares por plataforma ao ano, sendo limitada no máximo a 1 plataforma. Determine uma escala de produção para os três anos seguintes que maximizará o custo total esperado, sendo o stock actual de zero plataformas. Podemos considerar que estamos perante um processo de estágios, representando os estágios 1,2 e 3 os próximos 3 anos, respectivamente, num plano digamos horizontal e o estágio representa a produção atrasada de pedidos de plataformas não entregues no ano 3. Os estados são os stocks possíveis no começo de cada estágio: variam entre um mínimo de -2 (representando duas plataformas pedidas mas não entregues) até um máximo de1. Seam u -número de plataformas em stock ( u = 2, 1,0,1 ), m ( u) -custo mínimo esperado pela complementação do processo iniciado no estágio no estado u, d ( u) -produção no estágio que gera ( u) D -procura anual P [ D = 1 ] = 0, 6 [ D = 2 ] = 0, P, m, f ( x) -custo de produção anual de x plataformas Se a firma inicia o estágio, = 1,2, 3 com u = 0, 1 plataformas em stock e decide produzir x ( x = 0,1,2 ) plataformas adicionais nesse estágio, ela incorre num custo de 1,1u pelo seu stock e num custo f ( x) pela produção de novas plataformas, com uma despesa anual de ( x) 1, u f + 1. O número de plataformas, total, disponíveis para entrega no fim do ano é O que deixa u + x u + x D Plataformas disponíveis para o estágio seguinte. 13

O custo mínimo de conclusão do processo neste ponto é ( u + x D) m +1. Como D = 1 com probabilidade 0,6 e D = 2 com probabilidade 0,, o custo esperado mínimo para a conclusão do estágio + 1 é ( u + x 1) + 0,( u + 2) 1. + x Portanto, o custo esperado mínimo para a conclusão do estágio é o mínimo, em relação a x de 1,1 u + f ( x) + + 1( u + x 1) + 0,m + 1( u + x 2) ou sea: m [ ] ( u),1u + mín f ( x) + ( u + x 1) + 0,m ( u + x 2) = 1 + 1 + 1 x= 0,1,2 Vamos pôr, para á, m ( ) = + M 3 para qualquer., u = 0, 1 e = 1,2, 3. Se a firma inicia o estágio com u = 2 ou u = 1, então estará com um deficit de produção de u plataformas do estágio anterior, e estará sueita a uma multa de 1,5u. Uma decisão de produzir x plataformas, onde x deve ser no mínimo igual a u para colmatar o deficit anterior, resulta num custo de f x. O custo final para a companhia no estágio é produção de ( ) ( x) 1, u f 5 Continuando a análise nos mesmos moldes que para u = 0 e u = 1 obtemos a fórmula recorrente m ( u) = 1,5u + min [ f ( x) + + 1( u + x 1) + 0,m + 1( u + x 2) ], Onde x= u,...,2 u = 2, 1 e = 1,2, 3. Vamos pôr f ( 1 ) = + M. m Podemos ter então uma relação única: [ ] ( u) g( u) + f ( x) + ( u + x 1) + 0,m ( u + x 2) = + x= u,...,2 min + 1 1 1,1 u, u 0 = 1,2,3 Onde g ( u) =. 1,5u, u < 0, u = 2, 1,0, 1 E 1

A solução generalizada desta equação, estendida a = com a condição m u, é dada na tabela seguinte: final ( ) 0 5 = u -2-1 0 1 m 22 11,5 0 1,1 ( u) ( u) d 2 1 0 0 ( u) m 3 37,7 25,1 1,6 5,7 d 3 ( u) 2 2 1 0 m 2 ( u) 52,1 39,3 28,26 19,9 d 2 ( u) 2 2 2 0 ( u) ( u) m 1 2,2 d 1 2 Níveis de Stock Anos -2-1 0 1 1 2 2 2 2 2 0 3 2 2 1 0 2 1 0 0 O custo esperado mínimo é de 2,2 milhões de dólares, conseguido através da política óptima mostrada na tabela imediatamente acima: Alguns exemplos de cálculo: m ( ) = g( 2) + min[ f ( x) + ( x 3) + 0,m ( ) ] = 2 5 5 x x= 2 = 3 + f ( 2) + ( 1) + 0,m ( 2) = 3 + 19 22; d ( 2) 2 5 5 = 0 0 = m ( ) = g( 1) + min [ f ( x) + ( x 2) + 0,m ( 3) ] = 1 5 5 x x= 1,2 = 1,5 + min x= 1,2 [ f ( x) ] = 1,5 + min{ 10,19} = 11,5; d ( 1) 1 = 15

m ( ) = g( 1) + min [ f ( x) + ( x 2) + 0,m ( 3) ] = 3 1 x x= 1,2 { 10 + ( 1) + 0,m ( 2),19 + ( 0) + 0, ( )}= = 1,5 + min m 1 { 10 + 0,6 11,5 + 0, 22;19 + 0,6 0 + 0, 11,5} 25, 1 = 1,5 + min = Ainda mais um exemplo Um decreto presidencial reduziu o número de candidatos a vice-presidente para três. Cada um dos três candidatos seria ulgado numa escala de 1 (menor) a 10 (maior); o candidato 1 recebeu 10 pontos, o candidato 2 recebeu 8 pontos e o candidato 3 5 pontos. A probabilidade de o candidato i, i = 1,2, 3, aceitar a - ésima, = 1,2, 3, oferta par concorrer à vice-presidência (considerando que as primeiras 1 ofertas a outros candidatos foram reeitadas) é designada por p i, sendo Por que ordem poderiam os três potenciais candidatos ser oferecidos à nomeação vice-presidencial se o decreto presidencial maximizar o número esperado de pontos? Supõe-se que nenhuma pessoa é requisitada mais do que uma vez e que, de cada vez que um candidato reeita, um outro é requisitado, até que pelo menos um tenha aceite ou todos tenham reeitado. Temos assim um processo de três estágios, representando o estágio a - ésima posição na ordem de requisição. Os estados são a lista de pessoas ainda não requisitadas. O estágio 1 só pode ter o estado único O estágio 2 tem três estados 11 = { 1,2,3 } U. U { 1,2} U { 1,3} { 2,3} 21 = E o estágio 3 tem três estados 22 = U 23 =. U { 1} U { 2} { 3} 31 = p11 = 0,5 p21 = 0,9 p31 = 1 p12 = 0,2 p22 = 0,5 p32 = 0,8 32 = p13 = 0 p23 = 0,2 p33 = 0, U 33 =. 16

á que Seam - m ( U k ) O número máximo esperado de pontos conseguidos, começando no estágio no estado nos estágios anteriores, U k, dado que não houve nenhuma aceitação - d ( U k ) Candidato requisitado no estágio de forma a obter-se m ( U k ) (isto é: decisão), - V i Valor em pontos do candidato i. Para este problema, a fórmula de recorrência é m ( U ) = máx { V p + ( p ) m ( U { i}) } k i i 1 i + 1 k \ i U k - Se no estágio o candidato i é requisitado e aceita, o valor é V i ; se reeita, a melhor forma de continuar é a partir do estado constituído pelos candidatos que ainda não foram requisitados. A fórmula dada fica restringida a = 1,2, 3 Portanto, Estágio 3 m ( U ) = 10( 0) 0; d ( U ) 1 3 31 = 3 31 = m ( U ) = 8( 0,2) 1, 6; d ( U ) 2 3 32 = 3 32 = m ( U ) = 5( 0,) 2, 0; d ( U ) 3 3 33 = Estágio 2 3 33 = se impusermos que ( U ) 0 m ( U ) máx{ 10( 0,2) + ( 1 0,2) m ( U ),8( 0,5) + ( 1 0, ) m ( U )} = 2 21 = 3 32 5 3 31 = máx { 2 + ( 0,8)( 1,6),7, + ( 0,5)( 0) } = ; d ( U ) 2 2 21 = m. = 17

m ( U ) máx{ 10( 0,2) + ( 1 0,2) m ( U ),5( 0,8) + ( 1 0, ) m ( U )} = 2 22 = 3 33 8 3 31 = máx { 2 + ( 0,8)( 2,0), + ( 0,2)( 0) } = ; d ( U ) 3 2 22 = m ( U ) máx{ 8( 0,5) + ( 1 0,5) m ( U ),5( 0,8) + ( 1 0, ) m ( U )} = Estágio 1 2 23 = 3 33 8 3 32 = máx { + ( 0,5)( 2), + ( 0,2)( 1,6) } = 5 ; d ( U ) 2 2 23 = m ( U ) máx{ 10( 0,5) + ( 1 0,5) m ( U ),8( 0,9) + ( 1 0,9) m ( U ),5( 1) + ( 1 ) m ( U )} = 1 11 = 2 23 2 22 1 2 21 = máx { 5 + ( 0,5)( 5 );7,2 + ( 0,1)( ) ;5 + 0( ) } = 7, 6 ; d ( U ) 2 1 11 = A política óptima é requisitar o candidato 2 primeiro; se ele reeitar, então requisitar o candidato 3; e se este reeitar, então requisitar o candidato 1. O número esperado de pontos para tal política é 7,6. 18