Jogos Repetidos Infinitas Vezes Nash Folk Folk Perfeito Jogos Repetidos Finitas Vezes. Jogos Repetidos. Prof. Leandro Chaves Rêgo

Transcrição

1 Jogos Repetidos Prof. Leandro Chaves Rêgo Programa de Pós-Graduação em Estatística - UFPE Programa de Pós-Graduação em Engenharia de Produção - UFPE Recife, 21 de Outubro de 2014

2 Jogos Repetidos Introdução Agentes podem se comportar de maneira diferente em relação a outros agentes com os quais eles esperam interagir novamente em comparação a outros agentes com os quais eles esperam nunca mais interagir. Para entender como o comportamento racional e inteligente pode ser afetado pela estrutura de futuras interações entre os agentes, estudam-se jogos repetidos. Em geral, temos duas classes de modelos para jogos repetidos: o horizonte pode ser finito ou infinito. Veremos que os resultados podem ser diferentes quando analisamos um ou outro tipo de modelo. Um modelo com um horizonte infinito é apropriado se após cada período de interação os agentes acreditam que o jogo continuará, enquanto um modelo com horizonte finito é apropriado se os agentes claramente percebem um período final de interação para o jogo.

3 Jogos Repetidos Infinitas Vezes O modelo para jogos repetidos infinitas vezes captura uma situação na qual agentes interagem repetidas vezes em um jogo em forma normal G. Assumiremos que G = (N,(A i ) i N,(u i ) i N ), onde A i é compacto e u i é uma função contínua e limitada em A = j N A j. A repetição infinita de um jogo G é um jogo em forma extensiva com informação perfeita e movimentos simultâneos (N,H,P,(u i ) i N ), onde H = { } ( t=1a t ) A, onde é a história inicial e A é o conjunto de todas as seqüências infinitas (a t ) t=1 de perfis de estratégias de G. P(h) = N para toda história não terminal, de forma que todos os jogadores se movem após cada repetição do jogo G.

4 Jogos Repetidos Infinitas Vezes u i é uma função utilidade em A que estende a função utilidade u i no sentido que ela satisfaz a seguinte condição de separabilidade fraca: se (a t ) A, a A, a A, e u i (a) u i (a ), então para todos os valores de t. u i (a 1,...,a t 1,a,a t+1,...) u i (a 1,...,a t 1,a, a t+1,...), Uma história é terminal se, e somente se, ela for infinita. Após qualquer história não terminal, cada jogador escolhe uma ação em A i. Portanto, uma estratégia para o jogador i é uma função que associa uma ação em A i para cada seqüência finita de perfis de estratégias de G.

5 Função Utilidade Podemos impor outras condições nas funções utilidades dos agentes além da separabilidade fraca. Primeiro, podemos assumir que a função utilidade u i do jogo repetido é baseada somente na função utilidade do jogo G, isto é, assumimos que u i ((a t ) t=1) u i ((b t ) t=1) depende apenas da relação entre as correspondentes seqüência de utilidades u i (a t ) e u i (b t ) de G. Consideraremos três possíveis condições na forma da função utilidade, a primeira é definida a seguir:

6 Critério do Desconto Existe algum número δ (0, 1), chamado de fator de desconto, tal que a seqüência de números reais vi t é pelo menos tão boa quanto a seqüência wi t se, e somente se, i=1 δt 1 (vi t wi t ) 0. Como assumimos que vi t é limitada, temos que a série i δ t 1 vi t é convergente e representa como o agente i avalia a seqüência (vi t ) de utilidades. Quando a função utilidade de todos os agentes tomam esta forma, nos referimos ao perfil ((1 δ) t=1 δt 1 vi t ) i N como o perfil de utilidades no jogo repetido associado com a seqüência (v t ) de perfil de utilidades do jogo G. Note que utilidades que satisfazem este critério do desconto tratam os períodos de forma diferente, pois o valor de um ganho diminui com o tempo. As outras condições tratam os períodos de forma simétrica.

7 Critério do Limite das Médias No segundo critério os jogadores avaliam uma seqüência (vi t ) essencialmente 1 pelo limite de sua média aritmética lim T T T t=1 vt i, contudo como este limite pode não existir o critério se torna o seguinte: De acordo com este critério, a seqüência de números reais (vi t ) é melhor que a seqüência (wi t ) se, e somente se, lim inf T 1 T T t=1 (vi t wi t ) > 0. Quando a função utilidade de todos os agentes tomam esta forma, nos 1 referimos ao perfil (lim T T T t=1 vt i ) i N, se ele existe, como o perfil de utilidades no jogo repetido associado com a seqüência (v t ) de perfil de utilidades do jogo G.

8 Observação Note que ao contrário do caso do desconto onde a mudança de utilidade em apenas um único período pode alterar a preferência entre seqüências, no caso do critério do limite de médias, qualquer mudança em um número finito de períodos não altera como a seqüência é avaliada. Portanto, este critério é útil para modelar situações onde os agentes põe toda importância no longo prazo mesmo que isso signifique prejuízos consideráveis no curto prazo.

9 Critério da Ultrapassagem O terceiro e último critério trata os períodos simetricamente, coloca ênfase no longo prazo, mas ao mesmo tempo é sensível a uma mudança de utilidade em um único período. De acordo com este critério, a seqüência de números reais (vi t ) é melhor que a seqüência (wi t ) se, e somente se, lim inf T T t=1 (vi t wi t ) > 0. Observação 1.1 Quando utilizamos este critério, não pode-se definir um perfil de utilidades do jogo repetido associado a uma seqüência de utilidades v t do jogo G, pois na grande maioria dos casos de interesse t vt i é uma série divergente.

10 Exemplos Os seguintes exemplos ilustram algumas diferenças entre esses três critérios. A seqüência (1, 1,0, 0,...) é melhor para qualquer δ (0,1) pelo critério do desconto que a seqüência (0,0,...), mas de acordo com os outros dois critérios as seqüências são indiferentes. A seqüência ( 1,2,0, 0,...) é melhor que a seqüência (0, 0,...) segundo o critério da ultrapassagem, mas as duas são indiferentes segundo o critério do limite das médias. A seqüência (0,...,0, 1,1,...) na qual M zeros são seguidos por uma seqüência constante de 1 s é melhor pelo critério do limite das médias que a seqüência (1,0, 0,...) para qualquer valor de M, mas para qualquer δ existe um M grande o suficiente tal que para todo M > M, esta última seqüência é melhor que a anterior pelo critério do desconto para este valor de δ.

11 Perfil de Utilidades Possível Denotaremos por u(a) o perfil (u i (a)) i N. Um vetor v IR N é um perfil de utilidades de (N,(A i ),(u i )) se existe um perfil de estratégias a A para o qual v = u(a). Nos referimos a um vetor v IR N como um perfil de utilidades possível de (N,(A i ),(u i )) se ele for uma combinação convexa de perfis de utilidades, isto é, se v = a A αau(a) para alguma coleção (αa) a A de números racionais não-negativos com a Aαa = 1.a Note que um perfil de utilidades possível de (N,(A i ),(u i )) não é necessariamente um perfil de utilidades de (N,(A i ),(u i )). a Seguimos a restrição de requerer que α a seja racional sugerida por Osborne e Rubistein (1994), esta restrição pode ser retirada complicando argumentos que veremos a seguir.

12 Estratégias como Máquinas Vamos agora apresentar uma linguagem para descrever convenientemente as estratégias utilizadas por jogadores em jogos repetidos. Começamos definindo o que é uma máquina, que é uma abstração do processo utilizado por um jogador para implementar uma estratégia. Uma máquina para o jogador i de um jogo G = (N,(A i ),(u i )) repetido infinitas vezes têm as seguintes componentes: Um conjunto de estados Q i. Um estado inicial q 0 i Q i. Uma função de saída f i : Q i A i que especifica uma estratégia do jogo G para cada estado. Uma função de transição τ i : Q i A Q i que associa um estado a cada par de estado e perfil de estratégias do jogo G.

13 Exemplos Para ilustrar este conceito de máquina considere os seguintes exemplos de máquinas para um jogador no Dilema do Prisioneiro representado na tabela a seguir repetido infinitas vezes. C D C 3,3 0,4 D 4,0 1,1

14 Máquina 1 A máquina (Q i,q 0 i,f i,τ i ) definida a seguir é a mais simples que implementa a estratégia que escolhe C enquanto ambos jogadores tenham sempre escolhido C no passado, e escolhe D no caso contrário. Q i = {C, D}. q 0 i = C. f i (C) = C e f i (D) = D. τ i (C,(C,C)) = C e τ i (X,(Y,Z)) = D se (X,(Y,Z)) (C,(C,C)).

15 Máquina 2 A seguinte máquina implementa a estratégia para o jogador 1 escolha C enquanto 2 escolhe C, se o jogador 2 escolhe D quando o jogador 1 escolhe C, o jogador 1 jogará D por três períodos seguidos e retornará a escolher C após esses três períodos independente das escolhas de 2 nestes três períodos, ou seja, 1 pune 2 por três períodos e depois perdoa 2. Q 1 = {P 0, P 1,P 2,P 3}. q 0 1 = P 0. f 1(P 0) = C e f 1(P) = D se P P 0. τ 1(P 0,(,C)) = P 0, τ 1(P 0,(, D)) = P 1, τ 1(P 1,(, )) = P 2, τ 1(P 2,(, )) = P 3, e τ 1(P 3,(, )) = P 0.

16 Máquina 3 A seguinte máquina implementa a estratégia para o jogador 2, comece jogando C e continue se o jogador 1 escolhe D. Se o jogador 1 escolher C, então escolha D, continue a jogar D até que o jogador 1 escolha D novamente, quando 2 deverá escolher C, e assim por diante. Q 2 = {R 0,R 1}. q 0 2 = R 0. f 2(R 0) = C e f 2(R 1) = D. τ 2(R 0,(D, )) = R 0, τ 2(R 0,(C, )) = R 1, τ 2(R 1,(C, )) = R 1, e τ 2(R 1,(D, )) = R 0.

17 Estratégias Gatilho: Teoremas de Nash Folk Estudamos agora o conjunto de equilíbrios de Nash de um jogo repetido infinitas vezes. Mostramos que este conjunto inclui perfis de estratégias que não são repetições de equilíbrios de Nash do jogo que se repete a cada período. Para justificar este perfil, cada jogador deve ser impedido de desviar através de uma punição. Esta punição pode tomar várias formas. Uma possibilidade é que cada jogador use uma estratégia gatilho: qualquer desvio dos outros jogadores leva o jogador a realizar uma estratégia punitiva que dura para sempre. Nesta seção estudaremos equilíbrios em que os jogadores utilizam tais tipos de estratégias.

18 Utilidade Minimax Dado um jogo G = (N,(A i ),(u i )), uma utilidade minimax para o jogador i, denotada por v i, é a menor utilidade que os demais jogadores podem forçar jogador i receber: v i = min max u i (a i, a i ). a i A i a i A i Um perfil de utilidades w para o qual temos w i v i para todo i N é chamado individualmente racional; se w i > v i para todo i N, então w é individualmente racional estrito. Se a A é um perfil de estratégias de G para o qual u(a) é individualmente racional (estrito), então nos referimos a a como um perfil de estratégias individualmente racional (estrito) de G. Seja p i A i uma das soluções do problema de minimização acima. A coleção de estratégias p i é a punição mais severa que os demais jogadores podem impor ao jogador i. Mostraremos que existe uma relação entre o conjunto de perfis de utilidade dos equilíbrios de Nash de um jogo repetido infinitas vezes e o conjunto de perfis de utilidade possíveis e individualmente racionais do jogo G, quando utilizamos ou o critério do desconto ou o critério do limite das médias.

19 Equilíbrio de Nash de Jogo Repetido Infinitas Vezes Teorema 2.1 Todo perfil de utilidades de um equilíbrio de Nash do jogo G = (N,(A i ),(u i )) repetido infinitas vezes quando se utiliza os critérios do limite das médias ou do desconto para qualquer fator de desconto δ (0,1) é um perfil de utilidades individualmente racional de G.

20 Prova Suponha que w é um perfil de utilidades do jogo que não é individualmente racional em G. Então, existe i N tal que w i < v i. w não pode ser um perfil de utilidades de um equilíbrio de Nash do jogo repetido infinitas vezes quando se utiliza os critérios do limite das médias ou do desconto para qualquer fator de desconto δ (0, 1), pois para qualquer perfil de estratégias do jogo repetido s, a estratégia s i do jogador i que é uma melhor resposta a s i (h) para cada história h garante ao jogador i utilidade de pelo menos v i em cada período. Portanto, utilizando qualquer um desses dois critérios, temos que é vantajoso para o jogador i mudar de estratégias quando estamos considerando qualquer perfil de estratégias que dá ao jogador i utilidade menor que v i. Logo, tais perfis não podem ser equilíbrios de Nash do jogo repetido.

21 Nash Folk para Limite das Médias O próximo teorema prova a recíproca para o caso do critério do limite das médias. Teorema 2.2 Teorema de Nash Folk para o Critério do Limite das Médias. Todo perfil de utilidades possível e individualmente racional de um jogo G = (N,(A i ),(u i )) é um perfil de utilidades de um equilíbrio de Nash do jogo G repetido infinitas vezes quando utilizamos o critério do limite das médias.

22 Prova Seja w = a A (βa )u(a) um perfil de utilidades possível e individualmente γ racional, onde β a é um número inteiro e γ = a Aβa. (Note que é sempre possível escrever um perfil de utilidades possível e individualmente racional desta forma pois assumimos que α a é um número racional na definição de um perfil de utilidades possível.) Seja (a t ) uma seqüência cíclica de perfis de estratégia do jogo G onde o ciclo de comprimento γ possui β a repetições do perfil de estratégias a para todo a A. Seja s i a estratégia para o jogo repetido do jogador i que escolhe ai t em cada período t exceto quando existir algum período anterior t onde um único jogador diferente de i desviou da estratégia especificada pelo perfil a t, neste caso, se j foi o primeiro jogador a desviar em um tal período t, temos que i jogará a estratégia (p j ) i em todos os períodos subseqüentes a t independente do que os demais jogadores façam no futuro.

23 Prova O perfil de estratégias s é um equilíbrio de Nash do jogo repetido visto que um jogador j que desvia da estratégia s j recebe no máximo sua utilidade minimax v j em todo período subseqüente ao primeiro desvio, portanto segundo o critério do limite das médias a utilidade desta outra estratégia é menor ou igual a v j. Mas de acordo com o perfil s, a utilidade de j é igual a w j v j segundo este critério, portanto nenhum jogador tem incentivo a desviar da estratégia determinada pelo perfil s.

24 Nash Folk para Desconto O próximo teorema é o resultado análogo para o critério do desconto. Teorema 2.3 Seja w um perfil de utilidades possível e individualmente racional estrito de um jogo G = (N,(A i ),(u i )). Para todo ǫ > 0, existe δ < 1 tal que se 1 > δ > δ, então o jogo G repetido infinitas vezes quando se utiliza o critério do desconto com fator de desconto δ possui um equilíbrio de Nash com perfil de utilidades w satisfaz w w < ǫ. Prova: Exercício.

25 Exemplo Para ilustrar equilíbrios de Nash nos quais jogadores utilizam estratégias gatilho, considere dois jogos repetidos infinitas vezes. O primeiro G 1 é o Dilema do Prisioneiro descrito na tabela a seguir: C D C 3,3 0,4 D 4,0 1,1

26 Exemplo O segundo G 2 é o jogo descrito na tabela a seguir: C D C 2,3 1,5 D 0,1 0,1

27 Exemplo Em G 1 e G 2 temos que a utilidade minimax para ambos os jogadores é 1 e jogando D cada jogador garante que o outro não pode conseguir uma utilidade maior que este valor (p 1 = p 2 = D). Em ambos os casos, a estratégia gatilho utilizada na prova do Teorema Nash Folk para o limite das médias envolve os jogadores mudarem para utilizar D em resposta a algum desvio das estratégias de equilíbrio. Em G 1 como D domina C, então esta ameaça é justificável. Por outro lado, em G 2 como a estratégia C domina a estratégia D para o jogador 1, o jogador 1 sofre com a punição que ele impõe ao jogador 2. Portanto, esta ameaça no jogo G 2 parece inacreditável. Observação 2.4 Este exemplo nos leva a necessidade de analisar equilíbrios de subjogo perfeito, pois neste caso todos os jogadores têm que agir otimamente após cada história.

28 Punindo por Tempo Limitado: Um Teorema de Folk Perfeito para o Critério do Limite das Médias As estratégias gatilho utilizadas na prova do Teorema de Nash Folk punem os jogadores que desviam da estratégia de equilíbrio indefinidamente. Esta punição pode ser desnecessariamente severa, só é necessário manter a utilidade do jogador que desvia da estratégia prescrita no nível minimax por uma quantidade de períodos suficientemente grande para que o desvio não seja lucrativo; deste modo, inibindo tal comportamento. Se as preferências dos jogadores obedecem o critério do limite das médias, então esta estratégia que retorna a trajetória de equilíbrio tem a vantagem que ela proporciona a mesma utilidade que a trajetória de equilíbrio, visto que elas diferem em apenas um número finito de períodos. Portanto, esta estratégia não causa nenhum prejuízo ao jogador que precisa impor uma punição a algum oponente. Veremos que tal estratégia constitui um equilíbrio de subjogo perfeito do jogo repetido infinitas vezes quando o critério do limite das médias é utilizado.

29 Folk Perfeito para Limite das Médias Teorema 3.1 Todo perfil de utilidades possível e individualmente racional estrito de um jogo G = (N,(A i ),(u i )) é um perfil de utilidades de um equilíbrio de subjogo perfeito do jogo G repetido infinitas vezes quando consideramos o critério do limite das médias.

30 Prova Seja w = a A (βa )u(a) um perfil de utilidades possível e individualmente γ racional estrito, onde β a é um número inteiro e γ = a Aβa. Seja ainda (a k ) γ k=1 uma seqüência de perfis de estratégia de G que consiste de βa repetições de a para cada a A. Vamos construir um perfil de estratégias para o jogo repetido que gera uma seqüência de perfis de estratégias de G que consiste de infinitas repetições do ciclo (a k ) γ k=1. Cada jogador pune um desvio dos demais por um período limitado de tempo, que por conveniência assumiremos que só inicia após o fim de um ciclo (a k ) γ k=1. Após o período de punição todos os jogadores retomam as repetições de (a k ) γ k=1. Se houverem desvios simultâneos de jogadores esses são ignorados e não são punidos. Como estamos considerando o critério do limite das médias, se todos os jogadores, seguem este tipo de estratégia temos que qualquer trajetória têm perfil de utilidade w. Formalmente, seja g = max i N,a i A i,a A u i (a i,a i) u i (a), isto é, g é o maior ganho que qualquer jogador pode ter desviando de qualquer perfil de estratégias. Como w i > v i, existe um inteiro m grande o suficiente tal que m (w i v i ) γg para todo i N. A estratégia de qualquer jogador i pune qualquer jogador que desvie por m períodos e é descrita pela seguinte máquina:

31 Prova Q i = {(Norm k, d): ou k = 1 e d = 0, ou 2 k γ e d {0} N} {P(j, t) : j N e 1 t m }. O estado (Norm k, 0) significa que estamos no k-ésimo período de um ciclo e nenhum jogador merece punição. O estado (Norm k, j) significa que estamos no k-ésimo período de um ciclo e o jogador j merece punição. O estado P(j, t) significa que o jogador j está sendo punido e ainda restam t períodos de punição. q 0 i = (Norm 1,0).

32 Prova f i ((Norm k,d)) = a k i, f i (P(j,t)) = (p j ) i se j i e f i (P(i, t)) = b i (p i ), onde b i (p i ) é uma melhor resposta para p i em G. De P(j, t) mude para P(j,t 1) se 2 t m, de P(j, 1) mude para (Norm 1, 0). De (Norm k,d) mude para (Norm k+1(modγ),d), exceto quando d = 0 e apenas o jogador j desviou de a k, neste caso, de (Norm k, 0) mude para (Norm k+1, j) se k γ e de (Norm γ, 0) mude para P(j, m ). d 0 e k = γ, neste caso de (Norm γ, d) mude para P(d, m ).

33 Prova Vamos agora verificar que este perfil de estratégias constitui um equilíbrio de subjogo perfeito do jogo repetido quando usamos o critério do limite das médias. Primeiro, após qualquer história na qual nenhum jogador tenha desviado ainda, nenhum jogador pode desviar da estratégia de equilíbrio e obter ganhos, pois o maior ganho possível por ciclo é γg e a perda que o jogador i sofrerá pela punição dos demais é m (w i v i ) por ciclo, que é maior ou igual a γg para todo i N. Suponha agora que estamos em qualquer história na qual o jogador j merece ser punido ou está sendo punido. Note que após o ciclo de punição para o jogador j, segundo as estratégias de equilíbrio, o jogo retornará ao estado inicial, e já provamos que deste ponto em diante não é vantajoso para nenhum jogador desviar da estratégia de equilíbrio. Portanto, como até o fim do ciclo da punição temos uma quantidade finita de no máximo (γ + m ) períodos, segundo o critério do limite das médias nenhum jogador pode desviar com vantagem.

34 Exemplo Considere novamente o jogo da tabela a seguir repetido infinitas vezes. C D C 2,3 1,5 D 0,1 0,1

35 Exemplo Neste jogo, temos v 1 = v 2 = 1. Considere o perfil de estratégias do jogo repetido definido na prova do Teorema 3.1 que suporta a seqüência de perfis de estratégia (a t ), onde a t = (C,C) que toma a seguinte forma: cada jogador escolhe C em todo período a não ser que os outros jogadores desviaram no período anterior, neste caso o jogador escolhe D por 2 períodos e depois retorna a escolher C.Observe que após qualquer história onde não houve desvio ou onde já terminou o período de punição, o jogador 1 não incentivo a desviar pois C é uma estratégia dominante para ele. O jogador 2, após qualquer história onde não houve desvio ou onde já terminou o período de punição, também não tem incentivo para desviar pois se desviar receberá (5,1,1) por cada ciclo de desvio e punição, enquanto se não desviar receberá (3,3, 3). Imediatamente após um desvio do jogador 2, o jogador 2 pode tomar qualquer ação nos dois períodos de punição que teremos um equilíbrio de subjogo perfeito, enquanto o jogador 1 se seguir a estratégia de equilíbrio receberá (0, 0,2, 2,2, 2,2,...) e se resolver não punir jogador 2 receberá (2, 2,2, 2,2,...). Como pelo critério do limite das médias essas sequências são indiferentes, então o jogador 1 irá punir o jogador 2.

36 Exemplo Apesar desta estratégia ser um equilíbrio de subjogo perfeito quando considera-se o critério do limite das médias, ela não é um equilíbrio de considerarmos ou a regra da ultrapassagem ou a regra do desconto. Note que após um desvio do jogador 2, o jogador 1 deve escolher D por 2 períodos antes de retornar a C. Contudo, jogador 1 estaria melhor escolhendo C que punindo o jogador 2, pois a seqüência de utilidades (2,2, 2,2, 2,...) é melhor segundo os critérios de ultrapassagem e do desconto que a seqüência (0, 0,2, 2,2,...). Para justificar uma trajetória de equilíbrio na qual o perfil de estratégias (C,C) é utilizado em todo período, jogador 2 precisa punir o jogador 1 se este não punir o jogador 2. Além disso, jogador 2 tem que ser punido se ele não punir jogador 1 por não punir o jogador 2, e assim por diante. A seguir usaremos estratégias que satisfazem este critério para provar Teoremas Perfeitos de Folk para os critérios de ultrapassagem e desconto.

37 Punindo quem não Pune: Um Teorema de Folk Perfeito para o Critério da Ultrapassagem O próximo teorema utiliza estratégias que punem quem não punir para provar um teorema de Folk Perfeito para o critério da ultrapassagem. Por simplicidade, construiremos uma estratégia apenas para o caso onde a trajetória de equilíbrio consiste de repetições de um único perfil de estratégia individualmente racional estrito. Teorema 3.2 Para todo perfil de estratégias individualmente racional estrito a de um jogo G = (N,(A i ),(u i )), existe um um equilíbrio de subjogo perfeito do jogo G repetido infinitas vezes quando consideramos o critério da ultrapassagem que gera a trajetória (a t ), onde a t = a, t.

38 Prova Seja M o máximo de u i (a) para todo i N e a A. Considere o perfil de estratégias onde o jogador i utiliza a estratégia descrita pela seguinte máquina: Q i = {Norm} {P(j, t) : j N e t IN}. No estado Norm ninguém necessita ser punido. No estado P(j, t) jogador j necessita ser punido por t períodos. q 0 i = Norm.

39 Prova f i (Norm) = a i, f i (P(j, t)) = (p j ) i se j i e f i (P(i, t)) = b i (p i ), onde b i (p i ) é uma melhor resposta para p i em G. Em resposta a um perfil de estratégia a: De Norm fique em Norm exceto quando a j a j para um e somente um j, neste caso mude para P(j, t), onde t é o menor inteiro tal que M + tv j < (t + 1)u j (a ). (Lembre que como a é individualmente racional estrito u j (a ) > v j j N.)

40 Prova De P(j, t): se a j = p j ou a l (p j ) l para pelo menos dois jogadores diferentes de j, ou seja, ou todos punem j ou pelo menos dois não punem, mude para P(j, t 1) se t 2, e para Norm se t = 1. se a l (p j ) l para um e somente um jogador l, então mude para P(l,T(j, t)), onde T(j, t) é um inteiro grande o suficiente tal que a soma da utilidade de l no estado P(j,t) e nos T(j, t) períodos seguintes se l não desviar é maior ou igual sua utilidade no estado P(j, t) quando ele desvia mais T(j,t)v l. (Este número T(j, t) existe pois após t períodos os jogadores retornariam ao perfil de equilíbrio a e u l (a ) > v l ). Com este perfil de estratégias, qualquer tentativa de algum jogador de aumentar sua utilidade desviando sozinho após qualquer história, incluindo histórias após a qual punição deve ocorrer, não é vantajosa devido a punição imposta pelos outros jogadores. Um argumento similar ao do Teorema 3.1 prova que este perfil é realmente um equilíbrio de subjogo perfeito. Verifique!

41 Recompensando quem Pune: Um Teorema de Folk Perfeito para o Critério do Desconto Como na estratégia utilizada na seção anterior um jogador, que não pune um outro jogador j que deveria ser punido no período t, deve ser penalizado durante T(j, t) períodos no futuro, temos que estes períodos de penalização podem ser cada vez maiores, portanto não importa quão próximo de 1 seja o fator de desconto pode ser que seja impossível que a pena futura seja maior que o ganho presente do jogador quando utilizamos o critério do desconto. Para estabelecer um resultado análogo para o caso do critério do desconto, para tanto usaremos estratégias segundo as quais jogadores que punem jogadores que desviam da estratégia de equilíbrio são recompensados no futuro tornando o ato de punir vantajoso para tais jogadores. Como anteriormente, por simplicidade, construiremos uma estratégia apenas para o caso onde a trajetória de equilíbrio consiste de repetições de um único perfil de estratégia individualmente racional estrito. Neste, teorema precisamos restringir a classe de jogos G. Dizemos que um jogo G = (N,(A i ),(u i )) tem dimensionalidade completa em relação a um perfil de estratégias a individualmente racional e estrito se existe uma coleção (a(i)) i N de perfis de estratégias individualmente racionais e estritos de G de forma que para todo i N, temos a i a(i) e a(j) i a(i) para todo j N {i}.

42 Folk Perfeito para Desconto Teorema 3.3 Seja a um perfil de estratégias individualmente racional e estrito de um jogo G = (N,(A i ),(u i )) com dimensionalidade completa em relação a a. Então, existe δ < 1 tal que para todo δ > δ existe um equilíbrio de subjogo perfeito do jogo G repetido infinitas vezes quando utilizamos o critério do desconto com fator de desconto δ que gera a trajetória (a t ) na qual a t = a para todo t.

43 Prova Iremos descrever as estratégias utilizadas pelos jogadores neste tipo de equilíbrio de subjogo perfeito utilizando uma máquina com três tipos de estados. No estado C(0) o perfil de estratégias de G escolhido pelos jogadores é a. Para cada j N o estado C(j) é um estado de reconciliação que ocorre após uma punição ao jogador j ser completada, neste estado o perfil de estratégias escolhido é a(j). Para cada jogador j e período t entre 1 e L, que especificaremos depois, o estado P(j, t) é um no qual ainda restam t períodos para o jogador j ser punido, neste estado todo jogador i exceto j escolhe a estratégia (p j ) i, e o jogador j escolhe uma melhor resposta para p j. Se um único jogador i se desviar da trajetória de equilíbrio ocorre uma transição para o estado P(i, L). Se em nenhum dos L períodos houver um desvio por um único jogador diferente de i o estado se torna C(i). Note que o conjunto de estados {C(i)} serve como um sistema que pune jogadores que desviam durante a fase de punição: se algum jogador i não pune jogador j como ele deveria fazer, então após a fase de punição ao invés do estado se tornar C(j) se tornará C(i), então o perfil de estratégias escolhido será pior para o jogador i, pois a(j) i a(i). Formalmente, assumindo que a(0) = a, temos

44 Prova Q i = {C(j) : j {0} N} {P(j, t) : j N e 1 t L}. q 0 i = C(0). f i (C(j)) = (a(j)) i, f i (P(j, t)) = (p j ) i se j i e f i (P(i,t)) = b i (p i ), onde b i (p i ) é uma melhor resposta para p i em G.

45 Prova Em resposta a um perfil de estratégia a: De C(j) fique em C(j) exceto quando a k (a(j)) k para um e somente um k, neste caso mude para P(k, L). De P(j, t): se a j = p j ou a k (p j ) k para pelo menos dois jogadores diferentes de j, ou seja, ou todos punem j ou pelo menos dois não punem, mude para P(j, t 1) se t 2, e para C(j) se t = 1. se a k (p j ) k para um e somente um jogador k j, então mude para P(k,L).

46 Prova Resta-nos agora especificar os valores de δ e L. Seja M o máximo de u i (a) para todo i N e a A. Devemos escolher δ e L grandes o suficiente para que qualquer desvio não seja vantajoso. Considere que estamos em um estado C(j), então a utilidade esperada para qualquer jogador i desviar da estratégia de equilíbrio é no máximo igual a: M + L δ k v i + k=1 k=l+1 δ k u i (a(i)). Por outro lado se i não desviar, sua utilidade esperada é: u i (a(j))+ L δ k u i (a(j))+ k=1 δ k u i (a(j)). k=l+1

47 Prova Note que or suposição temos que u i (a(j)) > u i (a(i)). Como u i (a(j)) > v i para todo i, podemos escolher L tal que M u i (a(j)) < L(u i (a(j)) v i ) para todo i N e j {0} N. Podemos ainda escolher δ próximo o suficiente de 1 tal que para todo δ > δ, i N e j {0} N, temos M + L δ k v i < u i (a(j))+ k=1 L δ k u i (a(j)). Portanto, para tais escolha de L e δ não é vantajoso para nenhum jogador i desviar em um estado C(j). Suponha agora que estamos em um estado P(j,t), então a utilidade esperada para qualquer jogador i j desviar da estratégia de equilíbrio é no máximo igual a: M + L δ k v i + k=1 k=1 δ k u i (a(i)). k=l+1

48 Prova Por outro lado se i não desviar, sua utilidade esperada é: t 1 δ k u i (p j,b j (p j ))+ δ k u i (a(j)). k=0 Como t < L+1 e u i (a(j)) > u i (a(i)), podemos escolher δ > δ próximo o suficiente de 1 tal que para todo δ > δ, i N e j {0} N, temos M + < k=t L t 1 δ k v i δ k u i (p j,b j (p j )) k=1 k=0 δ k u i (a(j)) k=t k=l+1 δ k u i (a(i)). Portanto, temos que não é vantajoso para um jogador i desviar em um estado P(j, t). Como j utiliza uma melhor resposta em um estado P(j, t) não é vantajoso para ele desviar desta estratégia.

49 Jogos Repetidos Finitas Vezes Vamos agora estudar jogos repetidos finitas vezes. Seja G = (N,(A i ) i N,(u i ) i N ), onde A i é compacto e u i é uma função contínua e limitada em A = j N A j. Definição 4.1 A repetição finita de um jogo G é um jogo em forma extensiva com informação perfeita e movimentos simultâneos (N,H, P,(u i ) i N ), onde H = { } ( T t=1a t ), onde é a história inicial. P(h) = N para toda história não terminal, de forma que todos os jogadores se movem após cada repetição do jogo G. u i é uma função utilidade em A T que estende a função utilidade u i. Vamos nos restringir ao caso do critério do limite das médias, ou seja, assumiremos que u i (a) = 1 T T t=1 u i(a t ), onde a = (a 1,a 2,...,a T ).

50 Jogos Repetidos Finitas Vezes Uma história a é terminal se, e somente se, a A T. Após qualquer história não terminal, cada jogador i escolhe uma ação em A i. Portanto, como no caso infinito uma estratégia para o jogador i é uma função que associa uma ação em A i para cada seqüência finita de perfis de estratégias de G. Este jogo é conhecido como a repetição do jogo G durante T períodos.

51 Equilíbrio de Nash O argumento intuitivo por trás dos Teoremas de Folk para jogos repetidos infinitas vezes é que qualquer perfil de utilidades que seja desejável por todos os jogadores pode ser um equilíbrio de Nash se todos acreditam que quando se desviarem da trajetória de equilíbrio serão punidos pelos demais jogadores. No caso de jogos finitos, este argumento não pode ser aplicado em todos os casos, pois sempre teremos que os jogadores devem jogar um equilíbrio de Nash no último período de repetição T. Portanto, quando analisamos o período anterior T 1 as ameaças de punição podem se tornar inacreditáveis. O próximo teorema mostra que no caso especial em que todos os equilíbrios de Nash o perfil de utilidades é igual ao perfil de utilidades minimax de G (como no caso do Dilema do Prisioneiro), então em qualquer período os jogadores deverão utilizar um equilíbrio de Nash de G.

52 Equilíbrio de Nash para Jogos Repetidos Finitas Vezes Teorema 4.2 Se o perfil de utilidades em qualquer equilíbrio de Nash de um jogo em forma normal G é o perfil (v i ) i N de utilidades minimax de G, então para qualquer valor de T, todo equilíbrio de Nash do jogo G repetido T vezes gera uma trajetória de perfis de estratégias (a 1,...,a T ) do jogo G com a propriedade que a t é um equilíbrio de Nash de G, para todo t = 1,2,...,T.

53 Prova Seja s o perfil de estratégias do jogo repetido que gera a trajetória de equilíbrio a = (a 1,...,a T ). Suponha que exista um período t tal que a t não seja um equilíbrio de Nash de G. Então, existe i N tal que u i (a t i,a i ) > u i (a t ). Considere a estratégia s i do jogador i que difere de s i apenas no fato que após a história (a 1,a 2,...,a t 1 ) ela escolhe a i, e após qualquer história h que se segue, ela escolhe uma ação melhor resposta para s i (h), obtendo portanto uma utilidade pelo menos igual a utilidade minimax v i. A trajetória gerada por (s i,s i) é uma história terminal b A T que é idêntica a a até o período t 1, u i (b t ) > u i (a t ), e u i (b r ) v i = u i (a r ) para todo r t + 1. Portanto, jogador i prefere b a a, contradizendo a suposição que s é um equilíbrio de Nash do jogo repetido.

54 Observação Este resultado se aplica a uma classe muito pequena de jogos. Por exemplo, se o jogo G possuir um equilíbrio de Nash a no qual a utilidade de algum jogador excede sua utilidade minimax, então este jogador pode ser punido no último período se ele tiver desviado no penúltimo período e a estratégia que seria utilizada no último período fosse igual a a. Se esta punição não for suficiente, então existe L grande o suficiente tal que se a for a estratégia a ser jogada nos últimos L períodos, então qualquer desvio antes destas últimas L jogadas pode ser punido impondo um pagamento minimax ao jogador que desviar até o fim do jogo. O valor de L é independente da duração do jogo T. Portanto, para T grande o suficiente, podemos obter como média das utilidades em um equilíbrio de Nash do jogo repetido T vezes qualquer perfil de utilidades possível e individualmente racional estrito. O próximo teorema ilustra este fato.

55 Folk Nash Finito Teorema 4.3 Se G = (N,(A i ),(u i )) tem um equilíbrio de Nash a no qual a utilidade de qualquer jogador i excede sua utilidade minimax v i, então para qualquer perfil de estratégia a de G individualmente racional estrito e qualquer ǫ > 0, existe um inteiro T tal que se T > T o jogo G repetido T vezes tem um equilíbrio de Nash no qual o pagamento de cada jogador i difere de u i (a ) por menos que ǫ.

56 Prova Considere a estratégia do jogador i descrita pela seguinte máquina. Q i = {Norm t : 1 t T L} {P(j) : j N} {Nash}. q 0 i = Norm 1. f i (Norm t ) = a i, f i (Nash) = a i, f i (P(j)) = (p j ) i se j i e f i (P(i)) = b i (p i ), onde b i (p i ) é uma melhor resposta para p i em G. De Norm t mude para Norm t+1 exceto quando t = T L, neste caso mude para Nash, ou quando apenas um jogador j desviou de a, neste caso mude para P(j). De P(j) permaneça em P(j) para todo j N, e de Nash permaneça em Nash.

57 Prova Resta-nos especificar L. Um desvio só pode ser vantajoso em um dos estados Norm t. Para impedir tal desvio requeremos que L seja grande o suficiente tal que max ai A i u i (a i,a i ) u i (a ) L(u i (a ) v i ) para todo i N. Finalmente, para obter um perfil de utilidades que difere de u i (a ) por menos de ǫ, escolhemos T de forma que (T L)u i (a )+Lu i (a ) T u i (a ) < ǫ, i N.

58 Equilíbrio de Subjogo Perfeito Em qualquer equilíbrio de subjogo perfeito de um jogo repetido finitas vezes, o perfil de estratégias utilizado no último período após qualquer história (não apenas após a história que ocorre se os jogadores seguem suas estratégias) deve ser um equilíbrio de Nash de G. Portanto, a estratégia utilizada no teorema anterior não constitui um equilíbrio de subjogo perfeito. Na verdade nenhuma punição é possível se G tem um único equilíbrio de Nash. Teorema 4.4 Se todos os equilíbrios de Nash de um jogo em forma normal G possuem um único perfil de utilidades, então para qualquer valor de T o perfil de estratégias escolhido após qualquer história em qualquer equilíbrio de subjogo perfeito do jogo G repetido T vezes é um equilíbrio de Nash de G.

59 Prova O perfil de estratégias utilizado em qualquer subjogo que começa no período T em qualquer equilíbrio de subjogo perfeito do jogo repetido T vezes deve ser um equilíbrio de Nash de G. Portanto, a utilidade de qualquer jogador no último período é independente da história. Conseqüentemente, em qualquer subjogo que comece no período T 1 temos que em qualquer equilíbrio de subjogo perfeito o perfil de estratégias utilizado em T 1 deve ser um equilíbrio de Nash de G. O restante da prova segue por indução.

60 Exemplo No caso em que o jogo G possua mais de um equilíbrio de Nash que produzam diferentes perfis de utilidades, então podemos realizar punição em um equilíbrio de subjogo perfeito. Considere o seguinte exemplo: Considere o jogo em forma normal a seguir: C D E C 3,3 0,4 0,0 D 4,0 1,1 0,0 E 0,0 0,0 0,0

61 Exemplo Existe um equilíbrio de subjogo perfeito deste jogo repetido T vezes no qual o perfil de estratégias (C,C) é utilizado em todos exceto nos últimos 3 períodos, nos quais o perfil utilizado é (D,D). No equilíbrio ambos jogadores utilizam a seguinte estratégia, escolha C em qualquer período até o período T 3 a não ser que D já tenha sido usada no passado, neste caso escolha E até o fim do jogo. Se C for utilizada por ambos até o período T 3, escolha D nos últimos 3 períodos. Um jogador que desviar para D até o período T 3 após uma história que consiste somente de perfis (C,C) nos períodos anteriores ganhará 1 em utilidade neste período e perderá pelo menos 3 em utilidade já que o outro jogador escolherá E nos períodos seguintes. Observe que esta punição é justificada pois, (E,E) também é um equilíbrio de Nash de G. É interessante ressaltar que este jogo difere de um Dilema do Prisioneiro apenas pela inclusão de uma ação fracamente dominada para cada jogador.

62 Folk Perfeito Finito O próximo teorema caracteriza o conjunto de perfis de utilidade que podem ser obtidos através de um equilíbrio de subjogo perfeito do jogo G repetido infinitas vezes para uma grande classe de jogos G. Teorema 4.5 Seja a um perfil de estratégias individualmente racionais estrito de G = (N,(A i ),(u i )). Assuma que (a) para cada i N existem dois equilíbrios de Nash de G que diferem na utilidade do jogador i e (b) existe uma coleção (a(i)) i N de perfis de estratégias individualmente racionais estritos de G tal que para todo jogador i N, temos a i a(i) e a(j) i a(i) para todo j N {i}. Então, para todo ǫ > 0, existe um inteiro T tal que se T > T o jogo G repetido T vezes tem um equilíbrio de subjogo perfeito no qual a utilidade do jogador i difere de u i (a ) por menos de ǫ para todo i N.

63 Prova A prova formal é omitida, mas intuitivamente, o perfil de estratégias do jogo repetido infinitas vezes tem o seguinte formato. Existem três etapas. Durante as duas primeiras etapas os jogadores escolhem a enquanto nenhum jogador desviar. Caso não haja desvios nas duas primeiras etapas, na terceira etapa os jogadores implementam uma seqüência de equilíbrios de Nash do jogo G para o qual a utilidade média de cada jogador é maior que a pior utilidade do jogador em algum equilíbrio de Nash do jogo G. Desvios são punidos da seguinte maneira. Um desvio na primeira etapa é punido com os demais jogadores forçando a utilidade minimax no jogador que desviou por um longo período e depois entrando em uma fase de reconciliação como no caso de teorema de Folk Perfeito para o critério do desconto. Um desvio na segunda etapa é punido com os jogadores implementando no início da terceira etapa o pior equilíbrio de Nash para o jogador que desviou. Como na terceira etapa, os jogadores só implementam equilíbrios de Nash não há incentivo a desvios.