Fundamentos de Teoria dos jogos A Teoria dos Jogos é um ramo da matemática aplicada que estuda situações estratégicas em que jogadores escolhem diferentes ações na tentativa de melhorar seu retorno. Na economia, a teoria dos jogos tem sido usada para examinar a concorrência e a cooperação dentro de pequenos grupos de empresas, ou oligopólios. A razão pela qual estudamos a teoria dos jogos é que ela é uma ferramenta criada para investigar o comportamento de agentes racionais em situações nas quais a melhor ação de cada agente depende das expectativas que ele tem sobre as ações dos outros. Em outras palavras, a teoria dos jogos estuda as escolhas de comportamentos ótimos quando o custo e beneficio de cada opção não é fixo, mas depende, sobretudo, da escolha dos outros indivíduos. Representação dos Jogos Os jogos estudados pela teoria dos jogos são objetos matemáticos bem definidos. Um jogo consiste de jogadores, um conjunto de movimentos (ou estratégias) disponíveis para estes jogadores, e uma definição de pagamento (payoff) para cada combinação de estratégia. Existem duas formas de representação de jogos que são comuns na literatura. Forma normal A forma normal (ou forma estratégica) é uma matriz que mostra os jogadores, estratégias, e pagamentos (veja o exemplo abaixo). Jogador 1 escolhe para cima Jogador 1 escolhe para baixo Jogador 2 escolhe esquerda Jogador 2 escolhe direita 4, 3-1, -1 0, 0 3, 4 Há dois jogadores: um escolherá as linhas e o outro escolherá as colunas. Os pagamentos (payoffs) são registrados no seu interior. O primeiro número é o pagamento recebido pelo jogador da linha (Jogador 1 em nosso exemplo); e o segundo é o pagamento para o jogador da coluna (Jogador 2 em nosso exemplo). Suponha que o Jogador 1 obteve para cima e que o Jogador 2 obteve esquerda, então o Jogador 1 ganha 4, e o Jogador 2 ganha 3. Quando um jogo é apresentado na forma normal, presume-se que cada jogador atue simultaneamente ou, ao menos, sem conhecer a ação dos outros. Se os jogadores têm alguma informação acerca das escolhas dos outros jogadores, o jogo é habitualmente apresentado na forma extensiva.
Forma extensiva A forma extensiva de um jogo tenta capturar jogos em que a ordem é importante. Os jogos aqui são apresentados como árvores (como apresentado na figura abaixo), em que cada vértice (ou nodo) representa um ponto de decisão para um jogador. O jogador é especificado por um número listado no vértice. Os pagamentos (payoffs) são especificados na parte inferior da árvore. No jogo mostrado aqui, existem dois jogadores. O Jogador 1 move primeiro escolhendo entre F ou U. O Jogador 2 vê o movimento do Jogador 1 e então escolhe entre A ou R. Suponha que o Jogador 1 escolha U e o Jogador 2 escolha A, então o Jogador 1 obterá 8 e o Jogador 2 obterá 2. A forma extensiva também pode capturar jogos simultâneos ou com informação imperfeita. Isto pode ser representado com uma linha tracejada ou um círculo que é desenhado contornando os diferentes vértices, de forma que eles pertençam a um mesmo conjunto de informação (isto é, os jogadores não sabem em qual ponto eles estão). Estratégias Dominantes Uma estratégia dominante é a melhor estratégia independentemente da ação tomada pela outra parte. Por exemplo, no jogo abaixo. Alto Baixo Alto 5,4 4,2 Baixo 3,3 2,1 Para o jogador 1, a melhor estratégia é escolher sempre alto, pois seu pagamento será melhor do que se escolher a estratégia baixo, independente do que o jogador 2 escolher. Para o jogador 2, a melhor estratégia também é escolher sempre alto, independente do que o jogador 1 escolher. Como os dois participantes possuem estratégias dominantes, haverá um equilíbrio estável (alto, alto), pois nenhum dos dois terá incentivos para mudar.
Equilíbrio de Nash O Equilíbrio de Nash representa uma situação em que, em um jogo envolvendo dois ou mais jogadores, nenhum jogador tem a ganhar mudando sua estratégia unilateralmente. Para melhor compreender esta definição, suponha que há um jogo com n participantes. No decorrer deste jogo, cada um dos n participantes seleciona sua estratégia ótima, ou seja, aquela que lhe traz o maior benefício. Então, se cada jogador chegar à conclusão que ele não tem como melhorar sua estratégia dadas as estratégias escolhidas pelos seus n-1 adversários (estratégias dos adversários não podem ser alteradas), então as estratégias escolhidas pelos participantes deste jogo definem um "equilíbrio de Nash". A principal característica que distingue um equilíbrio de Nash de um equilíbrio em estratégias dominantes é a dependência do comportamento do oponente. Um equilíbrio em estratégias dominantes ocorre quando cada jogador faz sua melhor escolha, independente da escolha do outro jogador. Todo equilíbrio em estratégias dominantes é um equilíbrio de Nash, porém o contrário não é verdadeiro. Tipos de Jogos Soma zero e soma diferente de zero Num jogo de soma-zero o beneficio total para todos os jogadores, para cada combinação de estratégias, sempre soma zero (ou mais informalmente, um jogador só lucra com base no prejuízo de outro). O Pôquer exemplifica um jogo de soma zero (ignorando possíveis vantagens da mesa), pois o vencedor recebe exatamente a soma das perdas de seus oponentes. A maioria dos jogos clássicos de tabuleiro é de soma zero, incluindo o Go e o Xadrez. A B A 2, 2 1, 1 B 1, 1 3, 3 Um jogo de Soma-Zero Muitos dos jogos estudados pelos pesquisadores da teoria dos jogos (incluindo o famoso dilema do prisioneiro) são jogos de soma diferente de zero, porque algumas saídas têm resultados combinados maior ou menor que zero. Informalmente, em jogos de soma diferente de zero, o ganho de um dos jogadores não necessariamente corresponde à perda dos outros. É possível transformar qualquer jogo em um jogo de soma zero pela adição de jogadores espúrios (freqüentemente chamados de o tabuleiro), para o qual as perdas compensam o total alcançado pelos vencedores.
Simultâneos e sequenciais Jogos simultâneos são jogos em que ambos os jogadores se movem simultaneamente, ou se eles não se movem simultaneamente, ao menos os jogadores desconhecem previamente as ações de seus adversários (tornando-os efetivamente simultâneos). Jogos sequenciais (ou dinâmicos) são jogos onde o próximo jogador tem conhecimento da jogada de seu antecessor. Isto não necessita ter conhecimento perfeito acerca de cada ação do jogador antecessor; ele necessita de muito pouca informação. Por exemplo, um jogador pode saber que o jogador anterior não pode realizar uma ação em particular, enquanto ele não sabe quais das outras ações disponíveis o primeiro jogador irá realmente realizar. A diferença entre jogos simultâneos e sequenciais é capturada nas diferentes representações discutidas acima. Forma normal é usada para representar jogos simultâneos, e a forma extensiva é usada para representar jogos sequenciais. Informação Perfeita e informação imperfeita Um importante subconjunto dos jogos sequenciais consiste dos jogos de informação perfeita. Um jogo é de informação perfeita se todos os jogadores conhecem os movimentos prévios feitos por todos os outros jogadores. Portanto, somente jogos sequenciais podem ser jogos de informação perfeita, uma vez que nos jogos simultâneos nenhum jogador conhece a ação do outro. A maioria dos jogos estudados na teoria dos jogos são de informação imperfeita, embora alguns jogos interessantes sejam de informação perfeita, incluindo o jogo centípede. Muitos dos jogos populares são jogos de informação perfeita, incluindo o xadrez e o go. Um jogo de informação imperfeita (as linhas tracejadas representam a parte ignorada pelo jogador 2) Informação perfeita é freqüentemente confundida com informação completa, que é um conceito similar. Informação completa requer que cada jogador conheça as estratégias e pagamentos dos outros jogadores, mas não necessariamente suas ações. O Dilema do Prisioneiro Dois suspeitos, A e B, são presos pela polícia. A polícia tem provas insuficientes para os condenar, mas, separando os prisioneiros, oferece a ambos o mesmo acordo: se um dos prisioneiros, confessando, testemunhar contra o outro e esse outro permanecer
em silêncio, o que confessou sai livre enquanto o cúmplice silencioso cumpre 10 anos de sentença. Se ambos ficarem em silêncio, a polícia só pode condená-los a 6 meses de cadeia cada um. Se ambos traírem o comparsa, cada um leva 5 anos de cadeia. Cada prisioneiro faz a sua decisão sem saber que decisão o outro vai tomar, e nenhum tem certeza da decisão do outro. A questão que o dilema propõe é: o que vai acontecer? Como o prisioneiro vai reagir? O fato é que pode haver dois vencedores no jogo, sendo esta última solução a melhor para ambos, quando analisada em conjunto. Entretanto, os jogadores confrontam-se com alguns problemas: Confiam no cúmplice e permanecem negando o crime, mesmo correndo o risco de serem colocados numa situação ainda pior, ou confessam e esperam ser libertados, apesar de que, se ele fizer o mesmo, ambos ficarão numa situação pior do que se permanecessem calados? O enunciado clássico do dilema do prisioneiro, acima exposto, pode resumir-se, do ponto de vista individual de um dos prisioneiros, na seguinte tabela (tabela de ganhos): Prisioneiro "A" nega Prisioneiro "A" delata Prisioneiro "B" nega Ambos são condenados a 6 meses "A" sai livre; "B" é condenado a 10 anos Prisioneiro "B" delata "A" é condenado a 10 anos; "B" sai livre Ambos são condenados a 5 anos Confessar é uma estratégia dominante para ambos os jogadores. Seja qual for a eleição do outro jogador, podem reduzir sempre sua sentença confessando. Para desgraça dos prisioneiros, isto conduz a um resultado no qual ambos confessam e ambos recebem longas condenações. Aqui se encontra o ponto chave do dilema. O resultado das interações individuais produz um resultado que não é ótimo no sentido de Pareto; existe uma situação tal que a utilidade de um dos detidos poderia melhorar (ou mesmo a de ambos) sem que isto implique uma piora para o resto. Em outras palavras, o resultado no qual ambos os detidos não confessam domina o resultado no qual os dois escolhem confessar. Se um jogador tiver uma oportunidade para castigar o outro jogador ao confessar, então um resultado cooperativo pode manter-se. A forma iterada deste jogo oferece uma oportunidade para este tipo de castigo. Nesse jogo, se o cúmplice trai e confessa uma vez, pode-se castigá-lo traindo-o na próxima. Assim, o jogo iterado oferece uma opção de castigo que está ausente no modo clássico do jogo. Este jogo (não-repetido) possui como solução do ponto de vista Ótimo de Pareto a estratégia: A e B negam Este jogo (não-repetido) possui como Equilíbrio de Nash a estratégia: Neste caso, é o Equilíbrio Dominante. A e B delatam