Jogos em Forma Extensa



Documentos relacionados
Jogos Bayesianos Estratégias e Equilíbrio Aplicações. Jogos Bayesianos. Prof. Leandro Chaves Rêgo

Refinamentos de Equilíbrios de Nash

Polos Olímpicos de Treinamento. Aula 6. Curso de Combinatória - Nível 2. Jogos. 1. Simetria. Prof. Bruno Holanda

UNIPAC Araguari FACAE - Faculdade de Ciências Administrativas e Exatas SISTEMAS DE INFORMAÇÃO

Técnicas estatísticas para análise de dados e de resultados de modelos de simulação

Coeficiente de Assimetria e Curtose. Rinaldo Artes. Padronização., tem as seguintes propriedades: Momentos

FALTA DE CONHECIMENTO COMUM SOBRE PREFERÊNCIAS E FALTA DE CONSCIÊNCIA EM JOGOS NA FORMA NORMAL LARISSA SANTANA BARRETO

Introdução à Inteligência Artificial 2007/08

Microeconomia II. Cursos de Economia e de Matemática Aplicada à Economia e Gestão. AULA 1.1 Descrição de Jogos não-cooperativos (forma normal)

AED Parte II Microeconomia Básica. Teoria dos Jogos

Bases Matemáticas. Daniel Miranda de maio de sala Bloco B página: daniel.miranda

Erros e Incertezas. Rafael Alves Batista Instituto de Física Gleb Wataghin Universidade Estadual de Campinas (Dated: 10 de Julho de 2011.

AF Não-determinísticos Equivalência entre AFND e AFD

Unidade 10 Análise combinatória. Introdução Princípio Fundamental da contagem Fatorial

Modelos de Probabilidade e Inferência Estatística

EXAME DE MACS 2º FASE 2014/2015 = 193

3.3 Qual o menor caminho até a Escola? 28 CAPÍTULO 3. CICLOS E CAMINHOS

Seqüências. George Darmiton da Cunha Cavalcanti CIn - UFPE

CORPOS FINITOS E SEUS GRUPOS MULTIPLICATIVOS

IBM1018 Física Básica II FFCLRP USP Prof. Antônio Roque Aula 7

Matemática Discreta - 08

SOLUÇÕES N item a) O maior dos quatro retângulos tem lados de medida 30 4 = 26 cm e 20 7 = 13 cm. Logo, sua área é 26 x 13= 338 cm 2.

Avaliação Baseada em Modelos Conceituais I - Engenharia Cognitiva

Congruências Lineares

Equilíbrio de um corpo rígido

CAP. II RESOLUÇÃO NUMÉRICA DE EQUAÇÕES NÃO LINEARES

Projecto Delfos: Escola de Matemática Para Jovens 1 TEORIA DOS NÚMEROS

Árvores de Decisão Matemática Discreta

Jogos com Consciência

Determinantes. Matemática Prof. Mauricio José

A forma geral de uma equação de estado é: p = f ( T,

IND 1115 Inferência Estatística Aula 8

Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

Probabilidade III. Ulisses U. dos Anjos. Departamento de Estatística Universidade Federal da Paraíba. Período

Análise de Sistemas de Controle no Espaço de Estados

O cilindro deitado. Eduardo Colli

Engenharia de Software

Matemática Aplicada às Ciências Sociais

AV2 - MA UMA SOLUÇÃO

Manual do Processo de Planejamento da UFSC. Departamento de Planejamento SEPLAN/UFSC

Processos Estocásticos

Notas de aula de Lógica para Ciência da Computação. Aula 11, 2012/2

Aula 02: Probabilidade

Relações. Antonio Alfredo Ferreira Loureiro. UFMG/ICEx/DCC MD Relações 1

Prova Escrita de MATEMÁTICA A - 12o Ano a Fase

1 O que é árvore de decisão

Algoritmos e Programação : Conceitos e estruturas básicas. Hudson Victoria Diniz

Avaliação e Desempenho Aula 1 - Simulação

Circuitos Aritméticos

cuja distribuição é t de Student com n 1 graus de liberdade.

MAE116 - Noções de Estatística

Lista de Exercícios Critérios de Divisibilidade

2) Escreva um algoritmo que leia um conjunto de 10 notas, armazene-as em uma variável composta chamada NOTA e calcule e imprima a sua média.

3 Modelos de Simulação

Árvore de Decisão. 3. Árvore de Decisão

Métodos Formais. Agenda. Relações Binárias Relações e Banco de Dados Operações nas Relações Resumo Relações Funções. Relações e Funções

Teste de Funções por Cobertura do Grafo de Fluxo de Controle

Teoria de Jogos. Algoritmo Minimax e Alfa-Beta AED

Capítulo VI Circuitos Aritméticos

Oficina: Jogar para gostar e aprender matemática. Profa. Dra. Adriana M. Corder Molinari dri.molinari@uol.com.br

INF 1010 Estruturas de Dados Avançadas. Indexação em Espaços Multidimensionais DI, PUC-Rio Estruturas de Dados Avançadas 2012.

a) 2 b) 3 c) 4 d) 5 e) 6

FRAÇÃO Definição e Operações

Teorema do Limite Central e Intervalo de Confiança

UM JOGO DE DOMINÓ PARA A LÓGICA PROPOSICIONAL

Distribuição Binomial e Normal

Opções Reais: Exemplo Intuitivo do Gatilho

Lição 5 Medidas Descritivas Medidas de Dispersão

Cálculo proposicional

Capítulo 4. Retas e Planos. 4.1 A reta

Modelando sistemas em UML - Casos de uso.

Estruturas de Repetição

Soluções de Questões de Matemática - BNDES

Sobre Desenvolvimentos em Séries de Potências, Séries de Taylor e Fórmula de Taylor

Roteiro da aula: Jogos dinâmicos com informação incompleta. Mas-Collel e Green capítulo 9 Refinamentos do conceito de Equilíbrio de Nash

ANOVA. (Analysis of Variance) Prof. Dr. Guanis de Barros Vilela Junior

PLANEJAMENTO SIMPLIFICADO DE PROJETOS

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

PREPARATÓRIO PROFMAT/ AULA 3

Álgebra Linear Computacional

Aula 5: determinação e simplificação de expressões lógicas

Microeconomia. 8. Teoria dos Jogos. 1º ano 2º semestre 2011/2012

CAPÍTULO O Método Simplex Pesquisa Operacional

Forma Normal de Boyce-Codd

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE MATEMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM ENSINO DE MATEMÁTICA

Inteligência Artificial IA I. MÉTODOS DE BUSCA

SISTEMÁTICA DE ACOMPANHAMENTO E AVALIAÇÃO DE DESEMPENHO

Medidas de Localização

Fundamentos de Lógica Matemática

CAPÍTULO 8. de Variância - ANOVA ANOVA. Análise

1.2. Grandezas Fundamentais e Sistemas de Unidades

Análise de Regressão Linear Simples III

Capítulo 4 Inferência Estatística

Usando o painel do operador

TECNÓLOGO EM CONSTRUÇÃO CIVIL. Aula 6 _ Função Polinomial do 2º Grau Professor Luciano Nóbrega

Semana 7 Resolução de Sistemas Lineares

Distribuições Conjuntas (Tabelas de Contingência)

5. Derivada. Definição: Se uma função f é definida em um intervalo aberto contendo x 0, então a derivada de f

Teorema da Completude para a Lógica Proposicional Baseado no Capítulo 17 do LPL

Transcrição:

Jogos em Forma Extensa Prof. Leandro Chaves Rêgo Programa de Pós-Graduação em Estatística - UFPE Programa de Pós-Graduação em Engenharia de Produção - UFPE Recife, 12 de Setembro de 2014

Jogos em Forma Extensa Até o momento estudamos apenas casos onde jogadores se movem ao mesmo tempo e uma única vez. Contudo em muitas situações estratégicas os jogadores implementam suas estratégias ao longo do tempo e podem obter informações sobre as estratégias que estão sendo utilizadas pelos outros jogadores. Para analisar tais situações precisamos de uma outra forma de representar jogos, que é conhecida como representação em forma extensa de jogos. Intuitivamente, um jogo em forma extensa descreve o conjunto de jogadores, quem se move e quando e quais são suas opções, a utilidade dos jogadores para cada possível maneira de jogo ser realizado, e finalmente, o que os jogadores sabem quando se movem em cada situação do jogo. Em um jogo em forma extensa admite-se a possibilidade de eventos aleatórios influenciarem na realização do jogo, como por exemplo, o resultado da jogada de um dado. Tais eventos aleatórios são representados no jogo como se fossem feitos por um outro jogador denominado chance ou natureza, sendo que este jogador não possui preferências sobre os possíveis resultados do jogo.

Jogos com Informação Perfeita Definição Formalmente, temos que um jogo em forma extensa com informação perfeita é um vetor Γ = (N,M, H,P,f c,{u i : i N}), onde N é um conjunto que consiste dos agentes participando do jogo. M é um conjunto cujos elementos são os movimentos ou ações disponíveis aos jogadores ou a chance durante o jogo. H é um conjunto de seqüências de movimentos (elementos de M) que é fechado com relação a prefixos, isto é, se h H e h for um prefixo de h, então h H. a Além disso, se a 1,...a K H para todo inteiro finito K, então (a n) n=1 H. Denotaremos por X(h) o conjunto de prefixos de h. a Um prefixo de uma seqüência (x n) de comprimento K é qualquer subseqüência de (x n) que consiste dos primeiros l K termos de (x n). Por exemplo, se h = m 5,m 8, m 1 os prefixos de h são, m 5, m 5,m 8, e m 5, m 8,m 1.

Jogos com Informação Perfeita Definição Intuitivamente, cada membro de H é uma possível história do jogo. Podemos identificar nós em uma árvore com histórias em H. Cada nó n é caracterizado por uma seqüência de ações necessárias para atingirmos n. Uma trajetória completa em H é uma história terminal, uma que não é prefixo estrito de nenhuma outra história em H. Seja Z o conjunto de trajetórias completas de H. Seja M h = {m M : h m H} (onde utilizamos para denotar concatenação de seqüências); M h é o conjunto de ações que podem ser tomadas após a história h. P : (H Z) N {c} é uma função que associa cada história não terminal h a um elemento de N {c}. (c representa movimentos aleatórios que podem ocorrer durante o jogo, usualmente chama-se c de jogador chance ou natureza.) Se P(h) = i, então jogador i se move após história h; se P(h) = c, então chance se move após h. Seja H i = {h : P(h) = i} o conjunto de todas histórias após as quais o jogador i se move.

Jogos com Informação Perfeita Definição f c é um função que associa a cada história em que P(h) = c uma medida de probabilidade f c( h) em M h. Intuitivamente, f c( h) descreve uma distribuição de probabilidade sobre as ações disponíveis para a natureza uma vez que a história h é atingida. u i : Z IR é a função utilidade para o jogador i, que associa um número real (utilidade de i) para cada trajetória completa do jogo.

Jogos com Informação Perfeita Exemplo Um jogo em forma extensa é finito se N,M, e H forem finitos. O próximo exemplo ilustra a relação entre um árvore de jogo e a definição formal de jogos em forma extensa dada acima. Figura: Um jogo em forma extensa simples.

Jogos com Informação Perfeita Exemplo No jogo da Figura 1, temos N = {A, B}, H = {, down A, across A, across A,down B, across A, across B }, P( ) = A, P( across A ) = B, u A ( down A ) = u B ( down A ) = 1, u A ( across A,across B ) = 0, u B ( across A,across B ) = 2, u A ( across A,down B ) = 2, e u B ( across A,down B ) = 3.

Competição de Stackelberg Exemplo Suponha que uma firma 1 desenvolve uma nova tecnologia antes que uma firma 2 e como conseqüência tem a oportunidade de construir uma fábrica e escolher um nível de produção q 1 antes que a firma 2 comece sua produção. A firma 2 então observa a escolha da firma 1 antes de escolher seu nível de produção q 2. Por exemplo, assuma que q i {0, 1,2}, que o preço de mercado é dado por p(q 1,q 2) = 3 q 1 q 2, e que o custo de produção é zero. As firmas são obrigadas a vender toda a produção pelo preço de mercado pois não possuem local para armazenagem e a destruição de produtos tem um custo muito elevado.

Competição de Stackelberg Exemplo Deste modo temos que: N = {1, 2}, H = {, 0, 1, 2, 0,0, 0,1, 0, 2, 1,0, 1, 1, 1,2, 2,0, 2, 1, 2,2 }, P( ) = 1, P( 0 ) = P( 1 ) = P( 2 ) = 2, u 1( 0,q 2 ) = u 1( 1,2 ) = u 1( 2, 1 ) = 0, u 1( 1,0 ) = u 1( 2,0 ) = 2, u 1( 1,1 ) = u 2( 1,1 ) = 1, u 1( 2,2 ) = u 2( 2,2 ) = 2, u 2( q 1,0 ) = u 2( 1,2 ) = u 2( 2, 1 ) = 0, e u 2( 0,1 ) = u 2( 0,2 ) = 2.

Estratégias Definição 2.1 Uma ação para um jogador é uma opção disponível que pode escolher após uma determinada história do jogo, onde uma história do jogo é uma sequência de ações realizadas pelos jogadores no passado e pelo jogador chance. Por exemplo, definição da capacidade instalada, quantidade de recursos destinados ao marketing, preços, etc. Definição 2.2 Uma estratégia pura para o jogador i em um jogo em forma extensa com informação perfeita é uma função s i que associa cada história h H i um elemento de M h, ou seja, uma ação disponível para i em h. Definição 2.3 Se C i é o conjunto de estratégias puras para o jogador i em um jogo em forma extensa com informação perfeita, uma estratégia mista para o jogador i em um jogo em forma extensa é uma distribuição de probabilidade δ i em C i, ou seja, um elemento de (C i ).

Estratégia Comportamental Para jogos em forma extensa com informação perfeita existe uma outra noção de estratégia, chamada de estratégia comportamental, que especifica uma randomização independente para cada história em que o jogador se move. Definição 2.4 Uma estratégia comportamental para o jogador i em um jogo em forma extensa com informação perfeita é uma função σ i que associa cada história h H i um elemento de (M h ), ou seja, uma distribuição de probabilidade sobre as ações disponíveis para i em h.

Observação Note que uma estratégia é um plano de contingência completo que explica o que um jogador irá fazer em cada situação que possa aparecer no jogo. Como uma estratégia é um plano de contingência completo, ao contrário das ações, ela não é observável. Uma ação é física, porém uma estratégia é apenas mental. A primeira vista, uma estratégia parece especificar ações em excesso, pois ações no começo do jogo podem tornar impossível que certas histórias sejam atingidas. Então, por que temos que especificar como jogadores se comportam em histórias que nunca serão atingidas se os jogadores seguem certas ações no começo do jogo? A razão é que como jogadores se comportam fora da trajetória de equilíbrio será crucial para determinar se um dado perfil de estratégias é um equilíbrio de Nash. Ameaças em caminhos fora do equilíbrio podem ser essenciais. Falaremos mais sobre isso adiante.

Exemplo Figura: Um jogo em forma extensa no qual o jogador 1 se move antes e depois do jogador 2. Neste jogo, jogador 1 possui quatro estratégias puras: AE, AF, BE, BF. Jogador 2 possui duas estratégias puras: C e D. Note que temos que especificar o que o jogador 1 fará após a história B,D, mesmo que ele tenha escolhido A no começo.

Representação em Formal Normal Alguns conceitos de solução para jogos em forma extensiva utilizam uma representação forma normal que é derivada a partir da descrição em forma extensa do jogo. Veremos nesta seção três possíveis maneiras de representar um jogo em forma extensa em uma forma normal: forma normal, forma normal reduzida, e forma multiagente.

Forma Normal Antes de darmos a definição da representação em forma normal de um jogo em forma extensa, note que dado um perfil de estratégias puras para os jogadores em um jogo em forma extensa, essas estratégias induzem uma distribuição de probabilidade sobre as possíveis histórias do jogo em forma em extensa. Formalmente, suponha que os jogadores jogam o perfil de estratégias pura s, então Pr s(h) representa a probabilidade do jogo atingir a história h dado que os jogadores seguem as estratégias em s. Temos que Pr s( ) = 1. Se h = h m, o jogador chance se move após a história h, e q é a probabilidade com que a chance escolherá a ação m, então temos que Pr s(h) = qpr s(h ). Se h = h m, e h H i, então Pr s(h) = Pr s(h ) se s i (h ) = m, e Pr s(h) = 0, se s i (h ) m.

Forma Normal Antes de darmos a definição da representação em forma normal de um jogo em forma extensa, note que dado um perfil de estratégias puras para os jogadores em um jogo em forma extensa, essas estratégias induzem uma distribuição de probabilidade sobre as possíveis histórias do jogo em forma em extensa. Formalmente, suponha que os jogadores jogam o perfil de estratégias pura s, então Pr s(h) representa a probabilidade do jogo atingir a história h dado que os jogadores seguem as estratégias em s. Temos que Pr s( ) = 1. Se h = h m, o jogador chance se move após a história h, e q é a probabilidade com que a chance escolherá a ação m, então temos que Pr s(h) = qpr s(h ). Se h = h m, e h H i, então Pr s(h) = Pr s(h ) se s i (h ) = m, e Pr s(h) = 0, se s i (h ) m.

Forma Normal Antes de darmos a definição da representação em forma normal de um jogo em forma extensa, note que dado um perfil de estratégias puras para os jogadores em um jogo em forma extensa, essas estratégias induzem uma distribuição de probabilidade sobre as possíveis histórias do jogo em forma em extensa. Formalmente, suponha que os jogadores jogam o perfil de estratégias pura s, então Pr s(h) representa a probabilidade do jogo atingir a história h dado que os jogadores seguem as estratégias em s. Temos que Pr s( ) = 1. Se h = h m, o jogador chance se move após a história h, e q é a probabilidade com que a chance escolherá a ação m, então temos que Pr s(h) = qpr s(h ). Se h = h m, e h H i, então Pr s(h) = Pr s(h ) se s i (h ) = m, e Pr s(h) = 0, se s i (h ) m.

Forma Normal Podemos também definir de forma análoga, a probabilidade Pr σ(h) do jogo atingir a história h dado que os jogadores seguem as estratégias comportamentais em σ, a única diferença da definição anterior é que no caso em que h = h m e h H i, temos que Pr σ(h) = σ i (m)pr σ(h ). A distribuição de probabilidade induzida por uma estratégia mista δ i N (C i ) é dada pelo valor esperado de acordo com δ das distribuições induzidas pelas estratégias puras, ou seja, Pr δ (h) = s C δ(s)prs(h).

Forma Normal Podemos também definir de forma análoga, a probabilidade Pr σ(h) do jogo atingir a história h dado que os jogadores seguem as estratégias comportamentais em σ, a única diferença da definição anterior é que no caso em que h = h m e h H i, temos que Pr σ(h) = σ i (m)pr σ(h ). A distribuição de probabilidade induzida por uma estratégia mista δ i N (C i ) é dada pelo valor esperado de acordo com δ das distribuições induzidas pelas estratégias puras, ou seja, Pr δ (h) = s C δ(s)prs(h).

Definição Definição 3.1 A representação em forma normal de um jogo em forma extensa com informação perfeita Γ = (N,M,H, P,f c,{v i : i N}) é o jogo em forma normal Γ n = (N,{C i : i N},{u i : i N}), onde C i são as estratégias puras do jogador i em Γ e para todo s i N C i, temos u i (s) = z Z Pr s(z)v i (z), ou seja, u i é a utilidade esperada para o jogador i quando os jogadores implementam as estratégias especificadas em s.

Exemplo Por exemplo, a representação em forma normal do jogo em forma extensa descrito no exemplo da figura anterior é dada por: C D AE 1,1 1,1 AF 1,1 1,1 BE 0,3 2,2 BF 0,3 1,4

Forma Normal Reduzida Existem alguns jogos em forma extensiva que podemos simplificar sua representação em forma normal, pois existem várias estratégias para algum jogador i que têm a mesma utilidade esperada para todos os jogadores não importa qual é a estratégia adotada pelos outros jogadores. Formalmente, dado qualquer jogo em forma normal Γ = (N,{C i : i N},{u i : i N}), duas estratégias puras em d i,e i C i são equivalentes em utilidade se, e somente se, u j (d i,c i ) = u j (e i, c i ), c i C i, j N. Portanto, duas estratégias para o jogador i são equivalentes em utilidade se, e somente se, não importa o que os outros jogadores façam, nenhum jogador se importará se o jogador i escolherá d i ou e i. Por exemplo, no jogo descrito no exemplo anterior, as estratégias do jogador 1 AE e AF são equivalentes em utilidade. Quando existem estratégias que são equivalentes em utilidade podemos simplificar a representação em forma normal, denotando as estratégias equivalentes por uma única estratégia. O resultado desta simplificação é conhecido como forma normal puramente reduzida.

Exemplo Por exemplo, a representação em forma normal puramente reduzida do jogo em forma extensa descrito no exemplo anterior é dada por: C D A 1,1 1,1 BE 0,3 2,2 BF 0,3 1,4

Forma Normal Completamente Reduzida Se permitirmos estratégias mistas, podemos ter um outro tipo de redundância em jogos chamada de redundância aleatória que pode nos permitir reduzir ainda mais a representação em forma normal de um jogo. Uma estratégia d i C i é aleatoriamente redundante se, e somente se, existe uma estratégia mista δ i (C i ) tal que δ i (d i ) = 0 e u j (d i,c i ) = e i C i δ i (e i )u j (e i,c i ), c i C i, j N. Portanto, d i é aleatoriamente redundante se, e somente se, existe alguma maneira para o jogador i escolher aleatoriamente entre suas outras estratégias puras de forma que, não importa qual estratégias serão usadas pelos outros jogadores, todos os jogadores terão a mesma utilidade esperada quando i utiliza d i ou δ i. A forma normal completamente reduzida é derivada da forma normal puramente reduzida eliminando estratégias que são aleatoriamente redundantes.

Exemplo D E A 6,0 6,0 B 0,8 8,0 C 3,4 7,0 A estratégia C é aleatoriamente redundante, pois todos os jogadores recebem o mesmo pagamento se o jogador linha escolhe C ou a estratégia mista que escolhe A e B com probabilidade igual a 1/2. Portanto a forma normal completamente reduzida deste jogo, não contém a última linha da tabela acima.

Representação Multiagente Nesta representação cada jogador i do jogo em forma extensiva é representado por múltiplos agentes um para cada história após a qual o jogador i se move. Dado um jogo com informação perfeita Γ = (N,M, H,P,f c,{v i : i N}) seja H N = i N H i o conjunto de histórias após a qual algum jogador i se move. Definição 3.2 A representação multiagente de um jogo em forma extensa com informação perfeita Γ = (N, M,H,P, f c,{v i : i N}) é o jogo em forma normal Γ n = (H N,{M h : h H N },{u h : h H N }), onde relembrando se h H i, temos que M h são as ações disponíveis ao jogador i após história h. Para todo perfil de estratégias de Γ n, t h HN M h, seja s t um perfil de estratégias de Γ tal que para todo j N e h H j temos s t j (h) = t h. Então, se h H i, u h : a HN M a IR é uma função utilidade para um jogador h tal que u h (t) = z Z Pr s t(z)v i(z).

Exemplo Considere novamente o jogo a seguir: Figura: Um jogo em forma extensa no qual o jogador 1 se move antes e depois do jogador 2. A representação multiagente tem três jogadores, B, e B,D, o jogador possui duas ações disponíveis A e B, o jogador B possui também duas ações disponíveis C e D, e finalmente o jogador B,D possui também duas ações disponíveis E e F. As utilidades são descritas nas duas tabelas a seguir:

Exemplo Quando o agente B, D escolhe E, temos: C D A 1,1,1 1,1,1 B 0,3,0 2,2,2

Exemplo E quando o agente B,D escolhe F, temos: C D A 1,1,1 1,1,1 B 0,3,0 1,4,1 Quando estamos considerando a representação multiagente, os diferentes agentes do jogo em forma normal que representa o mesmo jogador no jogo em forma extensa são conhecidos como agentes temporários. No exemplo, temos que e B,D são dois agentes temporários para o jogador 1 do jogo em forma extensa. É importante ressaltar que os diversos agentes temporários para um dado jogador i não podem correlacionar suas estratégias e agem de maneira independente na representação multiagente do jogo, apesar de possuírem a mesma função utilidade.

Equilíbrio de Nash Como existem três tipos de estratégias para um jogo em forma extensa, podemos definir três tipos de equilíbrios de Nash: Definição 4.1 Dado um jogo em forma extensa com informação perfeita Γ = (N, M,H,P, f c,{v i : i N}), um perfil de estratégias s é um equilíbrio de Nash em estratégias puras de G se, e somente se, u i (s) = z Z Pr s(z)v i (z) u i (s i,d i ) = z Z Pr (s i,d i )(z)v i (z) para todo jogador i e toda estratégia d i C i.

Equilíbrio de Nash Definição 4.2 Dado um jogo em forma extensa com informação perfeita Γ = (N, M,H,P, f c,{v i : i N}), um perfil de estratégias δ é um equilíbrio de Nash em estratégias mistas de G se, e somente se, u i (δ) = s C u i (δ i,β i ) = s C δ(s) z Z Pr s(z)v i (z) δ i (s i )β i (s i ) z Z Pr s(z)v i (z) para todo jogador i e toda estratégia mista β i (C i ).

Equilíbrio de Nash Definição 4.3 Dado um jogo em forma extensa com informação perfeita Γ = (N, M,H,P, f c,{v i : i N}), um perfil de estratégias σ é um equilíbrio de Nash em estratégias comportamentais de G se, e somente se, u i (σ) = z Z Pr σ(z)v i (z) u i (σ i,τ i ) = z Z Pr (σ i,τ i )(z)v i (z) para todo jogador i e toda estratégia comportamental τ i h Hi (M h ).

Exemplo Exemplo 4.4 No jogo do Exemplo 13, temos que (A,C,E), (A,C,F), e (A,D,F) são os únicos equilíbrios de Nash em estratégias puras. Como veremos no exemplo a seguir, o Equilíbrio de Nash não é um conceito de solução muito razoável para alguns jogos extensivos, por que ele permite que muitos perfis de estratégias sejam equilíbrios, alguns até não-intuitivos.

Exemplo Figura: Jogo com equilíbrio de Nash não-intuitivo.

Exemplo Neste jogo temos que (down A,across B ) é um equilíbrio de Nash do jogo. Neste equilíbrio, jogador A escolhe down A por que ele pensa que o jogador B escolherá across B. Então, a ameaça do jogador B de jogar across B faz com que o jogador A escolha down A. Note que neste equilíbrio esta ameaça nunca se concretiza, pois o jogador B não tem chance de escolher. Contudo, se o jogador B em algum caso tivesse oportunidade de participar deste jogo, temos que ele não cumpriria sua ameaça, pois lhe é vantajoso escolher down B. Portanto, a ameaça do jogador B é inacreditável. Isto sugere que devemos apenas considerar um subconjunto dos equilíbrios de Nash que não são baseados em ameaças inacreditáveis. O próximo conceito de solução é conhecido como equilíbrio de subjogo perfeito e impede que equilíbrios contenham ameaças inacreditáveis.

Equilíbrio de Subjogo Perfeito Definição de Subjogo Um subjogo G de um jogo em forma extensiva Γ = (N, M,H,P, f c,{v i : i N}) é um outro jogo em forma extensiva que satisfaz: 1 O conjunto de histórias H G em G consiste de uma única história em H e todos as histórias subseqüentes a h; 2 A distribuição de probabilidade sobre as ações da natureza em G são as mesmas das correspondentes ações em Γ; 3 A utilidades de trajetórias completas em G são as mesmas utilidades das correspondentes trajetórias completas em Γ.

Equilíbrio de Subjogo Perfeito Definição de Subjogo Definição 5.1 Um perfil de estratégia (puro, misto, ou comportamental) s é um equilíbrio de subjogo perfeito em estratégias (puras, mistas, ou comportamentais, respectivamente) de Γ se ele for equilíbrio de Nash em estratégias (puras, mistas, ou comportamentais, respectivamente) de todo subjogo de Γ. Note que um equilíbrio de subjogo perfeito também é um equilíbrio de Nash porque o jogo Γ também é um subjogo degenerado dele mesmo.

Indução Reversa A técnica mais comum para encontrar os equilíbrios de subjogo perfeito de um jogo finito Γ é conhecida como indução reversa. Intuitivamente, temos que a técnica sugere que se comece pelo fim do jogo e vá resolvendo até chegar ao começo do jogo. Podemos descrever mais formalmente esta técnica nos seguintes passos: 1 Seja k = 1 e Γ(k) = Γ. 2 Seja Z 1 o conjunto de todas as histórias que são antecessoras imediatas das histórias terminais do jogo Γ(k). Para todo i N e h Z 1 H i, o jogador i enfrenta um problema de decisão após história h, e portanto deve escolher a ação que maximiza sua utilidade esperada. Se houver mais de uma ação que produza a mesma utilidade esperada, existirá um equilíbrio de subjogo perfeito contendo cada uma dessas ações. Escolha uma delas para ser a ação escolhida por i segundo a estratégia s, isto é, faça s i (h) = a argmax b Mh u i ( h,b ). Passe ao passo seguinte.

Indução Reversa 3 Defina o jogo Γ(k + 1) da seguinte maneira: 1 Para todo h Z 1 ( i N H i ), substitua as ações em M h do jogo Γ(k), pelo vetor de utilidades que corresponde a ação escolhida no passo anterior. Passe ao passo seguinte. 2 Para todo h Z 1 ( i N H i ) c, isto é uma história imediatamente antecessora a uma história terminal do jogo Γ(k) onde chance se move, substitua as ações em M h, pelo vetor de utilidades que corresponde a utilidade esperada dos jogadores de acordo com a distribuição de probabilidade que descreve as probabilidades do jogador chance escolher cada uma das ações em M h. Passe ao passo seguinte. 4 Se o conjunto de todas as histórias de Γ(k + 1) em que algum jogador i N se move for vazio. Pare a iteração e temos que s é um equilíbrio de subjogo perfeito em estratégias puras de Γ. Caso contrário, passe ao passo seguinte. 5 Faça k = k + 1. Volte ao passo 2.

Indução Reversa É fácil ver que como o jogo é finito, após um número finito de iterações o algoritmo acima descrito produzirá um equilíbrio de subjogo perfeito em estratégias puras. Desta forma, provamos construtivamente o seguinte teorema: Teorema 5.2 Qualquer jogo em forma extensiva com informação perfeita finito tem um equilíbrio de subjogo perfeito puro. Exemplo 5.3 No jogo do Exemplo 13, temos que (A,C,E) é o único equilíbrio de subjogo perfeito. Exemplo 5.4 No jogo do Exemplo 31, temos que (across A,down B ) é o único equilíbrio de subjogo perfeito.

Jogo Extensivo com Informação Imperfeita Agora, vamos estudar jogos extensivos onde os jogadores ao tomarem sua decisão após alguma história do jogo, podem ter somente uma informação parcial sobre as ações que já foram tomadas no jogo. Note que um jogo em forma normal é um caso particular de um jogo extensivo com informação imperfeita, pois neste caso todos os jogadores se movem uma única vez e cada um deles não possui nenhuma informação a respeito das ações dos outros jogadores quando toma a sua decisão.

Definição Formalmente, temos que um jogo em forma extensa com informação imperfeita é um vetor Γ = (N,M,H, P,f c,{i i : i N},{u i : i N}), onde (N,M, H,P,f c,{u i : i N}) é um jogo em forma extensa com informação perfeita, e I i é uma partição de H i com a propriedade que se h e h estão na mesma célula da partição, então M h = M h, ou seja, o mesmo conjunto de ações está disponível em todas as histórias de uma mesma célula da partição; se h I, onde I é uma célula da partição, denota-se por M I o conjunto M h de ações disponíveis. Intuitivamente, se h e h estão na mesma célula de I i, então h e h são indistinguíveis do ponto de vista do jogador i; i considera a história h possível se a verdadeira história for h, e vice versa. Uma célula I I i é conhecida como um conjunto de informação para o jogador i ou como um (i-)conjunto de informação. Quando desenhamos um jogo em forma extensa com informação imperfeita em uma árvore circulamos ou interligamos os nós pertencentes a um mesmo conjunto de informação com uma linha tracejada. Como anteriormente, um jogo em forma extensa com informação imperfeita é finito se N, M, e H forem finitos.

Exemplo Figura: Jogo em Forma Extensiva com Informação Imperfeita.

Exemplo No jogo da figura anterior, temos N = {1, 2}, H = {, A, B, C, B, D, C,D, B, E, C,E B,E, F, B,E, G, C,E,H, C,E,I }, P( ) = P( B,E ) = P( C,E ) = 1, e P( B ) = P( C ) = 2, I 1 = {{ },{ B,E },{ C,E }}, I 2 = {{ B, C }}, u 1( A ) = u 2( A ) = u 1( C,D ) = u 1( C,E, I ) = u 1( B,E,G ) = u 2( C,E,H ) = 1, u 1( B,E,F ) = u 2( B,E,F ) = 2, u 2( B,D ) = u 2( C,E, I ) = 3, u 2( B,E,G ) = 4, e u 1( C,E,H ) = u 2( C,D ) = 5.

Memória Perfeita e Memória Imperfeita Na maior parte deste curso, como na maioria dos trabalhos em teoria dos jogos, nós assumimos que jogadores têm memória perfeita: eles recordam de todas as ações que eles tomaram e de todos os conjuntos de informação pelos quais eles passaram. Formalmente, vamos requerer que se h e h estão no mesmo conjunto de informação do jogador i e h 1 é um prefixo de h tal que P(h 1) = i, então existe um prefixo h 1 de h tal que h 1 e h 1 estão no mesmo conjunto de informação; além disso, se h 1 m for um prefixo de h (de forma que m foi a ação realizada quando h 1 foi atingida na história h), então h 1 m é um prefixo de h (portanto, i lembra que ele realizou ação m). Podemos ver um jogo extenso com informação perfeita como um caso particular do jogo extenso com informação imperfeita onde todos os conjuntos de informação contém uma única história. É fácil verificar que em todo jogo com informação perfeita, todos os jogadores têm memória perfeita.

Memória Imperfeita Podemos distinguir 3 tipos diferentes de memória imperfeita: Falta de memória sobre a seqüência de conjuntos de informação pelo qual o jogador passou; Falta de memória sobre ações já realizadas pelo jogador; e Falta de memória sobre se o jogador já realizou ou não uma dada ação.

Exemplos A próxima figura ilustra jogos extensivos da esquerda para a direita que apresentam estes 3 tipos de falta de memória, respectivamente. Figura: Jogos Extensivos com Memória Imperfeita.

Observações Apesar de não ter recebido muita atenção da literatura, jogos com memória imperfeita tem tido cada vez mais aplicações principalmente quando estamos tratando de agentes computacionais que possuem memória finita e têm de realizar uma dada escolha repetidas vezes. Eventualmente, tais agentes não se recordam das ações que eles realizaram no passado, ou que conjuntos de informação eles já visitaram. Existem outras situações onde também modelos de jogos com memória imperfeita parecem ser razoáveis. Suponha, por exemplo, que queremos modelar uma partida de xadrez. Parece razoável supor que os jogadores não necessariamente se lembram de todas as jogadas efetuadas ao longo da partida e em que ordem elas foram executadas. A análise de jogos com memória imperfeita envolve sutilezas fora do escopo deste curso. Portanto, no que se segue estaremos sempre assumindo jogos com memória perfeita, exceto quando mencionarmos explicitamente o contrário.

Estratégias Podemos definir de maneira análoga ao caso de jogos com informação perfeita, o que são estratégias puras, mistas e comportamentais em jogos com informação imperfeita. A única diferença é que as definições agora garantem que os jogadores só podem tomar a mesma decisão em histórias que eles não conseguem distinguir. Definição 6.1 Uma estratégia pura para o jogador i em um jogo em forma extensa com informação imperfeita é uma função s i que associa cada conjunto de informação I i do jogador i um elemento de M Ii, ou seja, uma ação disponível para i quando se move no conjunto de informação I i. Definição 6.2 Se C i é o conjunto de estratégias puras para o jogador i em um jogo em forma extensa com informação imperfeita, uma estratégia mista para o jogador i em um jogo em forma extensa é uma distribuição de probabilidade δ i em C i, ou seja, um elemento de (C i ).

Estratégias Definição 6.3 Uma estratégia comportamental para o jogador i em um jogo em forma extensa com informação imperfeita é uma função σ i que associa cada conjunto de informação I i do jogador i um elemento de (M Ii ), ou seja, uma distribuição de probabilidade sobre as ações disponíveis para i quando se move no conjunto de informação I i.

Estratégias Exemplo No jogo do Exemplo 40, temos que o jogador 1 possui 12 estratégias puras: AFH, AFI, AGH, AGI, BFH, BFI, BGH, BGI, CFH, CFI, CGH, e CGI. O jogador 2 possui 2 estratégias puras: D e E. Observação Eventualmente, abusaremos um pouco da notação e para todo h I, usaremos s i (h) e σ i (h) para denotar as ações escolhidas pelas estratégias s i e σ i no conjunto de informação I.

Equivalência entre Estratégias Mistas e Comportamentais Nosso objetivo nesta seção é provar que para jogos extensivos com informação imperfeita finitos onde os jogadores possuem memória perfeita, existe uma equivalência entre estratégias mistas e comportamentais. Antes de enunciarmos e provarmos a equivalência, precisamos de duas definições. Definição 6.4 Definem-se duas estratégias (mistas ou comportamentais) de um dado jogador como equivalentes em utilidade, se para qualquer coleção de estratégias puras para os demais jogadores, as duas estratégias induzem a mesma distribuição de probabilidade sobre as histórias terminais do jogo.

Equivalência entre Estratégias Mistas e Comportamentais Definição 6.5 Para qualquer história h, temos que uma estratégia pura s i para o jogador i é consistente com h, se para todo prefixo h m de h, onde P(h ) = i, temos que s i (h ) = m. Intuitivamente, s i é consistente com h se existe algum perfil de estratégias puras dos outros jogadores que juntamente com s i tornem possível que a história h seja atingida com probabilidade positiva. No Exemplo do Jogo com Informação Imperfeita visto anteriormente, temos que a estratégia BGH do jogador i é consistente com a história B,D, mas não é consistente com a história B,E, F nem com a história C,E. Seja C i (h) o conjunto de estratégias puras do jogador i consistentes com a história h. Teorema 6.6 Se em um jogo em forma extensiva finito, não existe falta de memória sobre se o jogador já realizou ou não uma dada ação, então temos que toda estratégia comportamental de um jogador tem uma estratégia mista equivalente em utilidade.

Prova Seja σ i uma estratégia comportamental para o jogador i. Considere a seguinte estratégia mista δ i que dá probabilidade I I i σ i (I)(s i (I)) a estratégia pura s i. Seja t i um perfil de estratégias puras para os jogadores diferentes de i. Vamos verificar que Pr (σi,t i )(h) = Pr (δi,t i )(h), h H, e consequentemente σ i e δ i são equivalentes em utilidade. Seja h uma história qualquer do jogo. Temos que considerar dois casos. Primeiro, assuma que j N {i} tal que t j / C j (h). Neste caso, temos que Pr (σi,t i )(h) = Pr (δi,t i )(h) = 0. Assuma então que j N {i} temos t j C j (h). Então, temos que: Pr (σi,t i )(h) = ( σ i (h )(m))( f c(m h )), h H i, h m X(h) h H c, h m X(h) pois ao longo da história h as escolhas feitas pelo jogador i são independentes por definição de σ e pelo fato que assumimos que não existe falta de memória se um jogador já realizou ou não uma ação.

Prova Por outro lado, para uma estratégia pura s i temos que Pr (si,t i )(h) = 0 se s i / C i (h) e, em caso contrário temos: Pr (si,t i )(h) = f c(m h ). Logo, temos que h H c, h m X(h)

Prova Pr (δi,t i )(h) = = = = = ( s i C i (h) h H c, h m X(h) h H c, h m X(h) h H c, h m X(h) s i C i δ(s i )Pr (si,t i )(h) I I i σ i (I)(s i (I)) f c(m h ) f c(m h ) f c(m h ))( h H c, h m X(h) s i C i (h) s i C i (h) f c(m h ) I I i σ i (I)(s i (I)) ( I I i, X(h) I h H i, h m X(h) σ i (I)(s i (I)) I I i, X(h) I= σ i (h )(m)) A(h), σ i (I)(s i (I)))

Prova onde A(h) = s i C i (h) I I i, X(h) I= σ i (I)(s i (I)) s i C i (h) σ i(h)(s i (h)) I I i, X(h) I=, se h / H i σ i (I)(s i (I)), se h H i

Prova Como a única restrição para uma estratégia pura s i pertencer a C i (h) é que ela especifique uma ação que leve a história h em qualquer prefixo estrito de h onde o jogador i se move, então temos que essas estratégias podem especificar qualquer ação nos conjuntos de informação para o jogador que contém h ou que não contenham prefixos de estritos de h. Desta forma rearrumando os termos dos somatório podemos reescrever: A(h) = = 1. I I i, X(h) I= a M I σ i (I)(a) ( a M h σ i (h)(a)) I I i, X(h) I=, se h / H i a M I σ i (I)(a), se h H i

Prova Portanto, Pr (δi,t i )(h) = ( h H c, h m X(h) = Pr (σi,t i )(h) f c(m h ))( h H i, h m X(h) σ i (h )(m))

Exemplo Considere novamente o Exemplo de Jogo com Informação Imperfeita visto anteriormente. Seja σ 1 a estratégia comportamental do jogador 1 que escolhe A com probabilidade 1/2, B e C com probabilidade 1/4 e G e H com probabilidade 1. De acordo com a construção do teorema a estratégia mista δ 1 que é equivalente em utilidade a σ 1 é tal que AGH recebe probabilidade 1/2, BGH e CGH recebem probabilidade 1/4. Se o jogador 2 escolher a estratégia pura D, então 1/2, se h = A 1/4, se h = B ou h = C ou h = B,D Pr (σ1,d) = Pr (δ1,d)(h) = ou h = C,D 0, caso contrário

Exemplo Enquanto se o jogador 2 escolher a estratégia pura E, então 1/2, se h = A 1/4, se h = B ou h = C ou h = B,E Pr (σ1,e) = Pr (δ1,e)(h) = ou h = C,E ou h = B, E,G ou h = C,E,H 0, caso contrário Representação Mista Dada uma estratégia comportamental σ i para o jogador i. A estratégia mista δ i que dá probabilidade I I i σ i (I)(s i (I)) a estratégia pura s i é chamada uma representação mista de σ i.

Jogo Sem Estratégia Mista Equivalente Para ver um exemplo da necessidade da hipótese que o jogo não pode ter falta de memória se um jogador já realizou ou não uma ação para encontrarmos uma estratégia mista equivalente considere o seguinte exemplo. Exemplo Figura: Jogo extensivo onde não existe estratégia mista equivalente.

Exemplo Suponha a estratégia comportamental que escolhe ação a com probabilidade p (0,1). Esta estratégia induz probabilidades p 2,p(1 p),1 p nas histórias terminais a, a, a, b, b, respectivamente. Contudo qualquer estratégia mista induz probabilidade zero na história a,b. Portanto, não existe estratégia mista equivalente a estratégia comportamental dada neste jogo.

A Recíproca O próximo teorema prova a recíproca do teorema anterior para jogos com memória perfeita. Teorema 6.7 Para qualquer estratégia mista de um jogo extensivo finito com memória perfeita, existe uma estratégia comportamental equivalente em utilidade.

Prova Seja δ i uma estratégia mista para o jogador i. Para qualquer história h, seja π i (h) = δ(s i ), s i C i (h) ou seja, π i (h) é a soma das probabilidades das estratégias puras do jogador i consistentes com a estratégia h. Dizemos que δ i é consistente com h se, e somente se, π i (h) > 0. Como o jogo tem memória perfeita, para quaisquer histórias h e h no mesmo conjunto de informação do jogador i, temos que C i (h) = C i (h ) e, consequentemente, π i (h) = π i (h ). Além disso, como para qualquer estratégia pura temos que o jogador i deve escolher uma mesma ação em h e h, temos que C i (h m ) = C i (h m ) e, consequentemente, π i (h m ) = π i (h m ).

Prova Vamos agora, definir uma estratégia comportamental σ i que provaremos ser equivalente em utilidade a δ i. Seja I um conjunto de informação qualquer para o jogador i. Seja h I tal que π i (h) > 0, defina σ i (I)(m) = π i (h m ). Como π i (h) uma estratégia pura s i é consistente com h se, e somente se, ela for consistente com exatamente uma história h m, temos que m M I π i (h m ) = π i (h). Portanto, temos que m M I σ i (I)(m) = 1. Se π i (h) = 0, defina σ i (I) de forma arbitrária. σ i é chamada de uma representação comportamental de δ i.

Prova Seja t i um perfil de estratégias puras para os jogadores diferentes de i. Vamos verificar que Pr (σi,t i )(h) = Pr (δi,t i )(h), h H, e consequentemente σ i e δ i são equivalentes em utilidade. Seja h uma história qualquer do jogo. Temos que considerar dois casos. Primeiro, assuma que j N {i} tal que t j / C j (h). Neste caso, temos que Pr (σi,t i )(h) = Pr (δi,t i )(h) = 0. Assuma então que j N {i} temos t j C j (h). Como temos um jogo finito e π i ( ) = 1, para qualquer história h tal que π i (h) = 0 existe um último prefixo h de h que é consistente com a estratégia δ i. Mais formalmente, se π i (h) = 0, então existe h X(h) tal que π i (h ) > 0 e para toda história h X(h) X(h ), temos que π i (h ) = 0. Se h I, e h m X(h), então σ i (I)(m) = 0. Consequentemente, temos que Pr (σi,t i )(h) = 0 = Pr (δi,t i )(h).

Prova Finalmente, considere o caso em que π i (h) > 0. Por definição, temos que π i (h ) > 0, h X(h). Note ainda que se h é o primeiro prefixo de h no qual o jogador i se move, temos que π i (h ) = 1, e que se h m e h são dois prefixos de h tais que o jogador i se move em h e h, e não existe nenhum outro prefixo de h entre h e h no qual i se move, então π i (h m ) = π i (h ). Além disso, se h 3 e h 4 são dois prefixos de h tal que o jogador i não se move entre h 3 e h 4, temos que π i (h 3 ) = π i (h 4 ). Então, temos que:

Prova Pr (σi,t i )(h) = ( = ( h H i, h m X(h) = π i (h)( = ( s i C i (h) = s i C i (h) h H c, h m X(h) δ(s i ))( h H i, h m X(h) π i (h m ) )( π i (h ) f c(m h )) h H c, h m X(h) σ i (h )(m))( h H c, h m X(h) f c(m h )) δ(s i )Pr (si,t i )(h) = Pr (δi,t i )(h) h H c, h m X(h) f c(m h )) f c(m h ))

Exemplo Considere novamente o jogo do Exemplo 40. Seja δ 1 a estratégia mista do jogador 1 que escolhe AFH com probabilidade 1/2, BFI e BGH com probabilidade 1/4. Temos que π 1( ) = 1, π 1( A ) = 1/2, π 1( B ) = π 1( B,E ) = 1/2, π 1( C ) = 0, π 1( B,E,F ) = π 1( B, E,G ) = 1/4. De acordo com a construção do teorema uma estratégia comportamental σ 1 que é equivalente em utilidade a δ 1 é tal que σ 1( )(A) = σ 1( )(B) = 1/2, σ 1( B,E )(F) = σ 1( B,E )(G) = 1/2 e σ 1( C,E ) escolhe arbitrariamente entre H e I. O próximo exemplo ilustra a necessidade da hipótese de memória perfeita para a existência de uma estratégia comportamental equivalente em utilidade a uma estratégia mista qualquer.

Jogo Sem Estratégia Comportamental Equivalente Figura: Jogo extensivo onde não existe estratégia comportamental equivalente.

Exemplo Considere a estratégia mista na qual o jogador 1 escolhe LL com probabilidade 1 e RR com probabilidade 1. Esta estratégia induz probabilidades 1/2, 0, 0,1/2 2 2 nas histórias terminais L, L, L, R, R, L, R, R, respectivamente. Suponha uma estratégia comportamental σ i tal que σ i ({ })(L) = p e σ i ({ L, R })(L) = q. Note que esta estratégia induz probabilidade 0 a história L,R se, e somente se, p = 0 ou q = 0. Porém neste caso, temos que ela também induz probabilidade 0 a L,L ou a R,R. Portanto, não existe estratégia comportamental equivalente a estratégia mista dada.

Representação em Forma Normal Note que as definições das representações em forma normal e normal reduzida para jogos com informação imperfeita são idênticas a definições correspondentes para o caso de jogos com informação perfeita, apenas levando em conta as mudanças na definição do que são agora estratégias puras. O caso da definição da representação multiagente precisa de mais algumas alterações. Agora ao invés de termos um agente temporário para cada história em que um dado jogador i se move no jogo Γ com informação imperfeita, teremos um agente temporário para cada conjunto de informação do jogador i. Formalmente, Definição 6.8 A representação multiagente de um jogo em forma extensa com informação imperfeita Γ = (N,M,H, P,f c,{i i : i N},{v i : i N}) é o jogo em forma normal Γ n = ({I : I i N I i },{M I : I i N I i },{u I : I i N I i }), onde relembrando se I I i, temos que M I são as ações disponíveis ao jogador i no conjunto de informação I. Para todo perfil de estratégias de Γ n, t J i N I i M J, seja s t um perfil de estratégias de Γ tal que para todo j N e J I j temos s t j (J) = t J. Então, u I : J i N I i M J IR é uma função utilidade para um jogador I I i tal que u I (t) = z Z Pr s t(z)v i(z).

Exemplo Considere novamente o jogo a seguir: Figura: Jogo em Forma Extensiva com Informação Imperfeita.

Exemplo A representação multiagente tem quatro jogadores jogadores,{ B, C }, B,E, e C,E. Os jogadores, B,E, e C,E são agentes temporários do jogador 1 do jogo em forma extensiva, enquanto o jogador { B, C } é o único agente temporário do jogador 2. O jogador possui três ações disponíveis A, B e C, o jogador { B, C } possui duas ações disponíveis D e E, o jogador B, E, possui duas ações disponíveis F e G, e finalmente o jogador C, E possui também duas ações disponíveis H e I. Se escolhe B, { B, C } escolhe E, B, E, escolhe F, e B,E, escolhe I, temos que todos os agentes temporários tem utilidade esperada igual a 2.

Equilíbrio de Nash Assim como no caso de jogos em forma extensiva com informação perfeita, podemos definir três tipos de Equilíbrio de Nash, um para cada tipo de perfil de estratégias: Definição 6.9 Dado um jogo em forma extensa com informação imperfeita Γ = (N, M,H,P, f c,{i i : i N},{v i : i N}), um perfil de estratégias s é um equilíbrio de Nash em estratégias puras de Γ se, e somente se, u i (s) = z Z Pr s(z)v i (z) u i (s i,d i ) = z Z Pr (s i,d i )(z)v i (z) para todo jogador i e toda estratégia d i C i.

Equilíbrio de Nash Definição 6.10 Dado um jogo em forma extensa com informação imperfeita Γ = (N, M,H,P, f c,{i i : i N},{v i : i N}), um perfil de estratégias δ é um equilíbrio de Nash em estratégias mistas de Γ se, e somente se, u i (δ) = s C u i (δ i,β i ) = s C δ(s) z Z Pr s(z)v i (z) δ i (s i )β i (s i ) z Z Pr s(z)v i (z) para todo jogador i e toda estratégia mista β i (C i ).

Equilíbrio de Nash Definição 6.11 Dado um jogo em forma extensa com informação imperfeita Γ = (N, M,H,P, f c,{i i : i N},{v i : i N}), um perfil de estratégias σ é um equilíbrio de Nash em estratégias comportamentais de Γ se, e somente se, u i (σ) = z Z Pr σ(z)v i (z) u i (σ i,τ i ) = z Z Pr (σ i,τ i )(z)v i (z) para todo jogador i e toda estratégia comportamental τ i h Hi (M h ).

Equilíbrio de Subjogo Perfeito Pode-se definir equilíbrio de subjogo perfeito de maneira análoga para jogos com informação imperfeita. A única diferença é na definição do que é um subjogo G de um jogo com informação imperfeita. Neste caso, temos que a definição é idêntica, somente com a restrição que se I H G, então I H = I H G, isto é todos os conjuntos de informação do subjogo devem ser idênticos aos conjuntos de informação do jogo original. Isto, por exemplo, implica que a história raiz de qualquer subjogo deve pertencer a um conjunto de informação que contém apenas uma única história no jogo original.

Equilíbrio Sequencial Para jogos extensivos com informação imperfeita, existe ainda um outro refinamento que evita alguns equilíbrios de Nash que não são intuitivos conhecido como equilíbrio seqüencial. Equilíbrio sequencial é definido com respeito a uma avaliação, um par ( σ,µ) onde σ é um perfil de estratégias comportamentais e µ é um sistema de crenças, isto é, uma função que determina para cada conjunto de informação I uma probabilidade µ I sobre as histórias em I. Intuitivamente, se I é um conjunto de informação para o jogador i, µ I é a avaliação subjetiva de i da verossimilhança relativa das histórias em I. Informalmente, uma avaliação é um equilíbrio sequencial se para todos os jogadores i, em todos os i-conjuntos de informação, (a) i escolhe uma melhor resposta dada as crenças que ele tem sobre as histórias neste conjunto de informação e as estratégias dos outros jogadores, e (b) as crenças de i são consistentes com o perfil de estratégias sendo jogado, no sentido que elas são calculadas condicionando a distribuição de probabilidade induzida pelo perfil de estratégia sobre as histórias no dado conjunto de informação.

Equilíbrio Sequencial Note que µ I é definido mesmo se I é atingido com probabilidade 0 de acordo com algum perfil de estratégia σ. Definir consistência em um conjunto de informação que é atingido com probabilidade 0 é um pouco sutil. Neste caso, intuitivamente, quando o conjunto de informação I é atingido o jogador i que se move em I deve acreditar que o jogo está sendo jogado de acordo com um perfil de estratégias alternativo. Em um equilíbrio sequencial, este perfil de estratégias alternativo consiste de uma pequena perturbação da avaliação original onde todas as ações são escolhidas com probabilidade positiva. Dado um perfil de estratégias σ, seja Pr σ a distribuição de probabilidade induzida por σ sobre as possíveis histórias jogo como definido anteriormente. Intuitivamente, Pr σ (h) é o produto das probabilidades de cada uma das ações que levam a h. Por simplicidade, assumimos que f c > 0, de forma que se σ é tal que todo jogador escolhe todas as suas ações com probabilidade positiva, então para toda história h, Pr σ (h) > 0. Para qualquer história h do jogo, defina Pr σ ( h) como a distribuição de probabilidade condicional induzida por σ sobre as possíveis histórias do jogo dado que a história atual é h. Intuitivamente, Pr σ (h h) é igual a 0 se h não for um prefixo de h, é igual a 1 se h = h, e é o produto da probabilidade de cada uma das ações no caminho que leva h à h se h for um prefixo de h.

Equilíbrio Sequencial Formalmente, uma avaliação ( σ,µ) é um equilíbrio sequencial se ela satisfaz as seguintes condições: Racionalidade sequencial. Para todo jogador i, conjunto de informação I I i, e toda estratégia comportamental τ para o jogador i, EU i (( σ,µ) I) EU i ((( σ i,τ),µ) I), onde EU i (( σ,µ) I) = h I z Z µ I(h)Pr σ (z h)u i (z).

Equilíbrio Sequencial Consistência entre o sistema de crenças e o perfil de estratégias. Se σ consiste de estratégias comportamentais que dão probabilidade positiva a todas as ações em todos os conjuntos de informações, então para todo conjunto de informação I e história h em I, µ I (h) = Pr σ (h) h I Pr σ(h ). Caso contrário, existe uma sequência ( σ n,µ n ), n = 1,2, 3,..., de avaliações tal que σ n é um perfil de estratégias que dá probabilidade positiva a todas as ações em todos os conjuntos de informação, ( σ n,µ n ) é consistente no sentido do parágrafo anterior, e lim n ( σ n,µ n ) = ( σ,µ).

Equilíbrio Sequencial versus Equilíbrio de Nash Podemos agora enunciar dois importantes teoremas que justificam que esta é uma noção razoável de equilíbrio. Teorema 6.12 Se (σ,µ) for um equilíbrio sequencial de um jogo em forma extensiva com memória perfeita, então σ é um equilíbrio de Nash em estratégias comportamentais do jogo.

Prova Suponha, por absurdo, que (σ,µ) é um equilíbrio sequencial, mas σ não é um equilíbrio de Nash. Então existe i N e τ i uma estratégia comportamental para o jogador i tal que u i (σ) = z Z Pr σ(z)v i (z) < u i (σ i,τ i ) = z Z Pr (σ i,τ i )(z)v i (z). Escolha uma estratégia τ i tal que u i (σ) < u i (σ i,τ i ) e {I I i : τ i (I) σ i (I)} {I I i : ϕ i (I) σ i (I)} para toda estratégia comportamental ϕ i tal que u i (σ) < u i (σ i,ϕ i ). Seja I um conjunto de informação para o jogador i tal que τ i (I ) σ i (I ) e para todo conjunto de informação I I i tal que I contém somente histórias que possuem prefixos em I, τ i (I ) = σ i (I ), ou seja, τ i e σ i coincidem nas histórias que se seguem ao conjunto de informação I. Defina agora τi (I) = τ i (I), I I, e τi (I ) = σ i (I ). Iremos provar que u i (σ) < u i (σ i,τi ), e como {I I i : τ i (I) σ i (I)} > {I I i : τi (I) σ i (I)}, temos uma contradição.

Prova Denotaremos por (σ i.i,τ i (I)) o perfil de estratégias comportamentais que é igual a σ exceto na ação do jogador i no conjunto de informação I; neste conjunto de informação I a ação de i coincide com a ação escolhida por i em I de acordo com a estratégia τ i. Seja ainda Z(I) o conjunto de histórias terminais que tem uma história em I como prefixo. Como σ i, τ i, e τi coincidem em todas as histórias que se seguem ao conjunto de informação I, temos que EU i ((σ i,τi ) h) = EU i ((σ i.i,τi (I )) h), h I. Além disso, como τ i e τi diferem apenas na ação escolhida em I, temos que )(h) = Pr (σ i,τ i )(h) para todo h I (Z Z(I )). Portanto, Pr (σ i,τ i u i (σ i,τi ) = Pr (σ i,τ )(h)eu i ((σ i,τi ) h)+ i h I = h I Pr (σ i,τ i )(h)eu i ((σ i.i,τ i (I )) h)+ z (Z Z(I )) z (Z Z(I )) Pr (σ i,τ i Pr (σ i,τ i )(z)v i (z) )(z)v i (z)

Prova Consideremos agora dois casos. Primeiro, se h I Pr (σ i,τ i )(h) = 0, neste caso temos então que u i (σ i,τi ) = u i (σ i,τ i ) > u i (σ). Segundo, suponha que h I Pr (σ i,τ i )(h) > 0. Como temos um jogo com memória perfeita, para qualquer estratégia ρ, temos que para qualquer h I, onde I I i, Pr ρ(h) h I Prρ(h) não depende da estratégia ρ i do jogador i, pois ρ i contribui com o mesmo fator multiplicativo para Pr ρ(h) qualquer que seja h I. Então, como (σ,µ) é um equilíbrio sequencial: µ(i)(h) = Pr σ(h) h I Prσ(h) = Pr (σ i,τi)(h) h I Pr, h I. (σ i,τ i )(h)

Prova Logo, u i (σ i,τ i ) = ( h I Pr (σ i,τ i )(h))( h I µ(i )(h)eu i ((σ i.i,τ i (I )) h)) + z (Z Z(I )) Pr (σ i,τ i )(h)v i (z) Como τi (I ) = σ i (I ) e σ i é sequencialmente racional no conjunto de informação I, temos que µ(i )(h)eu i (σ i.i,τi (I ) h) µ(i )(h)eu i (σ i.i,τ i (I ) h) h I h I = h I µ(i )(h)eu i (σ i,τ i h).

Prova Portanto, u i (σ i,τ i ) = ( h I Pr (σ i,τ i )(h))( h I µ(i )(h)eu i ((σ i.i,τ i (I )) h)) + z (Z Z(I )) Pr (σ i,τ i )(h)v i (z) ( h I Pr (σ i,τ i )(h))( h I µ(i )(h)eu i ((σ i,τ i ) h)) + z (Z Z(I )) = u i (σ i,τ i ) > u i (σ), como queríamos demonstrar. Pr (σ i,τ i )(h)v i (z)

Existência do Equilíbrio Sequencial Teorema 6.13 Para todo jogo finito em forma extensiva com memória perfeita, o conjunto de avaliações que são equilíbrio sequencial é não vazio. Prova: Veremos adiante.

Exemplo Considere mais uma vez o jogo a seguir: Figura: Jogo em Forma Extensiva com Informação Imperfeita.

Exemplo Neste caso, em todos os equilíbrios sequenciais temos que o jogador 1 escolhe ação F com probabilidade 1 após a história B,E, escolhe ação H com probabilidade 1 após a história C,E, jogador 2 escolhe ação D com probabilidade 1 no conjunto de informação { B, C }, e o jogador 1 escolhe ação B com probabilidade 0 no início do jogo. Nos equilíbrios sequenciais em que o jogador 1 escolhe ação C com probabilidade positivo temos que o sistema de crenças deve dá probabilidade 1 a história C. No caso em que o jogador 1 escolhe A com probabilidade 1, qualquer sistema de crenças é consistente.