An experiment on the role of cognition power on the evolution of cooperation in n-players Prisoner s Dilemma

An experiment on the role of cognition power on the evolution of cooperation in n-players Prisoner s Dilemma Inácio Guerberoff Lanari Bó Jaime Simão Sichman Resumo This work presents the results of experiments made with a spacial evolutionary model of agents playing the n-players Prisoner s Dilemma, using two different ways to represent the agent s strategies: finite automata and adaptive automata. Since adaptive automata can represent complex strategies that cannot be represented on finite automata, comparative analysis of the co-evolution of strategies using both representations may be seen as a way to analize the role of the complexity of the strategies on the individual and global results of the agents. Here are presented the differences observed on the total utility obtained by the agents, the speed in which they converge (or not) to a nearly-stationary state, and the characteristics of the prevailing strategies. 1 Introdução O Prisoner s Dilema é amplamente utilizado como paradigma para o estudo do surgimento e evolução da cooperação em uma sociedade de agentes. Em sua versão iterada com dois participantes, cada um opta simultaneamente em cada rodada por uma entre duas opções: cooperar ( C ) ou não-cooperar ( D ). Os jogadores obtêm uma utilidade R caso ambos joguem C, e P caso ambos joguem D. Por outro lado, caso um jogador jogue C e outro D, o jogador que cooperou recebe S e o que não cooperou recebe T, onde T > R > P > S e R > 1/2(T + S). Isso significa que há um grande estímulo para a não-cooperação (a perspectiva do ganho de T ), porém o resultado Laboratório de Técnicas Inteligentes - PCS - Escola Politécnica - USP Laboratório de Técnicas Inteligentes - PCS - Escola Politécnica - USP 1

global é maior quando ambos cooperam (pois 2R > T + S), e de fato o único equilíbrio de Nash para o jogo é aquele onde ambos os participantes jogam D. Se o jogo for repetido indefinidamente, entretanto, surge a possibilidade de os agentes estabelecerem mecanismos que sustentem uma cooperação mútua entre eles, pois o não-conhecimento do número de interações que ocorrerão entre os agentes torna vantajosa a cooperação mútua. É fundamental, entretanto, que as estratégias dos jogadores tenham como responder a free-riders, através de algum mecanismo de punição. Desde o experimento de competição de estratégias para o Iterated Prisoner s Dilema feito por Axelrod [? ], diversos trabalhos têm sido feitos partindo do mesmo princípio - agentes com estratégias heterogêneas jogando entre si em um ambiente evolutivo - para analisar diferentes configurações de jogos, tipos de estratégias e outras variáveis. Delahaye e Mathieu[? ] realizaram uma competição análoga à de Axelrod em uma versão modificada do Dilema do Prisioneiro, onde os agentes poderiam recusar-se a jogar com o oponente, e foi verificado que estratégias com alto grau de complexidade apresentam bons resultados no longo-prazo.killingback et al [? ] utilizaram uma versão contínua do dilema onde agentes distribuídos espacialmente efetuavam apenas interações locais, e verificaram que essa restrição pode levar à formação de clusters cooperativos, aumentando a proporção de agentes cooperativos. Outros trabalhos não partem de um leque pré-estabelecido de estratégias, mas através de mecanismos genéticos e evolutivos estudam o surgimento e evolução das mesmas. Lindgren & Nordahl [? ] utilizam algoritmos genéticos e estratégias com memória variável em um modelo espacial onde os agentes jogam o Prisoner s Dilema dois a dois. Eriksson & Lindgren [? ] utilizam autômatos finitos para representar a estratégia de agentes onde as matrizes de ganho podem ser alteradas aleatoriamente. 1.1 n-player Prisoner s Dilema A generalização do Prisoner s Dilema para mais de dois jogadores (n-player Prisoner s Dilema, ou NPPD) apresenta situações mais complexas e novos desafios para os agentes participantes. Formalmente, no NPPD a utilidade obtida por um agente depende de sua jogada ( C ou D ) e da quantidade de outros agenetes que cooperou nessa mesma rodada. Chamando de V (C i) a utilidade obtida por um jogador que jogou C onde i outros agentes cooperaram, e V (D i) a utilidade obtida pelo jogador que jogou D nessa situação, as seguintes condições definem o NPPD: V (D i) > V (D i 1) (1) 2

V (C i) > V (C i 1) (2) V (D i) > V (C i) (3) (i + 1)V (C i + 1) + (n i 1)V (D i + 1) > iv (C i) + (n i)v (D i) (4) As inequações 1 e 2 refletem o fato de que, independentemente da jogada feita pelo agente, sua pontuação será maior quanto maior for o número de agentes que cooperarem. A inequação 3 diz que, para um mesmo número de cooperadores, jogar defeat produz individualmente um resultado maior que cooperate. Por fim, a inequação 4 exige que, em um grupo com n participantes, caso um jogador passe de D para C (portanto, passe a cooperar), a pontuação total do grupo aumenta. Em [? ] são apresentadas as seguintes equações para V, que obedecem às restrições da definição do NPPD: V (C n C ) = n C n 1 (5) V (D n C ) = T.n C n 1 + P (n n C 1) n 1 As constantes T e P refletem, respectivamente, a vantagem por não-cooperar (temptation score) e a punição pela não-cooperação mútua. Assume-se, portanto, 1 < T < 2 e 0 < P < 1. Por fim, n C é o número total de agentes que cooperam. Glance & Huberman [? ] mostram que jogos do tipo NPPD possuem algumas características adicionais que tornam estratégias baseadas na reciprocidade - como a tit-for-tat[? ] - ineficazes. Isso ocorre porque não há a possibilidade de, através do próprio jogo, penalizar um agente sem afetar os outros participantes. Apesar disso, os autores mostram que há dois equilíbrios suficientemente estáveis para populações jogando o NPPD: um com poucos agentes cooperando e outro com muitos. O estudo da estabilidade desses equilíbrios mostram, também, que quando ocorrem transições entre esses equilíbrios, a mudança se dá de forma rápida. O papel do aumento do número de jogadores e do tamanho da memória utilizada na estratégia dos agentes (ou seja, quantos resultados de jogadas anteriores são considerados para decidir-se a próxima jogada a ser feita) é analisado em Hauert & Schuster[? ], através de diversas simulações utilizando-se 2, 3 e 4 participantes em cada jogo e diferentes tamanhos de memória. Eles observam que o crescimento no número de participantes dificulta o estabelecimento da cooperação, entretanto em relação ao tamanho (6) 3

da memóriaa relação é inversa: é necessário um tamanho mínimo para que a cooperação possa ser estabelecida e mantida. Por fim, Lindgren & Johansson[? ] desenvolvem um modelo onde agentes distribuídos espacialmente participam de NPPDs com cinco participantes. As estratégias dos agentes são representadas por autômatos finitos, e novas estratégias surgem através de mutações ocorridas durante a fase de herança do modelo evolutivo. Este trabalho apresenta uma contribuição ao estudo da evolução da cooperação, partindo do modelo proposto em [? ], e introduzindo o uso de autômatos adaptativos para representação de estratégias dos agentes. Devido à sua capacidade de representar estratégias mais complexas, a análise comparativa da evolução de ambos modelos podem ajudar a entender melhor o papel da complexidade das estratégias nessas situações. 2 O Modelo 2.1 Ambiente evolutivo A característica mais importante do ambiente que criado para as simulações é o fato de tratar-se de um ambiente evolutivo. Isso significa que os componentes da simulação (os agentes) nascem, se reproduzem e morrem ao longo do tempo. Se adicionarmos a isso o fato de a probabilidade de reprodução ser resultante de alguma característica desejada (como desempenho em alguma tarefa, por exemplo) e a possibilidade de ocorrência de mutação nas características do agente em sua reprodução, temos como resultado um sistema que reproduz, em essência, o mecanismo de seleção natural. Ainda, o ambiente utilizado neste trabalho possui distribuição geográfica, limitando as interações entre os agentes por suas vizinhanças. Isso significa que cada agente pode interagir apenas com os outros agentes considerados vizinhos. Quando o ambiente de simulação não possui esta restrição, em geral um agente pode interagir com todos os agentes disponíveis, o que pode alterar a dinâmica do sistema, e também seus resultados de equilíbrio [? ]. O espaço geográfico deste ambiente é representado por um reticulado de tamanho arbitrário, cuja projeção bidimensional pode ser vista na figura 1. Nele, cada quadrado é ocupado por um agente (se a projeção bidimensional tiver 50 células por coluna e 50 células por linha, por exemplo, haverá 2500 agentes). Cada agente possui vizinhos, seguindo-se um critério de vizinhança. Aqui utilizaremos a vizinhança de Von Neumann de grau 2, que considera vizinhas as quatro células imediatamente ligadas aos lados da célula em questão (assim como na figura 1). As células nos limites do reticulado 4

Figura 1: Reticulado possuem vizinhança com as do lado oposto. A figura 2 mostra dois exemplos deste caso. Considerando-se essa vizinhança nos limites, o espaço de simulação pode ser melhor entendido como um toro (figura 2), que devido à sua superfície contínua, possui vizinhança para qualquer célula. Temos, portanto, que cada agente interage em cada jogada com quatro vizinhos, configurando NPPDs de 5 participantes. Se definirmos o reticulado como sendo de tamanho mxn, por exemplo, serão m.n jogos com 5 participantes a cada geração. Como cada jogo será repetido, entre os mesmos participantes, n rep vezes, serão executadas m.n.n rep jogadas por geração. Como as estratégias não são alteradas dentro de uma Figura 2: Vizinhança no limite e toro 5

Figura 3: Vizinhança extendida mesma geração, a ordem de escolha dos agentes que irão efetuar as jogadas é irrelevante. Em outras palavras, a escolha do próximo agente a interagir com seus vizinhos durante a simulação pode ser seqüencial ou aleatória. Após todos os agentes terem jogado com seus vizinhos em uma geração, cada um terá participado de 5n rep jogos, pois participa tanto dos jogos em que ele está no centro da vizinhança quanto nos jogos em que seus quatro vizinhos estão no centro da vizinhança. Isso significa que, embora possua apenas quatro vizinhos, a cada geração um agente participa de jogos com 12 outros agentes, sempre, porém, em grupos de 5 (a figura 3 mostra o jogador em questão em cinza escuro, os quatro vizinhos com os quais participa em todos os 5n rep jogos com hachuras horizontais, e os oito jogadores com os quais participa indiretamente através dos jogos de seus vizinhos com hachuras verticais). Ao fim de cada geração (quando todos os agentes completaram sua série de jogadas), cada agente acumulou uma pontuação, resultante da soma de todos os resultados individuais de suas 5n rep jogadas. Essa pontuação reflete o desempenho que o agente obteve jogando através de sua estratégia. Em outras palavras, ela indica a adequação da estratégia em proporcionar bons resultados para ele, e será o critério utilizado para decidir a reprodução de estratégias. Dessa forma, ao fim de uma geração cada agente compara a sua pontuação obtida com a de seus quatro vizinhos. Caso a sua pontuação tenha sido maior ou igual a todas as obtidas por esses agentes, ele permanece com a mesma estratégia. Caso contrário, ele copiará (herdará) a estratégia do agente, na mesma vizinhança, que obteve a maior pontuação. Caso haja mais de um com a mesma 6

pontuação, a escolha será aleatória entre eles. Essa operação deve ser feita em paralelo para todos os agentes ao fim de cada geração (de forma que uma herança ocorrida não seja propagada na mesma geração). Durante a herança pode ocorrer uma mutação na estratégia com probabilidade P m 1. Se a herança ocorresse sem mutação, teríamos que um agente A, que possuía a estratégia E a herdaria a estratégia E b de um agente B. Ao fim desse processo, A passaria a ter a estratégia E b e B permaneceria com a estratégia E b. Entretanto, caso ocorra uma mutação neste processo, B permanecerá com a estratégia E b mas A receberá uma estratégia E b E b. As mutações são pequenas alterações na estrutura que representa a estratégia, como a adição ou remoção de uma transição ou estado. 2.2 Representação de estratégias 2.2.1 Autômatos Finitos A estratégia de um agente deve dizer qual é a jogada que ele deve efetuar em cada momento. Elas podem ser desde estratégias extremamente simples (como sempre jogar C ) até outras mais complexas (como estratégias que se baseiam no histórico de jogadas). Neste modelo as estratégias dos agentes são representadas por autômatos finitos. Autômatos são estruturas compostas basicamente por três componentes: Um conjunto de estados Uma função de transições Um estado inicial A figura 4 mostra uma estratégia para o NPPD com 5 participantes. Ela possui três estados: D1, C1 e D2. Os arcos representam as transições, e os números associados aos arcos representam a entrada que desencadeia a passagem pela transição. Aqui, a entrada é o número de outros jogadores que cooperaram. O estado inicial é aquele que possui uma seta vazia em sua direção (neste caso, é D1). A cada instante, o estado corrente define qual será a jogada a ser feita: C para cooperate e D para defeat (não cooperar). Os números associados às letras dos estados servem apenas para diferenciálos. Seguindo esta estratégia, a seguinte seqüência de jogadas mostra como ela é utilizada: 1 Onde P m é a mesma para todos os agentes 7

Figura 4: Estratégia por autômato finito 1. A primeira iteração é feita, e a primeira jogada do agente é Defeat (pois seu estado inicial é D1) 2. Nesta iteração, nenhum dos outros quatro participantes jogou Cooperate 3. A transição 0 leva de D1 para C1, e o estado corrente passa a ser C1 4. O agente joga Cooperate (pois seu estado corrente é C1) 5. Nessa iteração, dois dos outros agentes joga Cooperate e dois jogam Defeat 6. A transição 2 leva de C1 para o próprio C1, portanto o estado corrente permanece C1 7. Na próxima iteração, o agente jogará Cooperate Cada agente possui sua própria estratégia, e joga de acordo com ela. Estratégias representadas por autômatos finitos dessa forma possibilitam uma vasta gama de variedades, porém possuem limitações. Autômatos finitos são capazes de reconhecer apenas linguagens regulares na hierarquia de Chomsky??. Isso significa que eles conseguem ter a garantia de chegar a um determinado estado apenas para uma determinada classe de seqüencias. Em termos de estratégias para o NPPD, comportamentos como aprendizado e reconhecimento de padrões não podem ser representados através deles. 8

Figura 5: Autômato adaptativo antes e após a execução da função adaptativa 2.2.2 Autômatos Adaptativos Autômatos adaptativos [? ] são uma classe de autômatos que possuem a capacidade de alterar sua própria estrutura, de acordo com as entradas que recebe. Essas alterações são executadas através de funções adaptativas, associadas a algumas transições do autômato. Essas funções podem adicionar ou remover estados e transições ao autômato enquanto ele é utilizado. Pode ser provado?? que autômatos adaptativos possuem poder computacional equivalente a uma Máquina de Turing, o que significa que, se utilizados para representação de estratégias, podem apresentar comportamentos mais complexos que os autômatos finitos. Ainda, a classe autômatos adaptativos inclui a de autômatos finitos, pois ao retirarse as funções adaptativas deles, obtemos um autômato finito. Essa é uma característica importante, que possibilita o seu uso de forma natural onde os autômatos finitos são utilizados. Neste trabalho, as funções adaptativas são sempre compostas por até três ações de inserção ou remoção. A figura 5 mostra um exemplo. Do lado esquerdo é apresentado um autômato adaptativo, que possui na transição 0 que vai de C1 a D1 uma função adaptativa composta por uma ação de inserção. Ações de inserção são representadas pela letra I e de remoção pela letra R os parâmetros são o estado de origem, o rótulo da transição e o estado de destino). Caso o estado corrente seja C1 e o autômato recebe a entrada 1, é executada essa ação, que insere uma transição de D1 para C1 para o evento 4. Portanto, embora no autômato inicial não haja forma de voltar ao estado C1 estando em D1, após ocorrer a transição de C1 para D1, essa possibilidade é criada. Além de referenciarem estados existentes, as ações adaptativas podem ter como parâmetro novos estados. A ação I(D1,3,C ref), por exemplo, insere uma transição de rótulo 3 que vai do estado D1 para um novo estado do tipo C. Assim, além de criar novas transições entre estados existentes, funções adaptativas podem criar novos estados. Pode-se provar que, com essa especificação, é possível construir-se estratégias que não podem ser representadas por autômatos finitos. 9

2.2.3 Mutações Como descrito na seção 2.1, novas estratégias surgem ao longo do tempo através de mutações, que ocorrem durante a herança ao fim de uma geração. As mutações podem ser dos seguintes tipos: 1. Alterar o estado inicial do autômato 2. Alterar o destino de uma transição existente 3. Mudar o tipo de um estado (Ex: de C para D) 4. Adicionar um novo estado, ligado a um outro já existente 5. Associar uma função adaptativa a uma transição existente As mutações 1,2,3 e 4 estão presentes em [? ], e são suficientes para possibilitar o surgimento de qualquer autômato finito. A mutação 5, por outro lado, é a responsável pelo surgimento de estratégias mais complexas. As funções adaptativas utilizadas nessa mutação são geradas de forma aleatória, podendo conter 1, 2 ou 3 ações de inserção ou remoção. 3 Descrição dos experimentos De forma a analisar o impacto da utilização dessa nova técnica para a representação de estratégias na evolução da cooperação, foram efetuados dois experimentos: um onde a mutação 5 (que associa funções adaptativas às transições) é permitida e outra onde ela não é. Conseqüentemente, obtém-se no último caso estratégias equivalentes às utilizadas em [? ] e no anterior, estratégias baseadas em autômatos adaptativos. O tamanho do reticulado utilizado foi de 50x50, totalizando 2.500 agentes, que iniciam a simulação com a mesma estratégia, composta de apenas um estado do tipo D (ou seja, que nunca cooperam). Cada simulação foi composta por 2.700 gerações, e, de forma a explorar as características de longo-prazo das estratégias, cada jogo em uma geração é composto por 150 rodadas. Ao final de cada geração, o estado do autômato é retornado à sua situação inicial (equivalente, em um autômato finito a retornar ao estado inicial e, no autômato adaptativo, à estrutura anterior às alterações causadas por funções adaptativas). De forma a adicionar algum ruído aos resultados dos jogos, em 1% das jogadas a jogada efetuada pelos agentes será a oposta daquela definida por sua estratégia. 10

Com funções adaptativas Sem funções adaptativas Utilidade média por geração 413313 409464 Média de jogadas C por geração 1612881 (86%) 1597642 (85%) Média de jogadas D por geração 262051 (14%) 277357 (15%) Número de gerações até jogadas C prevalecerem 128 157 Número de estratégias distintas na última geração 110 113 Tabela 1: Resultados das simulações Ainda, a utilidade obtida pelo agente é descontada por um custo de complexidade, proporcional ao número de estados que compõem a estratégia. Com isso, estratégias com um maior número de estados com resultados equivalentes àquelas com menos estados terão menor probabilidade de serem reproduzidas. Por fim, os valores de T e P da equação 6 foram definidos como 1.5 e 0.25, respectivamente, e a pobabilidade de mutação P m é definida em 2.5%. 4 Resultados obtidos 4.1 Dados agregados A tabela 1 mostra os resultados agregados obtidos pelas duas simulações. Pode-se observar que, em ambos os casos, houve rápida convergência para uma situação de ampla cooperação entre os agentes, apesar do estímulo a um comportamento individualista e não-cooperador por parte dos agentes na definição do jogo. A presença de cerca de 15% de jogadas não-cooperativas, assim como a co-existência de diversas estratégias distintas ao longo e ao fim da simulação, entretanto, mostra que embora o número de jogadas cooperativas ou mesmo a utilidade obtida por todos os agentes tenha relativamente pouca oscilação a partir do momento em que as jogadas cooperativas prevalecem (como mostram as figuras?? e??), a população de estratégias se mantém constantemente heterogênea e dinâmica. A figura?? mostra a população de estratégias ao longo do tempo para a simulação sem funções adaptativas. Cada linha representa uma estratégia diferente, e o eixo vertical indica quantos agentes possuem essa estratégia ao longo das gerações. Nela podemos observar, assim como ocorre para a outra simulação, que após um breve 11

período marcado pela queda da população da estratégia inicial dos agentes, a população de estratégias passa a ser continuamente hererogênea até o fim das 2700 gerações. Figura 6: Global utility Figura 7: Agent plays 4.2 Análise das estratégias Analisando as estratégias que os agentes utilizam ao longo do tempo, foi observado que a prevalência de jogadas cooperativas ocorre 12

Figura 8: População de estratégias - Simulação sem funções adaptativas 13

5 Conclusões e trabalhos futuros Referências [] R. Axelrod. The evolution of cooperation. HarperCollins, 1997. [] J.P. Delahaye and P. Mathieu. Complex Strategies in the Iterated PrisonerŠs Dilemma. Chaos & Society, 94, 1994. [] A. Eriksson and K. Lindgren. Cooperation driven by mutations in multi-person Prisoner s Dilemma. Journal of theoretical biology, 232(3):399 409, 2005. [] NS Glance and BA Huberman. The Dynamics of Social Dilemmas. Scientific American, 270(3):76 81, 1994. [] C. Hauert and HG Schuster. Extending the Iterated Prisoner s Dilemma without Synchrony. Journal of Theoretical Biology, 192(2):155 166, 1998. [] M. Ifti, T. Killingback, and M. Doebeli. Effects of neighbourhood size and connectivity on spatial Continuous Prisoner s Dilemma. Arxiv preprint q-bio.pe/0405018, 2004. [] K. Lindgren and J. Johansson. Coevolution of strategies in n-person prisoneršs dilemma. Evolutionary Dynamics-Exploring the Interplay of Selection, Neutrality, Accident, and Function. Reading, MA: Addison-Wesley, 2001. [] K. Lindgren and M.G. Nordahl. Evolutionary dynamics of spatial games. Proceedings of the Oji international seminar on Complex systems: from complex dynamical systems to sciences of artificial reality: from complex dynamical systems to sciences of artificial reality table of contents, pages 292 309, 1994. [] JJ Neto. Adaptative rule-driven devices-general formulation anda case study. CIAAŠ2001 Sixth International Conference on Implementation and Application of Automata, pages 234 250, 2001. 14