Resumo An Introduction To Multiagent Systems - Wooldridge Capítulo 6 Multiagent Interactions Disciplina de Sistemas Multi-agentes

Transcrição

1 Introdução Resumo An Introduction To Multiagent Systems - Wooldridge Capítulo 6 Multiagent Interactions Disciplina de Sistemas Multi-agentes Manoel Campos da Silva Filho Neste capítulo focaremos em como construir não mais um único agente, e sim uma sociedade de agentes. A figura 6.1 mostra a estrutura típica de um sistema multi agente. O sistema contém um número de agentes, que interagem um com o outro através de comunicação. Os agentes são capazes de agir no ambiente; diferentes agentes tem diferentes esferas de influência, no sentido de que eles tem controle sobre - ou pelo menos são capazes de influenciar diferentes partes do ambiente. Estas esferas de influência podem coincidir em alguns casos. Isto pode fazer surgir um relacionamento de dependência entre os agentes. Por exemplo, dois agentes robôs podem ser capazes de se mover através de uma porta, mas eles não podem fazer isso ao mesmo tempo. Agentes são também tipicamente ligados por outros relacionamentos como relacionamentos de poder, onde um agente é o chefe do outro. 1 de 9

2 Utilidades e Preferências Consideremos, para simplificação, um cenário com 2 agentes chamados i e j. É assumido que cada agente está auto-interessado, ou seja, cada agente tem suas próprias preferências e desejos sobre como o mundo deve ser. Iremos assumir que existe um conjunto Ω = {ω 1, ω 2, } de resultados ou estados que o agente tem preferência. Pense nisso como resultado de um jogo que dois agentes estão jogando. Nós formalmente capturamos as preferências que os dois agentes tem, por meio de funções de utilidade, uma para cada agente, que atribui a cada resultado, um número real, indicando quão bom o resultado é para o agente. Quanto maior o valor, melhor é o resultado. Assim, as preferências dos agentes i e j são capturadas por funções u i : Ω R u j : Ω R A função de utilidade guia para a ordenação de preferências dos resultados. Por exemplo, se ω e ω' são possíveis resultados em Ω, e u i (ω) >= u j (ω'), então, o resultado ω é preferido pelo agente i, ou pelo menos tanto quanto ω'. Isto pode ser representado resumidamente como ω >= i ω' A relação >= i é realmente uma ordenação sobre os elementos do conjunto Ω, tendo as seguintes propriedades: Reflexividade: para todo ω Ω, temos que ω >= i ω Transitividade: se ω >= i ω', e ω' >= i ω'', então ω >= i ω'' Comparatividade: para todo ω Ω e ω' Ω nós temos que tanto ω >= i ω' ou ω' >= i ω A estrita relação de preferência satisfará a 2a. e 3a. propriedades, mas claramente não será reflexiva. O que é utilidade Indubitavelmente, a forma mais simples de pensar sobre utilidade é como dinheiro; quanto mais dinheiro, melhor. Funções de utilidade são apenas uma forma de representar as preferências do agente, o que não é simplesmente igualado a dinheiro. Vamos supor que eu tenha R$ 500 milhões, enquanto você é absolutamente pobre. Se eu ganhar na loteria, qual será o incremento em minha utilidade? Bem, eu tenho mais dinheiro, então existirá claramente algum incremento na utilidade de minha situação. Mas não haverá muito: não há muito mais que eu possa fazer com R$ 501 milhões que eu não poderia com R$ 500 milhões. Em contraste, se você ganhar na loteria, o aumento em sua utilidade será enorme; você irá de completamente pobre a milionário. Encontros de Multi agentes Vamos introduzir agora um modelo de ambiente em que os agentes irão atuar. Os agentes podem simultaneamente escolher uma ação para realizar no ambiente, o que resulta em um estado do conjunto Ω. Este resultado dependerá da combinação de ações realizadas pelos agentes. Assumiremos que os agentes não tem escolha em se realizar uma ação, eles tem que realizar alguma. Além do mais, é assumido que um agente não pode ver a ação realizada por outro. Para simplificar, vamos assumir que cada agente tem apenas 2 ações que ele pode realizar, sendo C Cooperação e D Defesa, sendo Ac = {C, D} o conjunto destas ações. A forma que o ambiente se 2 de 9

3 comporta é determinada pela função τ: Ac x Ac Ω (ações do agente i) (ações do agente j) Isto é essencialmente uma função de transformação de estado, como discutido no capítulo 2. Isto significa que, de acordo com as ações executadas pelos dois agentes, um estado resultará. Aqui temos um exemplo de uma função de ambiente: τ(d, D) = ω 1, τ(d, C) = ω 2, τ(c, D) = ω 3, τ(c, C) = ω 4 (6.1) Este ambiente mapeia cada combinação de ações para um diferente estado resultante. Logo, ele é sensível às ações que cada agente executa. No outro extremo, podemos considerar um ambiente que mapeia cada combinação de ações para o mesmo estado resultante: τ(d, D) = ω 1, τ(d, C) = ω 1, τ(c, D) = ω 1, τ(c, C) = ω 1 (6.2) Neste ambiente, não importa o que os agentes façam: o resultado sempre será o mesmo. Nenhum agente tem qualquer influência em tal cenário. Podemos também considerar um ambiente que é sensível às ações realizadas por apenas um dos agentes: τ(d, D) = ω 1, τ(d, C) = ω 2, τ(c, D) = ω 1, τ(c, C) = ω 2 (6.3) Neste ambiente, não importa o que o agente i faça: o resultado depende somente das ações executadas pelo agente j. Se j escolhe defender, então o estado resultante será ω 1, se resolve cooperar, o estado será ω 2. O interessante é quando colocamos um ambiente junto com as preferências dos agentes. Suponha que temos um caso mais geral como descrito em (6.1), onde cada agente exerce alguma influência sobre o ambiente. Vamos supor que os agentes tem funções de utilidade definidas como segue: u i (ω 1 ) = 1, u i (ω 2 ) = 1, u i (ω 3 ) = 4, u i (ω 4 ) = 4 u j (ω 1 ) = 1, u j (ω 2 ) = 4, u j (ω 3 ) = 1, u j (ω 4 ) = 4 (6.4) Desde que conhecemos que cada diferente combinação de escolhas feitas pelos agentes são mapeadas para um diferente estado resultante, podemos fazer um novo mapeamento como: u i (D,D) = 1, u i (D,C) = 1, u i (C,D) = 4, u i (C,C) = 4 u j (D,D) = 1, u j (D,C) = 4, u j (C,D) = 1, u j (C,C) = 4 (6.5) Desta forma, consideramos que a ação de Cooperar tem melhor utilidade para ambos os agentes. Nós podemos então caracterizar as preferências do agente i sobre os possíveis resultados da seguinte forma: C,C >= i C,D > i D,C >= i D,D Agora vamos considerar a seguinte questão: Se você era o agente i neste cenário, o que você escolheria: cooperar ou defender? O agente i prefere todos os resultados em que ele coopera sobre todos em que ele defende. A escolha do agente i é portanto clara: ele deve cooperar, não importa o que o agente j faça. O mesmo ocorre para o agente j. Note que, neste caso, nenhum agente precisa se preocupar sobre o que o outro irá fazer: a ação que ele executará não depende, de nenhuma forma, do outro agente. Se ambos agentes neste cenário agem racionalmente, ou seja, ambos escolhem realizar a ação que 3 de 9

4 guiará para seus resultados preferidos, então ambos escolherão cooperar. Agora suponha que, para o mesmo ambiente, as funções de utilidade dos agentes fossem como segue: u i (D,D) = 4, u i (D,C) = 4, u i (C,D) = 1, u i (C,C) = 1 u j (D,D) = 4, u j (D,C) = 1, u j (C,D) = 4, u j (C,C) = 1 (6.6) As preferências do agente i sobre os possíveis resultados são: D,D >= i D,C > i C,D >= i C,C Neste cenário, o agente i não pode fazer nada melhor do que defender. O agente prefere todos os resultados em que ele defende, sobre todos os resultados em que ele coopera. O mesmo ocorre para o agente j. Da mesma forma como demonstrado no exemplo anterior, neste exemplo o melhor resultado para um agente não depende da ação executada pelo outro. Mas em cenários multi agentes, as escolhas que um agente deve fazer não são tão claras; realmente são muito mais difíceis. Nós podemos resumir o cenário de interação anterior usando a notação da teoria de jogos, conhecida como matriz de pagamento (payoff matrix): j defende j coopera i defende i coopera Cada uma das 4 células de valores representa um dos possíveis 4 1 resultados, de acordo com as ações de cada um dos agentes. 4 4 Os valores em cada célula, na linha superior à direta, representam a 4 1 utilidade para o agente i, e os na linha inferior à esquerda representam a 1 1 utilidade para o agente j. Estratégias Dominantes e Equilíbrio de Nash Dado um particular encontro envolvendo dois agentes i e j, existe uma questão criticamente importante que ambos os agentes querem respondida: O que eu devo fazer? Nessa seção iremos definir alguns dos conceitos usados em resposta a esta questão. O primeiro é o conceito de dominância. Suponha que temos dois subconjuntos de Ω, que nos referimos a eles como Ω 1 e Ω 2. Diremos que Ω 1 domina Ω 2 para o agente i se cada resultado em Ω 1 é preferido por i sobre cada resultado em Ω 2. Por exemplo, suponha que Ω = {ω 1, ω 2, ω 3, ω 4 } ω 1 > i ω 2 > i ω 3 > i ω 4 Ω 1 = {ω 1, ω 2 } e Ω 2 = {ω 3, ω 4 } Então Ω 1 fortemente domina Ω 2 desde que ω 1 > i ω 3, ω 1 > i ω 4, ω 2 > i ω 3, ω 2 > i ω 4. Formalmente, um conjunto de resultados Ω 1 fortemente domina um conjunto Ω 2 se ω 1 Ω 1, ω 2 Ω 2, temos ω 1 > i ω 2 Na linha de teoria de jogos, vamos nos referir à ações como estratégias. Dada qualquer particular estratégia (strategy) s para um agente i em um cenário de interação de um sistema multi agente, existirá um número de possíveis resultados. Vamos denotar por s* os resultados que podem surgir pelo agente i 4 de 9

5 jogando a estratégia s. Por exemplo, referindo para o ambiente de exemplo da equação (6.1), a partir do ponto de vista do agente i, nós temos C* = {ω 3, ω 4 }, enquanto temos D* = {ω 1, ω 2 }. Ou seja, para todas as estratégias onde o agente i coopera, temos os resultados {ω 3, ω 4 } e para todas onde ele defende temos {ω 1, ω 2 }. Agora, diremos que a estratégia s 1 domina a s 2 se o conjunto de resultados possíveis jogando s 1 domina o conjunto de resultados jogando s 2, isto é, se s 1 * domina s 2 *. Considerando o exemplo 6.5, para o agente i, cooperar fortemente domina defender. Como existem apenas duas estratégias disponíveis, a estratégia de cooperação é dominante: ela não é dominada por nenhuma outra estratégia. A presença de uma estratégia dominante torna a tomada de decisão extremamente fácil: o agente garante seu melhor resultado executando a estratégia dominante e ignorando as outras. Infelizmente, para muitos cenários de interação, não existirá uma estratégia fortemente dominante; depois de deletar as estratégias fortemente dominadas, podemos ter mais do que uma estratégia restante. O que fazer então? Nós podemos iniciar deletando as estratégias fracamente dominadas, onde uma estratégia s 1 é dita por fracamente dominar s 2 se, cada resultado s 1 * é preferido pelo menos tão quanto cada resultado s 2 *. O problema é que se uma estratégia é somente fracamente dominada, então não é necessariamente irracional usá-la; deletando ela, nós podemos portanto, 'jogar fora' uma estratégia que de fato poderia ter sido útil usar. Um dos conceitos mais importantes na teoria de jogos e de sistemas multi agentes é a noção de equilíbrio (equilibrium), mais especificamente, o Equilíbrio de Nash. Considere que a cada vez que você dirige um carro, você precisa decidir de que lado da rua dirigir. A escolha não é muito difícil: se você estiver no Reino Unido, por exemplo, você provavelmente escolherá dirigir pela esquerda; se você estiver nos EUA, você dirigirá pela direita. A razão da escolha não é difícil, é que ela é uma estratégia em equilíbrio de Nash. Assumindo que todos os outros estão dirigindo pela esquerda, você não pode fazer melhor que dirigir pela esquerda também. A partir do ponto de vista de todos os outros, assumindo que você está dirigindo pela esquerda, então todos os outros não podem fazer melhor do que dirigir pela esquerda também. Em geral, nós dizemos que duas estratégias s 1 e s 2 estão no Equilíbrio de Nash se: sobre a suposição de que o agente i joga a estratégia s 1, o agente j não pode fazer melhor do que jogar s 2 ; e sobre a suposição de que o agente j joga s 2, o agente i não pode fazer melhor do que jogar s 1. A forma mútua de equilíbrio é importante porque ela 'bloqueia os agentes' para um par de estratégias. Nenhum agente tem qualquer incentivo para desviar do equilíbrio de Nash. Para entender porquê, suponha que s 1 e s 2 são um par de estratégias no equilíbrio de Nash para os agentes i e j, respectivamente, e que o agente i escolhe jogar alguma outra estratégia, digamos s 3. Então, por definição, i não fará melhor, e pode possivelmente fazer pior do que ele poderia tendo jogado a estratégia s 1. A presença de um par de estratégias no equilíbrio de Nash pode ser a resposta para a questão do que fazer em um dado cenário. Infelizmente, existem 2 importantes resultados na teoria de jogos que dificultam a vida: nem todo cenário de interação tem um equilíbrio de Nash; e alguns cenários tem mais do que um. Interações competitivas e de Soma-Zero Suponha que temos algum cenário em que um resultado ω Ω é preferível por um agente i sobre um resultado ω' se, e somente se, ω' é preferido sobre ω pelo agente j. Formalmente, ω > i ω' se e somente se ω' > j ω As preferências dos jogadores são portanto, diametralmente opostas: um agente só pode melhorar seu resultado ao custo do outro. Um cenário de interação que satisfaz esta propriedade é dito estritamente competitivo. Encontros de soma-zero são aqueles em que, para qualquer resultado particular, a utilidade de dois 5 de 9

6 agentes tem soma igual a zero, formalmente: u i (ω) + u j (ω) = 0 para todo ω Ω Jogos como xadrez e damas são os mais óbvios exemplos de interação estritamente competitivas. Realmente, qualquer jogo em que os possíveis resultados são ganhar ou perder serão estritamente competitivos. É difícil pensar em exemplos de soma-zero. Uma guerra pode ser citada como uma interação de soma-zero entre nações, mas até nas mais extremas guerras, existe usualmente pelo menos alguns interesses comuns entre os participantes (por exemplo, garantir que o planeta sobreviva). O Dilema do Prisioneiro Considere o seguinte cenário. Dois homens são coletivamente acusados de um crime e são mantidos em celas separadas. Eles não tem nenhuma forma de se comunicar nem de fazer qualquer acordo. Aos dois homens é dito que: se um deles confessar o crime e o outro não, o confessor será libertado, e o outro ficará preso por 3 anos; e se ambos confessarem o crime, então, cada um ficará preso por 2 anos. Ambos os prisioneiros sabem que se nenhum confessar, então eles ficarão presos por 1 ano. Nós nos referimos a confessar como defesa e não confessar como cooperação. Existem 4 possíveis resultados e o ambiente é do tipo (6.1). Podemos escrever as funções de utilidade para cada agente na seguinte matriz de pagamento: j defende j coopera i defende i coopera Cooperar (C) = não confessar Defender (D) = confessar A utilidade é apresentada em negrito, e representa quão bom é o resultado para o agente. Quanto maior a utilidade, menor a pena Em resumo, as utilidades, em ordem de preferência para cada agente, são: Utilidade Pena (anos) e as preferências são u i (D,C) = 5, u i (C,C) = 3, u i (D,D) = 2, u i (C,D) = 0 u j (C,D) = 5, u j (C,C) = 3, u j (D,D) = 2, u j (D,C) = 0 D,C > i C,C > i D,D > i C,D C,D > j C,C > j D,D > j D,C O que um prisioneiro deve fazer? A resposta não é clara como nos exemplos anteriores. Não é o caso do prisioneiro preferir todos os resultados que ele coopera sobre todos que ele defende, nem o contrário. Em todos os casos, se um prisioneiro i cooperar, o pior pagamento que ele pode receber é zero, enquanto se ele defender, o pior será 2. Assim, ele pode preferir garantir um pagamento de 2 do que um de zero, então, ele deve defender. Desde que o cenário é simétrico (os agentes raciocinam da mesma forma), então, o resultado que emergirá se ambos os agentes pensarem racionalmente é que ambos defenderão, dando a cada agente 6 de 9

7 um pagamento de 2. Note que nenhuma estratégia fortemente domina neste cenário. Existe apenas um equilíbrio de Nash de D,D. Assim, sobre qualquer suposição que i jogará a estratégia D, j não pode fazer melhor do que escolher D. Isto é o melhor que eles podem fazer? Ingênua intuição diz que não. Claramente se os dois cooperarem, ambos podem fazer melhor, recebendo um pagamento de 3. Porém, se o agente i cooperar e o o j defender, i recebe zero, o pior pagamento. O dilema do prisioneiro pode ser aplicado a coisas reais como tratados de desarmamento nuclear. Dois países i e j assinaram um tratado para se livrar de suas armas nucleares. Cada país pode tanto cooperar (livrar-se de suas armas) ou defender (manter suas armas). Mas se você se livra de suas armas, você corre o risco de que o outro país as mantenha, fazendo com que você sofra do chamado pagamento do idiota. Muitas pessoas concluem que nesses casos, o melhor a fazer é defender. O que parece que cooperação surgiria apenas como resultado de comportamento irracional. Não somos todos Machiavéllicos A primeira proposta é arguir que não somos todos tão insensíveis como no dilema do prisioneiro. Não estamos constantemente tentando maximizar nosso próprio bem estar, possivelmente a custa de outros, sem considerar o bem estar alheio. Em muitos cenários, nós podemos ser felizes por confiar em nossos pares para reconhecer o valor do resultado cooperativo, até mesmo sem mencionar isso a eles, estando não mais do que levemente irritado se recebermos um 'pagamento de idiota'. Por exemplo, quando cedemos nosso assento no ônibus para um pessoa mais idosa, perderemos utilidade (conforto). Mas a sociedade pode ter punições para comportamentos não cooperativos, como sermos encarados pelos passageiros do ônibus. Pessoas não são racionais! Alguns podem dizer que, se podemos realmente ser felizes em arriscar cooperação quando encarados com situações onde o 'pagamento do idiota' realmente não importa muito. Por exemplo, pagar uma tarifa de ônibus que custa poucos centavos não nos custa muito, até mesmo se os outros estão defendendo e explorando o sistema (não pagando a taxa). Mas quando nós encaramos situações onde o 'pagamento do idiota' nos machuca situações de vida ou morte nós escolheremos o curso 'racional' de ação para maximizar nosso bem estar, e defender. A sombra do futuro Existem variações do dilema do prisioneiro em que cooperação é a coisa racional a se fazer. Uma ideia é jogar o jogo mais de uma vez, o dilema do prisioneiro iterado. Cada jogada é referida como um round. Criticamente, cada agente pode ver o que o oponente fez no round anterior. Agora imagine que o jogo será jogado eternamente. O incentivo para defender é consideravelmente reduzido por duas razões: se você defender agora, seu oponente pode puni-lo, também defendendo, o que não é possível no dilema do prisioneiro de apenas um round (one shot); se você iniciar cooperando, e recebe um 'pagamento de idiota' no primeiro round, então, devido estar jogando indefinidamente, esta perda de utilidade pode ser amortizada sobre os rounds futuros. Quando considerando um contexto de execução infinito (ou muito longo), então a perda 7 de 9

8 de uma única unidade de utilidade representará um pequeno percentual de toda a utilidade obtida. Então, se você joga o dilema do prisioneiro indefinidamente, a cooperação é um resultado racional. A 'sombra do futuro' nos encoraja a cooperar neste caso. Suponha que você decidiu jogar o dilema do prisioneiro um número pré-determinado de vezes. Você precisa decidir, antecipadamente, qual sua estratégia de jogo. Considerando o último round, agora você e seu oponente sabem que não haverá um próximo round. Em outras palavras, o último round é como o dilema do prisioneiro de apenas uma iteração (one shot). Assim, a ação racional que cada agente deve tomar é defender. Continuando esta dedução para os rounds anteriores, guia-nos para a conclusão de que defender é a estratégia dominante. Como vemos, somente num jogo de infinitos rounds a cooperação é possível. Porém, não é necessário jogar infinitamente. Com um número de rounds suficientemente longo, cooperação pode ser encorajada. Isto é possível se ambos os jogadores sabem, com suficiente probabilidade, que eles irão se encontrar e jogar novamente no futuro. A segunda razão é que, até mesmo pensando que um agente cooperativo pode sofrer jogando contra um defensivo, ele pode no geral se sair bem se tiver oportunidade de interagir com um agente cooperativo. Para entender isso, vamos ir para uma das mais conhecidas partes de pesquisa em sistemas multi agentes: O torneio do dilema do prisioneiro de Axelrod. O torneio de Axelrod (no dilema do prisioneiro iterado) Robert Axelrod foi um cientista político interessado em como cooperação pode surgir em sociedades de agentes auto interessados. Em 1980 ele organizou um torneio público em que cientistas políticos, psicólogos, economistas e teóricos de jogos foram convidados a submeter programas de computador para jogar o dilema do prisioneiro iterado. Cada programa tem disponível a escolha anterior feita pelo oponente. Cada programa foi jogado contra o outro por 5 jogos, onde cada jogo consistia de 200 rounds. O vencedor do torneio foi o programa que teve o melhor desempenho no geral. Os programas tinham desde 152 linas de código a apenas 5 linhas. A seguir são mostradas algumas estratégias utilizadas. ALL-D: sempre defender, não importa o que o oponente faça, baseado na análise do que é racional fazer num dilema do prisioneiro iterado. RANDOM: escolhe aleatoriamente uma ação, independente do que o oponente faça, tendo iguais probabilidades de resultados, considerando as ações C ou D. TIT-FOR-TAT: estratégia olho-por-olho onde 1. no primeiro round, coopera 2. nos rounds t > 1, faça o que o oponente fez no round t-1 Esta foi a estratégia mais simples, requerendo apenas 5 linhas de código TESTER: tem objetivo de explorar os programas que não punem defesa. Como seu nome sugere, no primeiro round ele testa o oponente, defendendo. Se o oponente retaliar com defesa, ele joga o TIT-FOR-TAT. Se o oponente não defende, então ele jogará repetidas sequências de cooperação por 2 rounds, então defenderá. JOSS: como TESTER, tem objetivo de explorar a 'fraqueza' dos oponentes. É essencialmente TIT- FOR-TAT, mas 10% do tempo, no lugar de cooperar, irá defender. 8 de 9

9 No final do torneio, a estratégia que teve melhor resultado foi TIT-FOR-TAT, a mais simples. Isto pode parecer uma prova empírica de que a análise da teoria de jogos do dilema do prisioneiro iterado está errada: cooperação é a coisa racional a ser feita depois de tudo. Mas TIT-FOR-TAT ganhou pois a pontuação total foi calculada considerando todas as estratégias com a qual ele jogou contra. O resultado quando TIT-FOR-TAT foi jogado contra ALL-D foi exatamente como esperado: ALL-D vem no topo. TIT-FOR-TAT se saiu melhor pois jogou com programas que também eram inclinados a cooperar. Ela não terá sucesso com estratégias que tendem a defender, como a ALL-D. Axelrod tentou caracterizar as razões do sucesso do TIT-FOR-TAT, e trouxe as seguintes 4 regras: 1. Não seja invejoso: não precisa bater no oponente para se sair melhor. 2. Não seja o primeiro a defender: seja legal inicialmente cooperando. Existe claramente um risco de iniciar cooperando, mas a perda de utilidade por receber um 'pagamento de idiota' no primeiro round será comparativamente pequena com os possíveis benefícios da cooperação mútua com outra estratégia legal. 3. Cooperação recíproca e defesa: TIT-FOR-TAT representa um balanço entre punição e piedade. A combinação de defesa como punição e recompensa como cooperação encoraja a cooperação. 4. Não seja esperto: não torne o raciocínio muito complexo pois, um dos motivos, é que, para o oponente, parece que você está agindo aleatoriamente, dificultando a cooperação, a realização de um acordo, pois o outro não entende exatamente como você está agindo. Relacionamento de dependência em sistemas multi agentes A dependência entre agentes existe se, um dos agentes requer o outro para alcançar seus objetivos. Abaixo são mostrados algumas possíveis relações de dependência. Independência: Não existe dependência entre os agentes. Unilateral: Somente um agente depende do outro, e não vice-versa. Mútua: Ambos os agentes dependem um do outro, com respeito ao mesmo objetivo. Dependência recíproca: O primeiro agente depende do outro para algum objetivo, enquanto o segundo também depende do primeiro para algum objetivo (os dois objetivos não são necessariamente o mesmo). Note que a dependência múltipla implica dependência recíproca. Estes relacionamentos podem ser qualificados como se ou não são localmente acreditados ou mutuamente acreditados. Existe uma dependência localmente acreditada se um agente acredita que a dependência existe, mas não acredita que o outro agente acredita que ela exista. Uma dependência mutuamente acreditada existe quando o agente acredita que a dependência existe, e também acredita que o outro agente é ciente disto. 9 de 9