UNIVERSIDADE CATÓLICA DE PELOTAS ESCOLA DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA

Transcrição

1 UNIVERSIDADE CATÓLICA DE PELOTAS ESCOLA DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA Um Estudo sobre os Processos de Decisão de Markov Parcialmente Observáveis Aplicados à Trocas Sociais em Sistemas Multiagentes Baseados em Personalidades por Luciano Vargas Gonçalves Trabalho Individual I TI-2007/2-006 Orientadora: Co-orientador: Prof. Dra. Graçaliz Pereira Dimuro Prof. Dr. Antônio Carlos da Rocha Costa Pelotas, dezembro de 2007

2 SUMÁRIO LISTA DE FIGURAS LISTA DE TABELAS LISTA DE ABREVIATURAS E SIGLAS RESUMO INTRODUÇÃO INTELIGÊNCIA ARTIFICIAL Sistemas Multiagentes Agente Comunicação entre Agentes Linguagem de Comunicação Coordenação de Agentes Negociação Interações em Sistemas Multiagentes MODELOS DE MARKOV Processo de Decisão O projeto de um agente de teoria da decisão Processo de Decisão de Markov Conceitos fundamentais MDP O caráter ótimo dos MDP Algoritmos Processo de Decisão de Markov Parcialmente Observável ARQUITETURA DE AGENTES BDI Introdução ao modelo BDI O modelo BDI Estados mentais Arquitetura de agentes BDI Modelos híbridos BDI-PDM Construção de um plano BDI a partir de uma política PDM A extração de uma política PDM a partir de um plano BDI

3 5 MODELAGEM DAS INTERAÇÕES Teoria dos Valores de Trocas Sociais Sistema de Valores de Trocas Sociais Modelagem das Trocas Sociais Intervalares Supervisor de Equilíbrio Centralizado Agente com Módulo de Supervisão Interno APLICAÇÃO Agentes Baseados em Traços de Personalidades POMDP para o agente com traço de personalidade IMPLEMENTAÇÃO E RESULTADOS Implementação de agentes BDI com processo de supervisão internalizado Modelagem do Agente com processo de decisão internalizado Simulações Simulação entre agente tolerante(pomdp) e egoísta Simulação entre agente egoísta(pomdp) e tolerante Simulação entre agente egoísta(pomdp) e tolerante(pomdp) CONSIDERAÇÕES FINAIS Trabalhos Futuros REFERÊNCIAS

4 LISTA DE FIGURAS Figura 4.1 Arquitetura BDI básica [19] Figura 5.1 Estágio de trocas sociais Figura 5.2 Arquitetura do Supervisor Figura 5.3 Processo de atividades agente com POMPD Figura 6.1 Grafo de política agente egoísta-realista - Estado Equilíbrio Figura 6.2 Grafo de política agente egoísta-realista - Estado Favorável Figura 6.3 Grafo de política agente egoísta-realista - Estado Desfavorável Figura 6.4 Grafo de política agente tolerante-realista Figura 6.5 Grafo de política agente tolerante-realista Figura 6.6 Grafo de política agente tolerante-realista Figura 7.1 Diagrama de atividades para agentes egoísta e tolerante Figura 7.2 Diagrama de atividades entre agentes egoísta e tolerante-realista Figura 7.3 Gráfico balanço material agente tolerante(pomdp) Figura 7.4 Gráfico balanço material agente egoísta Figura 7.5 Gráfico balanço material agente egoísta(pomdp) Figura 7.6 Gráfico balanço material agente tolerante Figura 7.7 Gráfico balanço material agente egoísta(pomdp) Figura 7.8 Gráfico balanço material agente tolerante(pomdp)

5 LISTA DE TABELAS Tabela 6.12 Tabela 6.1 Matriz traço de personalidade Egoísta, recebendo um serviço Tabela 6.2 Matriz traço de personalidade Egoísta, executando um serviço Tabela 6.3 Matriz traço de personalidade Tolerante, recebendo um serviço Tabela 6.4 Matriz traço de personalidade Tolerante, executando um serviço Tabela 6.5 Matriz traço de personalidade Realista Tabela 6.6 Matriz traço de personalidade Sub-Estimador Tabela 6.7 Matriz traço de personalidade Super-Estimador Tabela 6.8 Matriz de recompensa para a ação faz-serviço Tabela 6.9 Matriz de recompensa para a ação pede-serviço Tabela 6.10 Política para um agente no estado E 0 interagindo com agente egoítarealista Tabela 6.11 Política para um agente no estado E + interagindo com agente egoítarealista Política para um agente no estado E interagindo com agente egoítarealista Tabela 6.13 Política para um agente no estado E 0 interagindo com agente tolerante-realista Tabela 6.14 Política para um agente no estado E + interagindo com agente tolerante-realista Tabela 6.15 Política para um agente no estado E interagindo com agente tolerante-realista

6 LISTA DE ABREVIATURAS E SIGLAS BDI Belief, Desire, Intention JASON Java-based interpreter for an extended version of AgentSpeak MAS Multi-agent Systems MDP Markov Decision Process MMDP Mult-agent Markov Decision Process PDM Processo de Decisão de Markov PDMM Processo de Decisão de Markov Multiagente PDMPO Processo de Decisão Markov Parcialmente Observável POMDP Partially Observable Markov Decision Process SMA Sistema Multiagentes UML Unified Modeling Language

7 RESUMO O estudo e desenvolvimento de sistemas para o controle e regulação de interações em sistemas multiagentes é um tema em aberto dentro da Ciência da Computação. Nessa área, existem basicamente dos ramos de estudo, um baseado nas teorias da racionalidade e outras baseadas teorias sociais. O sistema de valores de trocas é uma abordagem social que modela interações de agentes, através da teoria sociológica de Piaget, no qual as interações são modeladas como trocas de serviços entre os agentes, correndo também a valorização de investimentos e ganhos no processo. A análise e valorização dos serviços realizados e recebidos pelos agentes podem ser executadas de maneira diferenciada, proporcionado a criação de agentes baseados em traços de personalidades, que possibilita a geração de simulações sociais em diversas áreas de interesse. O foco deste trabalho está no controle de interações para agentes que negociam serviços ao logo do tempo, buscou-se nos processos de decisão de Markov parcialmente observáveis (POMDP) uma metodologia capaz tomar decisões de cursos de ações a serem negociadas pelos agentes. Assim, cada agente terá internalizado um processo próprio para inferir o mais provável estado do parceiro de interação, através de observações recebidas e com base no seu estado atual, definir a melhor ação a seguir na busca do equilíbrio interno para o sistema. Um POMDP pode ser a abordagem ideal para problemas que se concentram na coordenação de ações onde existe incerteza sobre o resultado das ações executas. Logo, este trabalho discute a utilização de uma arquitetura híbrida BDI-POMDP, como sendo um modelo de autoregulação de trocas sociais em sistemas multiagentes, onde pares de agentes com personalidades interagem entre si, trocando e avaliando serviços de acordo com seus traços de personalidades. O trabalho encerra com a realização de simulações envolvendo agentes com traços de personalidades egoísta e tolerante, na plataforma de sistemas multiagentes Jason. Palavras-chave: Valores-de-troca, interações-sociais, sistemas-multiagentes, processode-decisão-de-markov, arquitetura-bdi.

8 8 1 INTRODUÇÃO Os sistemas multiagentes são considerados sistemas computacionais centrados na resolução de problemas complexos, e sua investigação está focada no desenvolvimento de princípios e modelos computacionais para construir, descrever, implementar e analisar as formas de interação e coordenação de agentes em sociedades de reduzida ou elevada dimensão [22]. Ao longo de seu ciclo de interação, os agentes podem apresentar capacidades especiais, bem distintas de outros sistemas computacionais, tais como: autonomia, reatividade, pró-atividade, benevolência, cooperativismo, etc. Mas, dentre estas, a capacidade de interagir com outros agentes é, certamente, a principal delas. A interação permite aos agentes compartilharem conhecimentos, trocarem serviços, formarem coalizões, e a assumirem objetivos conjuntos. Logo, a modelagem do raciocínio sobre as interações sociais torna-se uma das tarefas mais relevantes e difíceis dentro da área de sistemas multiagentes. Os trabalhos na literatura de sistemas multiagentes que tratam das interações de agentes encontram-se basicamente divididos em dois grupos: os baseados na teoria da racionalidade e os inspirados nas teorias sociais. Estes últimos se baseiam na idéia de que um sistema social deve apresentar uma visão autônoma do agente, que voluntariamente constrói o seu destino e uma teoria de sistema social como sistema de ação, sendo responsável pela regulação e restrição dos agentes. No trabalho sociológico de Piaget [30], o autor aborda a modelagem de interações entre os indivíduos em sociedade reais, como troca de serviços, envolvendo não somente a realização de serviços por alguns indivíduos em nome de outros, mas também a avaliação de tais serviços. Piaget adota uma aproximação relacional, na qual os relacionamentos entre os indivíduos são estabelecidos por trocas sociais entre eles. Dimuro e Costa [11] apresentam uma abordagem para a regulação de interações em sistemas multiagentes, baseada na teoria sociológica de Jean Piaget. Neste trabalho desenvolveram uma álgebra especial para tratar dos valores de trocas qualitativos, baseando-se na aritmética intervalar. Esta abordagem mantém a expressividade dos valores qualitativos em sistemas computacionais, tornando-os operacionais. Neste trabalho discute-se a necessidade de agente supervisor, sendo um componente do sistema de regulação de trocas externo, que em determinados momentos recomenda trocas aos agentes, tentando atingir ou manter o estado desejado (equilíbrio ou desequilibro) do processo de troca. Uma abordagem mais detalhada do agente supervisor [10], modela o processo de decisão quanto a tomada de decisão através de um processo de decisão qualitativo inter-

9 9 valar de Markov. Embora a visão centralizada apresente bons resultados, os estudos e o desenvolvimento de sistemas multiagentes primam pela autonomia dos agentes. Com o objetivo de retirar a necessidade de um supervisor interações, buscou-se nos processos de decisão de Markov parcialmente observáveis uma nova linha para o controle de interações. A idéia fundamental é desenvolver um sistema em que os agentes possuam regular internamente o seus processos de trocas, gerando assim um sistema auto-regulável trocas sociais. Assim, o foco deste trabalho está na regulação de interações onde agentes negociam serviços, avaliando seus interesses próprios e os de seus parceiros. Para tomar decisões de cursos de ações a serem realizadas, cada agente terá internalizado um processo decisão próprio, que analisa o seu estado interno, e com base nas observações recebidas, defina mais provável estado de seu parceiro de interação, viabilizando a tomada de decisão de ação a serem executadas na busca do equilíbrio interno do sistema. Para analise e validação metodologia desenvolvida, implementaram-se agentes híbridos BDI-POMDP, em que o processo de controle de interações é realizado por POMDPs, mas a dinâmica do sistema, bem como, toda arquitetura utilizada para a implementação dos agentes encontra-se desenvolvida na arquitetura BDI (Belief, Desire, Intentions). A decisão de utilizarmos a arquitetura BDI se deve ao trabalho anterior [16] já realizado nessa arquitetura, em que se implementou um protocolo de negociação de serviços para sistemas multiagentes, baseado no sistema de valores trocas e alcançou-se bons resultados com a arquitetura. O trabalho desenvolvido tem como aplicação principalmente na área de Simulação Social, sendo uma continuidade do trabalho já em desenvolvimento no grupo de pesquisa da UCPel. O desenvolvimento do trabalho foi realizado no interpretador de sistemas multiagentes Jason, utilizando a linguagem AgentSpeak e Java. O trabalho apresentando a seguir está dividido nas seguintes seções: seção 2 apresenta-se a área de sistemas multiagentes, suas características e conceitos; a seção 3 aborda os conceitos relativos aos modelos de Markov, mas precisamente os MDPs e POMDPs; a arquitetura BDI e a abordagem híbrida BDI-MDP encontra-se na seção 4, já a seção 5 trata da modelagem das interações através do sistema de valores trocas e também introduz o conceito de agente com processo de decisão internalizado; a seção 6 apresenta os traços de personalidades para agentes, bem como, a modelagem de POMDP para agentes com personalidade; os detalhes de implementação e as simulações realizadas estão na seção 7, e por fim na seção 8 apresenta as considerações finais e trabalhos futuros.

10 10 2 INTELIGÊNCIA ARTIFICIAL A Inteligência Artificial (IA) é apresentada como a parte da Ciência da Computação cuja ênfase está no estudo de sistemas inteligentes, com objetivo de desenvolver Software para simular capacidades humanas ditas inteligentes, tais como o raciocínio, a comunicação em linguagem natural e o aprendizado. Com o surgimento das redes de computadores viabilizou-se o desenvolvimento de organizações de computadores ou sociedades, nas quais a colaboração entre as partes requer o estabelecimento de comunicação, usada de forma efetiva. Desta forma, deu-se origem à Inteligência Artificial Distribuída (IAD), como sendo um sub-ramo da inteligência artificial que investiga modelos de conhecimento, assim como técnicas de comunicação e raciocínio, que agentes computacionais necessitam para participar em sociedades compostas por computadores e pessoas. Segundo Oliveira [26], o comportamento inteligente é visto através do resultado das interações de uma sociedade. A idéia é, que se os comportamentos individuais forem organizados, o conjunto deverá exibir uma inteligência maior do que a soma das inteligências individuais. A IAD pode ser dividida em duas grandes áreas, de acordo com o modelo usado para projetar a sociedade de agentes, assim temos: a Resolução Distribuída de Problemas e os Sistemas Multiagentes. Em ambos os casos, usa-se a designação agente para as entidades que participam nas atividades de resolução dos problemas. A grande diferença pode ser observada pela autonomia destes. Na Resolução Distribuída de Problemas, os agentes são designados para resolver um problema em particular, dentro de uma concepção fechada de mundo. Isto significa que os agentes são projetados para resolver um tipo específico de problema não podendo ser reutilizados, mesmo que seja em uma aplicação similar. Dessa maneira, o número de participantes será fixo, sendo que cada um possui uma visão específica e incompleta do problema. Então, para a resolução de um problema, os agentes devem cooperar entre si, compartilhando conhecimento, com a finalidade de obter uma solução. Já os Sistemas Multiagentes são projetados para resolverem qualquer tipo de problema, operando em sistemas abertos, possibilitam a entrada e saída dos agentes. Isto ocorre, basicamente, porque nesse sistema os agentes são entidades autônomas que tem conhecimento da sua própria existência e da existência de outros integrantes, e, portanto, colaboram entre si para atingirem um objetivo comum dentro do ambiente. No decorrer desse trabalho, iremos nos concentrar no estudo de Sistemas Multiagentes, Processos de Decisão de Markov, a arquitetura de agentes BDI e modelo híbridos, com o desenvolvimento de uma aplicação em trocas sociais baseadas em personalidades.

11 11 Nas próximas seções abordaremos os conceitos relativos a sistemas multiagentes e aos agentes em maior profundidade. 2.1 Sistemas Multiagentes Os sistemas multiagentes investigam o comportamento de um conjunto de agentes autônomos, que interagem objetivando a resolução de um problema que está além das capacidades de um único indivíduo. O comportamento global destes sistemas deriva da interação entre os agentes, permitindo que estes possam coordenar seus conhecimentos, objetivos, habilidades e planos individuais de uma forma conjunta, em favor da execução de uma ação ou da resolução de algum problema, em que se faça necessária a cooperação entre eles. Moulin e Chaib-Draa [25] evidenciam as vantagens significativas dos sistemas multiagentes, dentre elas: Maior rapidez na resolução de problemas através do aproveitamento do paralelismo; Diminuição da comunicação por transmitir somente soluções parciais em alto nível para outros agentes, ao invés de dados brutos para um lugar central; Maior flexibilidade por ter agentes de diferentes habilidades que são dinamicamente agrupados para resolver problemas; Aumento da segurança pela possibilidade de agentes assumirem responsabilidades de outros agentes, que possam estar sobrecarregados ou com problemas; O foco principal dos SMA é prover mecanismos para a criação de sistemas computacionais a partir de entidades de software autônomas (agentes), que interagem através de um ambiente compartilhado por todos e sobre o qual alteram seu estado. Com isto, é necessário prover uma estrutura de comunicação, uma linguagem de comunicação, um mecanismo de interação e uma forma de coordenação de ações para estas entidades, uma vez que estes possuem conjuntos de capacidades específicas, bem como possuem seus próprios objetivos em relação ao estado do ambiente que querem atingir Agente Na literatura de IA encontram-se diversas acepções para o termo, não há um consenso específico compartilhado pelos pesquisadores da área, mas todos de uma maneira em geral definem agente como uma entidade (software ou hardware) imersa em um ambiente, dotada de sensores e atuadores apropriados ao seu ambiente, a fim de executar as tarefas para as quais fora projetado. Neste trabalho adotaremos a definição de Reis [32]: Um agente é um sistema computacional, situado num dado ambiente, que tem a percepção desse ambiente através de sensores, tem capacidade de decisão, age de forma autônoma nesse ambiente através de atuadores, e possui a capacidade de comunicação de alto-nível com outros agentes e / ou humanos, de forma a desempenhar uma dada função para a qual foi projetado.

12 12 Wooldridge [44] visualiza um agente como sendo uma entidade com capacidade de resolução de problemas encapsulada. Inserido nesta visão, o define como tendo as seguintes propriedades: Autonomia - atua sem a intervenção e possui algum tipo de controle sobre suas ações e seu estado interno. Habilidade social - interage com outros agentes e, possivelmente, com seres humanos através de algum tipo de linguagem de comunicação. Pró-atividade - não se limita a agir em resposta ao ambiente, mas possui a capacidade de exibir comportamentos dirigidos por objetivos, sendo capaz de tomar iniciativa apropriada. Reatividade - percebe o próprio ambiente (i.e. mundo físico, um usuário através de uma interface gráfica, uma coleção de agentes, a Internet etc.) e responde a estímulos que neles ocorrem. Além das propriedades essenciais mencionadas, Wooldrigue [44] e Jennings [20] definem um agente como uma entidade cognitiva com consciência, capaz de exibir sentimentos, percepções e emoções, à semelhança dos humanos. Deste modo, as seguintes propriedades podem também ser desejáveis: Benevolência - não possuir objetivos conflitantes e deve sempre tentar fazer aquilo que lhe seja solicitado por outro agente. Mobilidade - capacidade de se movimentar de um local para outro. Conhecimento - capacidade de raciocínio sobre uma determinada informação. Obrigações - compromissos que assumiu em um determinado momento. Racionalidade - hipótese de que irá agir de forma a atingir os seus objetivos. Devido à sua vasta gama de aplicações, aliado ao seu poder computacional, os agentes foram divididos em duas categorias principais: agentes reativos e agentes cognitivos. Atualmente, podemos observar que estes são os extremos de uma linha de classificação, nas quais surgiram novas denominações como, por exemplo, os agentes de software. agentes reativos (reactive agents): são construídos de acordo com o paradigma baseado em comportamento. Não possuem uma representação interna do mundo, ou no máximo uma representação muito simples, e provem um acoplamento forte entre percepção e ação. Estão focados nas propriedades de reatividade e de comportamento de tempo real. Tomam suas decisões em tempo de execução, normalmente baseadas em uma quantidade de informação limitada e com regras simples de situação-ação.

13 13 agentes deliberativos (deliberative agents): são de tradição simbólica da Inteligência Artificial. Possuem uma representação simbólica do mundo em termos de categorias tais como crenças (belief), objetivos (goals) e intenções (intentions). Também possuem mecanismos de inferência lógica para tomar decisões baseadas em seu modelo de mundo (mecanismo de deliberação). Agentes deliberativos mantêm uma representação interna do seu mundo e existe um estado mental explícito que pode ser modificado por alguma forma de raciocínio simbólico. agentes interativos (interacting agents): são capazes de coordenar suas atividades com outros agentes através da comunicação e, em particular, através da negociação. Estes possuem uma representação explícita de seus parceiros e podem ser capazes de raciocinar sobre eles. Assim, seu foco está na habilidade gerir o comportamento social cooperativo. A construção de agentes interativos deve tratar de aspectos de coordenação e cooperação entre os agentes inteligentes distribuídos. Assim como os indivíduos em uma sociedade precisam unir forças para solucionar problemas complexos ou que estejam além de suas capacidades individuais, compartilhando conhecimentos e distribuindo tarefas, os agentes também podem ter as mesmas atitudes, logo, necessitam de uma estrutura que dê sustentação a sua formação, função esta desenvolvida pelos sistemas multiagentes Comunicação entre Agentes Em uma sociedade de agentes é necessário definir uma arquitetura que possibilite a interação entre agentes, para que estes possam compartilhar informações e conhecimentos. Usualmente define-se um módulo de comunicações que está diretamente ligado ao módulo central do agente. Ressalta-se que as interações ocorrem de acordo com o processo de comunicação disponível. Assim existem diversos sistemas de trocas de mensagens, dentre eles podemos citar: Comunicação direta: intervenções. os agentes tratam da sua própria comunicação, sem Comunicação assistida: os agentes apóiam-se em entidades especiais designadas agentes facilitadores, de forma a efetuarem a comunicação com outros agentes. Quadro negro: fornece uma estrutura de dados central, única e compartilhada, entre os vários agentes, em que as informações podem ser lidas e escritas durante o desenvolvimento das tarefas. Assim como a comunicação entre os agentes, a linguagem de comunicação tem um papel preponderante na estrutura de um sistema multiagentes, permitindo a partilha de significado e sentido na informação trocada entre os participantes Linguagem de Comunicação No processo de interação fazem-se necessários mecanismos de comunicação que permitam aos agentes conversarem com outros agentes, de maneira clara e não ambígua. Uma possibilidade é deixar que eles conversem diretamente, desde que eles conversem

14 14 na mesma linguagem. Outra forma é através do uso de interpretadores ou facilitadores, garantindo que eles saibam como conversar com o interpretador, e então o interpretador pode conversar com o outro agente. Para que os agentes possam se comunicar, eles precisam compartilhar um vocabulário de palavras e seus significados. Este vocabulário compartilhado é denominado ontologia (ontology). Na literatura de MAS existem linguagens e padrões definidos para a comunicação envolvendo agentes. As mais utilizadas são: O padrão ACL (Agent Communication Language) [42] é o padrão de comunicação estabelecido pela FIPA (Foundation for Intelligent Physical Agent). O padrão KQML (Knowledge Query and Manipulation Language) [39] que foi a primeira tecnologia para comunicação entre agentes de software bem difundidas a incluir alguns dos conceitos complexos de comunicação de alto nível provenientes da literatura de IAD Coordenação de Agentes O conceito de coordenação de agentes não é partilhado por todos os investigadores da área, tal como acontece com o conceito de agente. Desta forma, inúmeros autores propuseram definições distintas, mas inter-relacionadas ao termo coordenação. Na grande maioria destas definições destacam-se as noções de grupo, trabalho conjunto, harmonia e objetivo comum. Adotou-se a seguinte definição: O ato de trabalhar em conjunto de forma harmoniosa no sentido de atingir um acordo com objetivo comum, Reis [31]. A coordenação pode ser classificada em cooperação e competição. Nos sistemas cooperativos, os agentes trabalham como equipes e comportam-se de forma a incrementar a utilidade global do sistema e não sua utilidade individual. Já nos sistemas competitivos, cada agente tem a sua própria agenda, motivação e interesses. Independentes de serem colaboradores ou competidores, os agentes interagem uns com os outros, como forma de atingir seus próprios objetivos, negociando serviços e/ou informações Negociação A negociação é um conceito importante num ambiente multiagentes, usada na alocação de tarefa, no reconhecimento de conflitos, na resolução de disparidades de objetivos, na determinação da estrutura organizacional e na coerência da sociedade. Moulin e Chaib-Draa [25] definem negociação como o processo de aperfeiçoar a concordância (reduzindo incertezas e inconsistência) em um ponto de vista comum, através da troca estruturada de informações relevantes. Existem vários protocolos de negociação na literatura de IAD. Um dos protocolos mais difundidos é a rede de contrato Smith [38], baseado no processo de contrato em organizações humanas Interações em Sistemas Multiagentes Na literatura de sistemas multiagentes existem diversos trabalhos relacionados ao controle de interações em sistemas multiagentes. O estudo tanto do processo de decisão

15 15 sobre cursos individuais de ação, quanto do raciocínio sobre parceiros de interação se divide em dois grupos, os baseados nas teorias da racionalidade e os inspirados nas teorias das Ciências Sociais. Na teoria da racionalidade se destacam a Teoria dos Jogos e a Teoria da Decisão, nas quais a decisão dos agentes quanto às interações se baseiam em medidas de utilidade relacionadas ao resultado da interação, desta forma, a interação mais adequada é a mais eficiente e vantajosa para o agente. Já as teorias baseadas nas ciências sociais argumentam que o processo de decisão quanto às interações é influenciado, sobretudo, pelas relações existentes entre os indivíduos, as quais podem ser explicitadas na forma de avaliações e valores atribuídos aos outros agentes. Segundo Rodrigues [33] a capacidade de interação social deve ser entendida como a capacidade de raciocinar sobre as interações e as expectativas de interações futuras, de modo que tal raciocínio influencie o comportamento e o processo de decisão do agente Teoria Baseada em Simulação Social As teorias baseadas em simulações sociais, cada vez mais, estão ganhando espaço na modelagem e controle de interações em sistemas multiagentes. Os estudos inspirados em Ciências Sociais argumentam que o processo de decisão quanto às interações é influenciado sobre tudo pelas relações sociais existentes entre os indivíduos, as quais podem ser explicitadas na forma de avaliações e valores atribuídos aos outros agentes e às interações [23]. Conforme Conte [8], o crescente interesse pelo campo de pesquisa em simulação social através de sistemas computacionais é resultado do desenvolvimento de modelos de sistemas multiagentes que oferecem a promessa de simular indivíduos autônomos e as interações entre eles, encorajando a construção e a exploração de sociedades artificiais. A autora também argumenta que na concepção dessas sociedades, se deve levar em conta dois requisitos básicos: uma visão autônoma do agente, que voluntariamente constrói seu destino, e ao mesmo tempo, uma teoria de sistemas sociais como sistemas de ação, que devem ser responsáveis pela regulação e restrição dos agentes. O sistema social visto dessa maneira está, de certa forma, associando à noção de coletividade com uma estrutura relacional, esta relação pode ser encontrada na teoria das trocas sociais de Jean Piaget [30]. Na seção 5.2 nos deteremos mais especificamente no estudo dos valores de trocas de Piaget, como sendo uma ferramenta para a regulação de interações, com o propósito de garantir a continuidade das interações sociais em sistemas multiagentes.

16 16 3 MODELOS DE MARKOV Os modelos de Markov descritos nessa seção são processos de decisão baseados em transição de estados probabilísticos, função de recompensa e na propriedade de Markov. Os processos que satisfazem essa propriedade foram estudados em profundidade pelo estatístico Andrei Markov. Inicialmente apresentam-se os conceitos básicos do processo de decisão simples, em seguida discorre-se em mais profundidade sobre o processo de decisão de Markov, processos decisão de Markov parcialmente observáveis e por fim os processos decisão de Markov para multiagentes. 3.1 Processo de Decisão A teoria da decisão é um tema abordado em várias áreas do conhecimento, desde a Psicologia, Sociologia, Economia, Filosofia, com diferentes ângulos de estudos e abordagens. Na Ciência da Computação, a mesma é uma das principais abordagens utilizada no estudo de agentes computacionais: um agente precisa escolher sobre um conjunto de ações, quais destas podem levá-lo a atingir seus objetivos, com base no conhecimento que possui sobre o ambiente. Quando um agente conhece fatos suficientes sobre seu ambiente, a abordagem lógica permite que ele derive planos que ofereçam a garantia de uma ação eficiente nesse ambiente (modelo BDI). Infelizmente, os agentes quase nunca têm acesso a toda a verdade sobre seu ambiente e sobre os resultados de suas ações no ambiente, logo, ser capaz de raciocinar usando informações incompletas é muitas vezes essencial para que um agente consiga alcançar seus objetivos. O conhecimento do agente pode, às vezes, na melhor das hipóteses, fornecer apenas um grau de crença nas sentenças relevantes. Assim, a ferramenta básica para lidar com graus de crenças é a teoria da probabilidade, que atribui a cada sentença um grau numérico de crença entre 0 e 1. A probabilidade proporciona um meio para resumir a incerteza que vem da falta de processos de descrição completos e exatos do ambiente, das percepções e dos parceiros de interação. Na teoria da probabilidade, uma sentença se refere às crenças do agente, e não diretamente ao mundo. Essas crenças dependem das percepções que o agente recebeu até o momento. Essas percepções constituem a evidência na qual se baseiam as asserções de probabilidade. À medida que o agente recebe novas percepções, suas avaliações de probabilidade são atualizadas para refletir a nova evidência. A presença da incerteza altera radicalmente o modo como um agente toma decisões. Em geral um agente lógico tem uma meta e executa qualquer plano que ofereça

17 17 a garantia de atingir a meta. Uma ação pode ser selecionada ou rejeitada de acordo com o fato de alcançar ou não a meta, independentemente de outras ações poderiam ou não alcançar essa meta. Quando a incerteza passa a fazer parte da descrição do sistema, isso não acontece mais. Para fazer tais escolhas, primeiro um agente deve ter preferências entre os diferentes resultados dos vários planos. Um resultado específico é um estado completamente especificado, e conhecido para o agente. Utiliza-se a teoria da utilidade para representar e raciocinar com preferências. A teoria da utilidade diz que todo estado tem um grau de utilidade (ou seja, ele tem certa utilidade) para um agente, e que o agente preferirá estados com utilidade mais elevada. Uma função de utilidade pode até levar em conta o comportamento altruísta, simplesmente incluindo o bem-estar de outras pessoas com um dos fatores que contribuem para a utilidade do próprio agente. As preferências, sendo expressas por utilidades, são combinadas com as probabilidades na teoria geral de decisão racional. Teoria da Decisão = teoria da probabilidade + teoria da utilidade A idéia fundamental da teoria da decisão é que um agente é racional se e somente se ele escolhe a ação que resulta na mais alta utilidade esperada, calculada como a média sobre todos os resultados possíveis de ação (chamado de princípio de Utilidade Máxima Esperada (UME)[34]) O projeto de um agente de teoria da decisão O agente de teoria da decisão tem que o estado atual é incerto, existe apenas uma representação das probabilidades de todos os estados reais possíveis do mundo Estado de Crenças. À medida que o tempo passa, o agente acumula mais evidências e seu estado de crenças se altera. Com base neste estado, o agente pode fazer um prognóstico probabilístico de resultados de ações e, conseqüentemente, selecionar a ação com a mais alta utilidade esperada. Função Agente-TD(percepção) retorna uma ação variáveis estáticas: estado de crença, crenças probabilísticas sobre o estado atual do mundo ação, a ação do agente atualizar o estado de crenças com base em ação e percepção calcular probabilidade de resultados de ações, dadas descrições de ações e o estado de crenças atual selecionar ação com utilidade esperada mais alta, dada as probabilidades de resultados e informações de utilidade retornar ação. Um agente da teoria da decisão tem uma medida contínua da qualidade dos estados. As preferências de um agente entre estados do mundo são captadas pela função de utilidade, que atribui um único número para expressar a desejo de um estado. As utilidades são combinadas com probabilidades de resultados de ações para fornecerem uma utilidade esperada referente a cada ação. Este modelo não apresenta garantias de bons resultados a logo prazo, visto que, toma decisão de ações ótimas locais, sem ter uma visão

18 18 dos resultados futuros destas ações. O modelo formal mais utilizado para descrever um processo de decisão seqüencial (em que existe incerteza quanto ao efeito de cada ação) é o do processo de decisão de Markov(Markov Decision Process (MDP)). 3.2 Processo de Decisão de Markov O Processo de Decisão de Markov (MDP) tem por objetivo tratar o problema da decisão seqüencial, tendo como aplicação a tomada de decisão em sistemas inteligentes, em que a utilidade (desempenho) do agente depende de uma seqüência de decisões. Problemas de decisão seqüencial incluem utilidades, incertezas e detecção, generalizando os problemas de busca e planejamento de ações. Este modelo está centrado na propriedade de Markov [41]: O estado atual depende apenas de um histórico finito de estados anteriores. Nos processos de decisão de Markov essa restrição é ainda mais limitada. Definição 1 O estado atual depende apenas do estado anterior e não de um conjunto de estados passados. Em outras palavras, um estado consiste nas informações de que o agente precisa para tornar o futuro independente do passado. Desta forma, a dinâmica do sistema depende da informação do passado, apenas através do estado corrente e da última ação escolhida. Uma outra abordagem diz que, a informação sobre o passado contribui para escolher a próxima ação, desde que essa informação esteja representada no estado corrente. Um MDP admite dois pressupostos. O primeiro é que a execução de cada ação tem a duração de um único período de tempo, acarretando em uma transição de estado. O segundo é que o agente opera em ambientes totalmente observáveis, ou seja, o agente tem total conhecimento do seu estado atual, não existindo incerteza nesse requisito. Em contra partida, possuem a natureza estocástica em suas ações, não tendo o conhecimento exato do efeito desta. Pois o ambiente nem sempre aceitará ou reagirá conforme o agente espera ao executar uma ação. Para a especificação de um MDP é necessário a modelagem de três conceitos: um modelo de transição estados; uma função de acessibilidade; e uma função de recompensa pela ação tomada Conceitos fundamentais MDP Uma especificação das probabilidades de resultados para cada ação em cada estado possível é chamado de modelo de transição(ou somente modelo ). Utiliza T(s, a, s ) para denotar a probabilidade de alcançar o estado s se ação a for executada no estado s. Vamos supor que as transições são de Markov no sentido da probabilidade de alcança s a partir de s depende apenas de s, e não do histórico de estados anteriores. T(s, a, s ) pode ser analisada como uma grande matriz tridimensional contendo probabilidades. Uma função de acessibilidade tem por objetivo relacionar estados e ações possíveis de serem executadas em cada estado. utiliza-se Ψ S A para denotar o conjunto de pares estado-ação admissíveis.

19 19 Para completar a definição, devemos especificar a função de recompensa R(s), onde em cada estado s, o agente recebe um valor positivo ou negativo por alcançar este estado. Os conceitos e descrições a seguir foram extraídos do livro Russell e Norvig [34]. Definição 2 A especificação de um problema de decisão seqüencial para um ambiente completamente observável com um controle de transição de Markov e recompensas aditivas é chamado de processo de decisão de Markov, ou MDP. Definido como uma estrutura (S, A, Ψ, T, R), onde: S conjunto finito de estados; A conjunto de ações; Ψ S A conjunto de pares estado-ação admissíveis; T : S S A [0, 1] função de transição probabilística, onde T(s, s, a) denota o valor da probabilidade de transição para o estado s, dada a decisão de executar a ação a no estado s; R : S A R função de recompensa, onde R(s, a) define a recompensa (ou punição) por ter tomado a ação a no estado s. A dinâmica de um MDP é especificada pela função de probabilidade de transição de estado, T, e pela função de recompensa, R. Quando o sistema está em um ponto de decisão e encontra-se no estado s S, a decisão do agente executar a ação a A tem como efeito transitar o sistema para o estado s S com probabilidade T (s, a, s ) e fornece, ao agente, o recompensa R(s, a). Mas a especificação acima não apresenta claramente uma solução para o problema de decisão de ações seqüências. Logo a próxima questão é definir qual seria a aparência de uma solução para o problema. Sabe-se que qualquer seqüência fixa de ações não resolverá o problema, porque o agente poderia alcançar estados diferentes do seu objetivo ou não apresentará uma solução satisfatória, apresentando um baixo desempenho. Assim, quando um problema é modelado como um MDP, o objetivo é encontrar as melhores decisões para cada situação, geralmente designadas por políticas ótimas. Silva [36] apresenta as seguintes definições para política e política ótima: Definição 3 Política (π : S A) Para cada ponto de decisão, associa ao estado corrente (s), uma ação a para executar. Esta associação é definida para todos os estados S. Definição 4 Política Ótima : (π ) O ganho que se espera obter ao seguir uma política, é uma medida da qualidade dessa política. Assim, procuram-se políticas que maximizam este valor. A função de utilidade, U (s), estima para uma política, π, o valor de ganho esperado em cada estado, s S. Está função representa o ganho esperado, ao iniciar no estado s e prosseguindo de acordo com π. Onde π (s) é a ação definida pela política ótima no estado s. Uma política pode ser vista com uma tabela simples, ligando estado - ação, esse comportamento é tipo de agentes reativos. A manutenção de um equilíbrio entre o risco e recompensa é uma característica dos MDPs que não surge em problemas de busca determinística.

20 3.2.2 O caráter ótimo dos MDP 20 Seguindo a visão da seção 3.1 onde um agente escolhe ações em função da utilidade esperada. No MDP o agente pode escolher entre seqüências de ações, através da soma de recompensas dos possíveis estados a serem visitados. Está não é a única possibilidade. Há outros métodos que investigam as escolhas possíveis para a medida de desempenho, isto é, escolhas para a função de utilidade em históricos de ambientes, que descrevemos como U h (s 0, s 1, s 2,..). Para determiná-la, dois requisitos devem ser satisfeitos: 1. Se existe um horizonte finito ou um horizonte infinito para tomada de decisão. Um horizonte finito significa que existe um tempo limite N depois do qual nada mais importa. Assim, com um horizonte finito, a ação ótima pode mudar com o passar do tempo, visto que esse se aproxima do fim. Dizemos que a política ótima para horizonte finito é não-estacionária. Já a política para horizonte infinito não apresenta um tempo fixo, não necessita mudar o padrão de comportamento com o passar do tempo, logo a política é estacionária. Políticas de horizonte finito são muito mais complexas que as de horizonte infinito. 2. Como calcular a utilidade de seqüências de estados: existem duas formas de calcular as recompensas em políticas de horizonte infinito: Recompensas aditivas: A utilidade de uma seqüência de estados, e definida pela soma das recompensas nos respectivos estados. U h (s 0, s 1, s 2,..) = R(s 0 ) + R(s 1 ) + R(s 2 ) +... Recompensas descontadas: A utilidade de uma seqüência de estados é definida pelo somatório de recompensas descontas: U h (s 0, s 1, s 2,..) = R(s 0 ) + γr(s 1 ) + γ 2 R(s 2 ) +... Onde o fator de desconto γ é um número entre 0 e 1. O fator de desconto descreve a preferência de um agente por recompensas atuais sobre recompensas futuras. Quando γ é próximo de 0, as recompensas num futuro distante são vistas como insignificantes. Quando γ é 1, recompensas descontadas são exatamente equivalentes a recompensas aditivas, e assim as recompensas aditivas constituem um caso especial de recompensas descontadas. O desconto parece ser um bom modelo de preferências, ao longo do tempo. Logo são necessários algoritmos para calcularem as funções de utilidades e políticas, para solucionar o problema de decisões seqüenciais Algoritmos Os algoritmos básicos de um MDP são o algoritmo interação de valor e interação de política. O algoritmo de interação de valor se baseia no cálculo das utilidades para cada estado, e depois se emprega as utilidades desses estados para selecionar uma ação ótima em cada estado através do algoritmo interação de política. Sendo a base para definir políticas ótimas. A utilidade dos estados é definida em termos da utilidade de seqüências de estados. Em termos aproximados, a utilidade de um estado é a utilidade esperada das seqüências

21 21 de estados que poderiam segui-lo. Evidentemente, as seqüências de estados dependem da política que é executada; logo, começaremos definindo a utilidade U π (s) com relação a uma política específica π, dada pela equação (3.1). Se considerando st, o estado em que o agente se encontra depois de executar π por t passos: [ ] U π (s) = E γ t R(s t ) π. (3.1) t=0 Dada essa definição, a utilidade verdadeira de um estado U(s), é simplesmente U π (s) - ou seja, a soma esperada de recompensas descontadas se o agente executa uma política ótima. Note que U(s) e R(s) são quantidades bastante diferentes. R(s) é a recompensa a curto prazo por estar em s, enquanto U(s) é a recompensa total a longo prazo de s em diante. Com base na função de utilidade U(s) o agente pode selecionar ações π (s) usando o princípio de utilidade máxima esperada, gerando assim a política ótima π, no qual escolhe a ação que maximiza a utilidade esperada do estado subseqüente U(s ): π (s) = argmax a s T (s, a, s )U(s). (3.2) Logo, se a utilidade de um estado for a soma esperada de recompensas descontadas desse ponto em diante, então existe um relacionamento direto entre a utilidade do estado e a utilidade de seus vizinhos: a utilidade do estado é a recompensa imediata correspondente a esse estado, somada à utilidade descontada esperada do próximo estado, supondo-se que o agente escolha a ação ótima. Assim, a utilidade de um estado é dada equação (3.3), chamada de equação de Bellman em homenagem a Richar Bellman [2]. U(s) = R(s) + γmax a s T (s, a, s )U(s ). (3.3) A equação de Bellman é a base do algoritmo de iteração de valor para resolução de MDP. Se houver n estados possíveis, então haverá n equações de Bellman, uma para cada estado. As n equações contém n incógnitas - as utilidades para os estados. O algoritmo utiliza uma abordagem interativa para solucionar as equações. Definem-se valores iniciais arbitrários para as utilidades, calcula-se o lado direito da equação e o inseri no lado esquerdo - atualizando a utilidade de cada estado a partir das utilidades de seus vizinhos. Repeti-se o processo até chegar a um equilíbrio. Dessa forma, U i (s) é o valor de utilidade para o estado s na i-ésima iteração. A etapa de iteração, chamada atualização de Bellman, é semelhante a: U i+1 (s) = R(s) + γmax a s T (s, a, s )U i (s ). (3.4) Aplicando-se a atualização de Bellman com freqüência infinita, teremos a garantia de alcançar um equilíbrio, e nesse caso os valores finais de utilidade deverão ser soluções para as equações de Bellman. Eles também são as únicas soluções, e a política correspondente é ótima. O algoritmo, chamado de ITERAÇÂO DE VALOR, é mostrado a seguir:

22 22 função ITERAÇÂO DE VALOR (mdp, ɛ) retorna uma função de utilidade entradas: pdm, um MDP com estados S, modelo de transição T, função de recompensa R, desconto γ, ɛ o erro máximo permitido na utilidade de qualquer estado variáveis locais: U, U, vetores de utilidades para estados em S, δ igual a zero, a mudança máxima na utilidade de todos estados e uma iteração repita U U ; δ 0 para cada estado s em S faça U (s) = R(s) + γmax a s T (s, a, s )U i (s ) se U (s) U(s) > δ então δ U (s) U(s) até δ < ɛ(1 γ)/γ retornar U Após a definição dos valores de utilidades dos estados, podemos utilizá-los para definir ações nos respectivos estados, gerando uma política. Um MDP apresenta um número finito de políticas para um espaço de estados finito, assim, aplicando o algoritmo interação de política podemos encontrar a política com maior valor de utilidade associada. O algoritmo de iteração de política alterna as duas etapas a seguir, começando com alguma política inicial π: Avaliação de política: Dada uma política π i calcular U i = U π i, a utilidade de cada estado se π i tivesse de ser executada. Aperfeiçoamento de política: Calcular uma nova política de UME π i+1, utilizando a observação antecipada de um passo baseada em U i. O algoritmo termina quando a etapa de aperfeiçoamento da política não produz nenhuma mudança nas utilidades. Nesse ponto, sabemos que a função de utilidade U i é um ponto fixo da atualização de Bellman, e, portanto ela é uma solução para as equações de Bellman, e π i deve ser uma política ótima. Como existe apenas um número finito de políticas para um espaço de estados finito e podemos mostrar que cada iteração produz uma política melhor, a iteração de políticas tem de terminar. O algoritmo é mostrado a seguir.

23 23 função ITERAÇÃO-DE-POLÍTICA (pdm) retorna uma política entradas: pdm, um MDP com estados S, modelo de transição T variáveis locais: U, U 0 vetores de utilidades para estados em S, zero π, um vetor de política indexado pelo estado, inicialmente aleatório repita U AVALIAÇÂO-DE-POLÍTICA (π, U, pdm) inalterado? verdadeiro para cada estado s em S faça se max a i T (s, a, s )U[s ] > i T (s, π[s, s ])U[s ] então π[s] argmax a i T (s, a, s )U[s ] inalterado? falso Até inalterado? retornar P 3.3 Processo de Decisão de Markov Parcialmente Observável O processo de decisão de Markov parcialmente observável (POMDP) segue a linha do processo de decisão convencional apresentado na seção 3.1, onde o agente não tem a percepção total do seu estado, possuindo apenas uma distribuição de probabilidade sobre os estados, chamada de estado de crença. Esta visão vem dos trabalhos de Astrom [1] e Kaebling [21] que estende o modelo MDP ao admitir que a observação do agente não tem a capacidade de reconhecer com exatidão o seu estado atual, isto é, o agente é capaz apenas de uma observação parcial do ambiente. Em ambientes parcialmente observáveis o agente não sabe necessariamente em que estado se encontra, e portanto não pode executar a ação π(s) recomendável para esse estado. Além disso, a utilidade de um estado s e a ação ótima em s não depende apenas do estado, mas também do quanto o agente sabe que está em s. Assim, o POMDP em geral é considerado muito mais complexo que o MDP tradicional. No entanto, não podemos evitá-los, visto que, o mundo real é um deles. Os conceitos e descrições a seguir foram extraídos do livro Russell e Norvig [34]. Um POMDP tem os mesmos elementos que um MDP (modelo de transição e a função de recompensa), mas adiciona um modelo de observação O(s, o), que especifica a probabilidade de perceber a observação o no estado s. A utilidade dessa função está em auxiliar na definição do conjunto de estados reais em que o agente poderia estar (estado de crenças). Um estado de crenças b é agora uma distribuição de probabilidade sobre todos os estados possíveis. Utiliza-se b(s) para representar a probabilidade atribuída ao estado real s pelo estado de crenças b. O agente pode determinar seu estado de crença atual como uma distribuição de probabilidade condicional sobre os estados reais, tomando como parâmetros a seqüência de observações e ações até o momento. Assim, para calcularmos o novo estado de crença b (s), utiliza-se b(s) como o estado de crença anterior a execução da ação a e perceber o, então o novo estado de crença é dado por:

24 24 b (s) = αo(s, o) s T (s, a, s )b(s). (3.5) onde α é uma constante de normalização que faz o estado de crença fechar com soma igual a 1. A idéia fundamental exigida para entender o POMDP é: a ação ótima depende apenas do estado de crenças atual do agente. Isto é, a política ótima pode ser descrita por um mapeamento π (b) de estado de crenças para ações. Onde o ciclo de decisão de um agente POMDP é: 1. Dado o estado de crenças atual b, executar a ação a = π (b); 2. Receber a observação o; 3. Definir o estado de crenças atual, e repetir. Outra característica importante do POMDP é que uma ação não altera apenas o estado de crenças do agente, mas também o espaço físico (ambiente), e assim ela é avaliada de acordo com as informações que o agente adquire como um resultado (observações). Definição 5 Um Processo de Decisão de Markov Parcialmente Observável é uma estrutura (S, Ω, φ, A, Ψ, P, R), onde: S, A, P, R descrevem um processo decisão de Markov; Ψ : Ω A representa os pares observação-ação admissíveis; Ω conjunto finito de observações; φ : S A Ω [0, 1] função de probabilidade de observação que associa a cada trio de estado-ação-observação um valor de probabilidade φ(s, a, w), depois de executar uma ação, transita-se para um estado no qual o agente observa ω Ω; No caso de POMDP complexo com conjunto de estados e observações com algumas dezenas de unidades, é muito difícil encontrar políticas ótimas (apresenta complexidade PSPACE-difícil). Uma abordagem é usar o POMDP, para um curto horizonte temporal (pré-definido), desprezando estados de crença com valor abaixo de determinado limiar e desprezando também as zonas do espaço de estados estáticas, que não se alteram por efeito das ações [27].

25 25 4 ARQUITETURA DE AGENTES BDI A arquitetura BDI apresenta uma estrutura e uma lógica própria para a modelagem e a especificação de agentes reativos e cognitivos. Sendo uma das mais importantes arquiteturas para desenvolvimento de agentes inteligentes em sistemas multiagentes. 4.1 Introdução ao modelo BDI O modelo BDI apresenta uma abordagem cognitiva baseada em estados mentais, e tem sua origem no modelo de raciocínio prático humano. O nome atribuído ao modelo é justificado pelos seus estados mentais: crença, desejo e intenção (Belief, Desire and Intention). A fundamentação filosófica para esta concepção de agentes, vem do trabalho de Dennett [9] sobre sistemas intencionais e de Michael Bratman [4] sobre raciocínio prático. O raciocínio prático consiste em ponderar considerações conflitantes a favor e contra alternativas competitivas, onde as considerações relevantes são determinadas pelos desejos e crenças do agente [6, 43]. O raciocínio prático é voltado para ações, ou seja, o processo de descobrir o que fazer em cada instante. Sendo este um processo de seleção, escolhendo um dentre vários cursos de ações. Como exemplo, podemos citar o processo de decidir entre correr ou caminhar. Há também o raciocínio teórico, o qual é dirigido somente às crenças. Como exemplo, cita se as premissas e sua respectiva conclusão: acredito que todos os homens são mortais, e acredito que Sócrates é um homem, então concluo que Sócrates é mortal. O processo de concluir que Sócrates é mortal é um raciocínio teórico, pois afeta apenas as crenças acerca do mundo. O raciocínio prático pode ser dividido em pelo menos duas atividades distintas: Deliberação: Processo que envolve a decisão de qual estado quer-se alcançar; Raciocínio meio-e-fim: Processo que resulta em uma ação (plano), a qual define como será possível alcançar o estado selecionado pelo processo anterior. Para um melhor entendimento das atividades acima citadas, considere o exemplo a seguir: um indivíduo decide comprar um carro, após uma pesquisa em diversas concessionárias, encontra vários modelos e opcionais. Logo o processo de escolher uma das alternativas possíveis é chamando Deliberação. Com base em sua escolha o indivíduo deve definir um plano de ação que possibilite a compra do carro escolhido, este processo

26 26 e chamado de raciocínio meio-e-fim. Neste caso um plano possível envolveria estipular um valor de entrada, o número de prestações a pagar e possíveis reduções de gastos. 4.2 O modelo BDI Os princípios do modelo BDI visam à descrição do processo interno de um agente utilizando um conjunto básico de estados mentais(crenças, desejos e intenções) e na definição de uma arquitetura de controle através da qual o agente seleciona racionalmente o curso de suas ações. O modelo BDI combina três componentes distintos, tornando-se um dos modelos mais estudo e adotado na comunidade de sistemas multiagentes: Componente filosófico: O modelo BDI é fundamentado na conhecida teoria de ação racional em humanos, proposta pelo filósofo Michael Bratman; Componente de arquitetura de software: O modelo BDI não prescreve uma implementação específica. O modelo pode ser implementado de maneiras diferentes. Componente lógico: O modelo BDI é formado por um grupo de lógicas multimodais. Estas lógicas capturam os aspectos chaves deste modelo como um conjunto de axiomas lógicos Estados mentais A idéia principal da abordagem BDI, se concentra no fato de que o agente cognitivo possui estados mentais internos que se relacionam com estado do ambiente com o qual interagem e estabelecem sua existência e significância. Os estados mentais podem ser classificados em duas categorias segundo Searle [35]: estados mentais de informação e estados mentais pró-ativos. A primeira categoria está relacionada à informação que o agente possui sobre o mundo que está inserido, como por exemplo, crença e conhecimento. Os estados mentais pró-ativos são aqueles que de alguma maneira guiam as ações do agente, como por exemplo, os desejos e as intenções. A seguir, são apresentados os três estados mentais adotados pelo modelo BDI. Crenças representam aquilo que o agente sabe sobre o estado do ambiente e dos agentes presentes no ambiente (inclusive sobre si mesmo). As crenças são apenas uma maneira de representar o estado do mundo, seja através de variáveis, uma base de dados relacional, ou expressões simbólicas em um cálculo de predicados. Elas podem ser incompletas ou incorretas e até mesmo contraditórias. Desejos representam estados do mundo que o agente quer atingir (dito de outra forma, são representações daquilo que ele quer que passe a ser verdadeiro no ambiente). Em tese, desejos podem ser contraditórios, ou seja, podem-se desejar coisas que são mutuamente exclusivas do ponto de vista de ação prática. Normalmente se refere a objetivos como um subconjunto dos desejos que são todos compatíveis entre si.

27 27 Intenções são pró-atitudes. Pode ser considerado um subconjunto dos desejos, mas ao contrário destes, devem ser consistentes (compatíveis com as crenças) e persistentes (mantêm-se até serem alcançadas ou não mais atingíveis). Representam seqüências de ações específicas que um agente se compromete a executar para atingir determinados objetivos, ou seja, existe um comprometimento em realizá-las. Ao modelar um agente através do modelo BDI, especificam-se suas crenças e seus desejos, mas a escolha das intenções fica sob a responsabilidade do próprio agente, isto é, de uma auto-análise de suas crenças e seus desejos disponíveis. Às vezes é necessário que um agente deixe de considerar uma intenção, porém as reconsiderações têm um alto custo computacional. Isto ocorre quando uma intenção não pode ser mais atingível devido ao ambiente não mais fornecer subsídios ou se a intenção já tenha sido alcançada por outro agente Arquitetura de agentes BDI A arquitetura de um agente é uma descrição dos processos internos que regem a interação do mesmo com o seu ambiente. Além dos estados mentais definidos no modelo BDI, outros componentes são necessários para a definição de uma arquitetura própria para a especificação e controle de agentes BDI. No trabalho de Gerhard Weiss [40] são definidos outros componentes importantes para uma arquitetura BDI: FRC - Função de revisão de crenças, que a partir da entrada percebida e com as crenças atuais do agente, determina um novo conjunto de crenças; Gera opções - Função geradora de opções, que determina as opções disponíveis para o agente, ou seja, seus desejos, tendo como base suas crenças atuais sobre seu ambiente e suas intenções atuais; Filtro - Função filtro, que representa o processo de deliberação do agente, e que determina as intenções dos agentes, tendo como base suas crenças, desejos e intenções atuais; Ação - Função de seleção de ação, que determina uma ação para executar, tendo como base as intenções atuais. A figura 4.1 apresenta uma visão simplificada do relacionamento entre os estados mentais de crenças, desejos e intenções, com a função de revisão de crenças, função gera opções, função filtro e a função de seleção de ação. Bem como, a possível seqüência de execução nessa arquitetura. Além destes componentes mencionados, algumas arquiteturas BDI usam o conceito de planos. Planos seriam o conjunto de sub-tarefas (pré-compilados) que devem ser seguidos, quando gerada uma intenção. Para Bratman [5] um plano é uma descrição de regras funcionais que torna o raciocínio prático mais tratável, tanto na entrada para o raciocínio meio-fim, onde fornecem um resultado concreto para raciocinar, quanto nas entradas para o processo de filtragem, onde estreitam o leque de deliberação para um limitado conjunto de opções.

28 28 Figura 4.1: Arquitetura BDI básica [19] 4.3 Modelos híbridos BDI-PDM Simari e Parsons, em seu trabalho [37], apresentam os possíveis relacionamentos entre a arquitetura BDI e o processo de decisão de Markov (PDM), no qual simplificaram as descrições BDI e PDM, de modo a estabelecer correlações entre os modelos, visando uma abordagem híbrida dos conceitos. Um PDM, como apresentado na seção 2, pode ser a boa abordagem para a implementação de agentes inteligentes, devido o fato de se estimar valores às utilidades de cada estado, e probabilidades de transição entre estes estados. Com estes valores podemos utilizar algoritmos como a interação de valor para obter uma política ótima, mapeando cada estado para a melhor ação para aquele estado. Devido à natureza interativa deste algoritmo não consegue tratar espaço de estados muito grande (ruína pela dimensão), devido à sua alta complexidade, obtendo assim uma solução a apenas aproximada. Já as abordagens baseadas na arquitetura BDI, os agentes são construídos através de um conjunto de crenças que representa o estado do mundo, e um conjunto de desejos que, de maneira geral, identificam quais estados são objetivos para o agente. Através da deliberação o agente formula uma ou mais intenção. Então o agente constrói um plano para alcançar suas intenções. Uma abordagem BDI para um problema, tem um desempenho bem inferior a uma abordagem PDM, desde que o problema seja representável pela mesma. Entretanto um modelo BDI pode solucionar problemas que estão além do escopo dos modelos PDM. Simari e Parsons descreveram em [37], como ações, estados e funções de transição do PDM podem ser relacionados, com crenças, desejos e intenções do modelo BDI. Em seu trabalho evidenciaram que ambas as descrições consistem em um espaço de estados S, um conjunto de ações A, e uma função de transição T que depende do estado corrente e da ação a ser realizada. Assim, verificaram que a relação fundamental a ser desenvolvida

29 29 está entre políticas e intenções. Duas abordagens foram apresentadas para estabelecer está relação: um que visa à construção de um plano BDI a partir de uma política PDM; e outra que visa à extração de uma política PDM a partir de um plano BDI Construção de um plano BDI a partir de uma política PDM Em seu trabalho, Simari e Parsons [37] definem intenção como o estado que o agente se comprometeu a alcançar, e utiliza o termo plano-intenção (i-plan), para denotar uma seqüência de ações construídas para alcançar este estado, ou seja para alcançar uma determinada intenção. Logo, definiram conceitos para i-plan e tamanho de um i-plan, bem como o que significa um i-plan obedecer à uma dada política. Definição 6 Uma seqüencia de ações (ψ 0, ψ 1,..., ψ p ) é chamada de um i-plan se as ações i (ψ 0 i ψ p ) forem selecionadas para serem executadas uma de cada vez, na ordem da seqüência, para alcançar uma dada intenção. E que p é o tamanho de ψ. Definição 7 Um i-plan ψ de tamanho p obedece a uma política π se, e somente se, ψ i = i, 1 i p, π(s ψ i 1), onde s ψ i é o estado para qual o agente está planejando chegar após executar a ação ψ i 1, e s ψ 0 é seu estado inicial. A definição 7 especifica que um i-plan obedece a uma política se, e somente se, as ações prescritas pelo i-plan são as mesmas prescritas pela política através dos estados intermediários do i-plan. Assumi-se que os i-plans são lineares, e que nenhuma reconsideração é feita devido a resultados inesperados de suas ações. Com base em uma política pode-se obter quantos i-plans forem necessários. Logo, para alcançar novos estados intenção, simplesmente continuamos seguindo a política a partir do estado alcançado após a última intenção. O processo descrito por Simari e Parsons [37] constrói um conjunto de i-plans que obedecem uma política. Se tal política não é necessariamente ótima, portanto nada pode se garantir sobre o resultado, bem como sobre os i-plans estabelecidos, apenas que os membros do conjunto de i-plans obedecerão à política A extração de uma política PDM a partir de um plano BDI O processo reverso da extração de uma política PDM a partir de um plano BDI utiliza um conjunto de i-plans para dar valores de recompensa para estados, de forma a construir políticas para o PDM, que irá imitar o comportamento do agente que segue estes i-plans. Tal abordagem torna possível usar o conhecimento do domínio para resolver problemas que são intratáveis por PDMs convencionais. Utiliza-se este conhecimento, para construir i-plans e então se usa os i-plans para construir uma política. De fato, a partir de intenções constrói i-plans e então usa estes i-plans para construir uma política. Simari e Parsons [37] apresentam um algoritmo próprio para executar a transformação de i-plans em políticas (iplantopolicy), que de posse de um conjunto de i-plans e da estrutura BDI que gerou os i-plans, apresenta como resultado um política π para um agente PDM. O algoritmo considera cada i-plan no conjunto que estiver sendo processado, atribuindo um valor para cada par estado-ação que esteja envolvido no i-plan (valor de utilidade máxima esperada). Após a definição dos valores nos estados aplica-se o algoritmo de iteração de valor para garantir que a política será ótima sob o critério de máxima utilidade esperada, a respeito dos valores fornecidos.

30 30 5 MODELAGEM DAS INTERAÇÕES O objetivo deste capitulo é apresentar o sistema de valores de trocas sociais, como sendo uma abordagem para modelagem de interações em sistemas multiagentes. Este sistema foi descrito tomando como base os valores de trocas de Jean Piaget e a aritmética intervalar para representar valores qualitativos. 5.1 Teoria dos Valores de Trocas Sociais A teoria sociológica de Piaget se baseia na visão sobre a coletividade expressa na passagem [30]: O todo coletivo não é idêntico à soma dos indivíduos que o compõem, pois este todo exerce sobre as consciências uma coação que as modifica. Neste caso, o todo não é equivalente à soma dos indivíduos, mas à soma das relações entre os indivíduos. A partir de dois indivíduos, uma interação que acarreta modificações duráveis pode ser considerada como fato social, e a sociedade seria a expressão do conjunto destas interações entre n indivíduos. Piaget adota uma aproximação relacional, onde na estrutura de uma sociedade os relacionamentos entre os indivíduos são estabelecidos por trocas sociais entre eles. Assim, as interações são compreendidas como trocas de serviços entre indivíduos, envolvendo não somente a realização de serviços por alguns indivíduos em nome de outros, mas também a avaliação de tais serviços, gerando os valores de trocas sociais. Segundo Maíra [33] o conceito dos valores de trocas sociais de Piaget pode ser visto de duas maneiras: de um lado é definido como sendo tudo que pode dar vez a uma troca. Ao definir dessa forma, os valores envolvidos em uma troca não são apenas objetos materiais, mas também idéias, emoções, hábitos sociais etc. Em outra abordagem, um valor é o resultado de uma avaliação mental qualitativa dos elementos envolvidos na interação (ações, emoções, objetivos etc), sendo que cada valor é resultado de uma avaliação mental associada a um desses elementos e pode, dessa forma, influenciar os comportamentos dos indivíduos com relação às interações. Na sua teoria, Piaget distingue quatro momentos básicos em cada processo de troca entre dois indivíduos, que são gerados das avaliações (valores de trocas) das ações prestadas ou recebidas pelos indivíduos: valor de renuncia (r), valor de satisfação (s), valor de reconhecimento (t) e valor de crédito (v). Estas ações realizadas no processo de troca podem ser de dois tipos: ações materiais (r e s) ou efetivas e ações virtuais (t e v) ou postergadas. Assim, uma troca social entre os indivíduos (A, B) segundo Piaget, é executada envolvendo dois estágios de trocas (I e II). No estágio do tipo I, o indivíduo A realiza um

31 31 Figura 5.1: Estágio de trocas sociais serviço para B, e no estágio II, A cobra uma restituição pelo serviço prestado. As trocas realizadas nestes estágios estão representadas na figura 5.1. No estágio I o indivíduo A se propõe espontaneamente a realizar um serviço em favor de B, com objetivo de auxiliá-lo em seus objetivos. Assim, A realiza uma ação em favor de B (ri A ); ao perceber a realização da ação, B exprime uma satisfação pelo serviço recebido A (si B ); e dessa mesma forma, admite um dívida para com A (ti B ). Conseqüentemente, A recebe um crédito para com B (vi A ). Já no estágio II o indivíduo A, verificando a necessidade de uma ação, pode cobrar B a restituição da ação executada anteriormente, verificando os créditos adquiridos com B (vii A ). Por sua vez, B valida a cobrança, verificando sua dívida com A (tii β ), e realiza a ação requerida por A (rii B ). Logo A admite uma satisfação pelo serviço recebido (sii A ). No decorrer da seqüência de eventos das duas etapas de trocas, os valores de trocas envolvidos sofrem variações. Os valores de investimento (r) sofrem variações negativas, já os demais valores (s, t, v) podem ter variações positivas ou negativas. Nas trocas imediatas, os serviços serão avaliados durante a sua realização, permitindo que cada indivíduo regule imediatamente a qualidade e a quantidade do serviço que executa para o outro (como quando dois povos trocam bens materiais, negociando as quantidades em que cada um participa de boa vontade na troca). Dois tipos dos valores são associados a tais serviços, correspondendo ao investimento (r) necessário para executá-los, e a satisfação (s) que podem causar ao cliente. As trocas adiadas envolvem uma separação de tempo, não sendo obrigatória a sua avaliação no momento de sua execução e causam valores de troca virtuais, créditos (v) e

32 32 débitos (t): depois que um indivíduo executou um serviço, ao primeiro é intitulado um crédito para o serviço executado, e ao segundo é intitulado um débito a ser pago em um futuro próximo. 5.2 Sistema de Valores de Trocas Sociais O sistema baseado em valores de trocas apresentado por Dimuro e Costa [13] introduz uma notação algébrica para os valores de trocas, estendendo a definição dos valores de trocas de Piaget, com o intuito ser um mecanismos de raciocínio social baseado em valores de troca, de forma que possa regular as interações em um sistema multiagentes. O sistema de valores de trocas sociais desenvolvido utiliza como base a teoria de trocas sociais, desenvolvida por Piaget, e a visão algébrica de Homans [18] sobre os valores de trocas. Definição 8 Seguindo a definição apresentada em Dimuro e Costa [13], a organização de uma sociedade de agentes S, em um dado tempo t, é conceituada como uma estrutura O = ( A, F, Ro, E, BV, Ru) onde: A é o conjunto dos agentes presentes; F é o conjunto dos serviços dos agentes (funções); Ro é o conjunto de papéis sociais, que podem ser atribuídos os agentes; E é conjunto das trocas sociais que os agentes podem executar entre eles; BV é o conjunto dos balanços de trocas, que suportam as várias maneiras que os agentes podem avaliar as trocas sociais; Ru é conjunto das regras sociais, que regulam os comportamentos dos agentes. Dimuro e Costa em [13] buscaram na definição formal da aritmética intervalar [24], uma forma para representar a natureza qualitativa dos valores de trocas dados na teoria de Piaget, desenvolvendo uma álgebra própria para a manipulação desses valores, a fim de tornar viável a sua implementação em um sistema computacional. A seguir são apresentadas as definições formais para a representação dos valores trocas. Seja IR L = {[x 1, x 2 ] L x 1 x 2 +L} o conjunto dos intervalos limitados, onde L R (L > 0), e seja IR L = (IR L, +, Θ) a escala de valores trocas intervalares, onde: Adição: IR L x IR L é limitada por L, definida por: X + Y = [max{x 1 + y 1, L}, mim{x 2 + y 2, +L}]. O valor nulo é um X IR L, tal que mid(x) = 0, onde mid(x)= x 1+x 2 2, é o ponto médio de X. O conjunto dos valores nulos é denotado por Θ. 0 = [0,0] é o valor nulo absoluto.

33 33 O valor Quasi-Simétrico de X IR L é um intervalo X IR L tal que X + X Θ. O conjunto dos valores quasi-simétrico de X é denotado por X. Com esta definição, torna-se possível a representação dos valores qualitativos da teoria de Piaget em sistemas quantitativos, uma vez que os intervalos gerados tem a capacidade intrínseca de representar incertezas, sendo possível a sua utilização em processos computacionais Modelagem das Trocas Sociais Intervalares Sejam T um conjunto de tempo discreto e α, β dois agentes. Um sistema intervalar de valores de trocas para a modelagem de trocas sociais entre α e β é uma estrutura: IR αβ = (IR L ; ri αβ, rii βα, si βα, sii αβ, ti βα, tii βα, vi αβ, vii αβ ) onde: (1) ri αβ, rii βα : T IR L, si βα, sii αβ : T IR L (2) ti βα, tii βα : T IR L, vi αβ, vii βα : T IR L São funções parciais, chamadas funções de valores de trocas, que em cada instante de tempo t T, determinam valores de investimento, satisfação, débito, e créditos, respectivamente, envolvidos em uma troca. Utilizamos a seguinte notação: ri αβ (t) = r t Iαβ, rii βα(t) = r t IIβα, si βα(t) = s t Iβα, sii αβ(t) = s t IIαβ, ti βα (t) = t t Iβα, tii βα(t) = t t IIβα, vi αβ(t) = v t Iαβ, vii αβ(t) = v t IIαβ Para as funções dos valores de trocas, em dado instante t, as proposições a seguir devem ser satisfeitas para cada agente α e β. O Símbolo denota um valor de troca indefinido. (3) r t Iαβ = st Iβα = tt Iβα = vt Iαβ = (4) v t IIαβ = tt IIβα = rt IIβα = st IIαβ = (5) r t Iαβ (t) vt IIαβ = Onde: riαβ t = denota que o agente α não realizou um serviço para o agente β no tempo t, e, conseqüentemente, todos os valores de troca correspondentes ao estágio I são indefinidos. viiαβ t = denota que o agente α, no tempo t, não adquiriu o crédito para um serviço feito previamente para o agente β, e, conseqüentemente, todos os valores de troca correspondentes ao estágio II são indefinidos. A implicação (5) significa que, de acordo com a estrutura das trocas sociais (Figura 1), não é possível para um agente α executar um serviço para β e, ao mesmo tempo t, receber um crédito. Uma configuração de valores de troca para qualquer par de agentes α e β, em um momento t, é especificada por uma tupla, onde todos os valores de trocas envolvidos são bem definidos: (r t Iαβ, st Iβα, tt Iβα, vt Iαβ ), (rt Iβα, st Iαβ, tt Iαβ, vt Iβα )

34 34 (v t IIαβ, tt IIβα, rt IIβα, st IIαβ ), (vt IIβα, tt IIαβ, rt IIαβ, st IIβα ) Um processo de troca social entre dois agentes α e β de um sistema multiagentes, ocorrendo durante os instantes do tempo T = t1,..., tn, é toda a seqüência finita de configurações de valores de troca e t 1,..., e t n, em que cada elemento desta seqüência consiste de um estágio de trocas, que pode ser um estágio do tipo I ou II. O balanço dos valores de troca do estágio do tipo I de um processo social de troca entre qualquer par de agentes α e β que ocorreu durante um intervalo T é uma tupla: (6) b T I(α,β) = (rt Iαβ, rt Iβα, st Iαβ, st Iβα tt Iαβ, tt Iβα, vt Iαβ, vt Iβα ) Onde, para k = r,s,t,v: K T I(αβ) = t T k t I(αβ) and K T I(βα) = t T k t I(βα) para todo KI(αβ) t and Kt I(βα). O balanço das trocas dos estágios do tipo II, denotado por b T II(α,β) é definido analogamente. O balanço geral da troca pode ser representado por uma tupla: b T (α,β) = bt I(α,β) + bt II(α,β) O balanço material m αβ e o m βα de um processo de trocas sociais que acontece entre os agentes α e β, durante o intervalo T, de acordo com o ponto de vista de α e β, respectivamente, são dados pela soma dos valores materiais envolvidos no processo: (7) m T αβ = (rt Iαβ + st IIαβ + rt IIαβ + st Iαβ ) (8) m T βα = (rt Iβα + st IIβα + rt IIβα + st Iβα ) Analogamente, os resultados virtuais v αβ e v βα são definidos por: (9) v T αβ = (tt Iαβ + vt IIαβ + tt IIαβ + vt Iαβ ) (10) v T βα = (tt Iβα + vt IIβα + tt IIβα + vt Iβα ) Os resultados gerais envolvem todos os valores de trocas, e são obtidos por: (11) g T αβ = (mt αβ + vt αβ ), gt βα = (mt βα + vt βα ) Os processos de trocas sociais entre um par de agentes α e β é dito estar no equilíbrio (com tolerância e 0). Se g T αβ Θ ε e g T βα Θ ε O equilíbrio material é atingido quando: m T αβ Θ ε e m T βα Θ ε

35 35 A proposta dos sistemas de valores de trocas apresentada, em que o controle sobre as interações é determinado pelo balanço dos valores que os agentes trocam enquanto interagem, é vista como uma abordagem consistente, mas não apresenta uma sistemática eficiente para conduzir e/ou manter o sistema estável durante um intervalo de tempo considerável, uma vez que, a ocorrência de desvios pode conduzir o sistema ao desequilíbrio permanente. Assim, torna-se necessária a existência de um mecanismo que reconheça a ocorrência de desvios e faça recomendações para os agentes, de forma a conduzir o sistema ao estado de equilíbrio desejado. 5.3 Supervisor de Equilíbrio Centralizado Com o propósito de regular as interações em sistemas multiagentes [13] Dimuro e Costa apresentam em seu trabalho [11], uma arquitetura para um supervisor de interações em sistemas multiagentes, dando continuidade em seu trabalho. Este supervisor com a função de regular o sistema, no qual emiti recomendações de trocas a cada par de agentes presentes no sistema, objetivando a busca do estado de equilíbrio global. O supervisor faz recomendações de trocas a serem realizadas pelos agentes, através de um Processo de Decisão Qualitativo Intervalar de Markov [10], onde os estados deste modelo são os balanços materiais dos agentes envolvidos e as recomendações são configurações parciais de estágios de trocas. Dentro desta arquitetura, existe também um módulo de aprendizagem baseado nos modelos de estados ocultos de Markov, que busca reconhecer os traços de personalidade dos agentes participantes do processo de troca, a fim de determinar o balanço interno dos agentes não-transparentes, sendo fundamental para que o supervisor possa analisar a situação atual do sistema de maneira correta e recomende trocas a todos os participantes presentes. A arquitetura apresentada na Figura 5.2 é o modelo desenvolvido para coordenar sistemas multiagentes [12], que operam com agentes baseados em personalidades. Este mecanismo de regulação tem como objetivo manter a estabilidade dos balanços de trocas em torno de um valor determinado pelo supervisor, não necessariamente o ponto de equilíbrio, de acordo com as restrições impostas pelo ambiente interno e externo. O ponto de estabilidade pode variar com o tempo, sempre que as condições destes forem alteradas. Dentre os diversos componentes da arquitetura exposta, deve-se ressaltar os módulos de avaliação, identificação de personalidades e o módulo de decisão. Módulo de Avaliação (Evaluation Module): é o módulo que determinará o ponto de estabilidade almejado em determinados instantes de tempos, pela análise das condições e restrições impostas pelo ambiente externo e interno. Módulo de Identificação de Personalidades (HMM): é o módulo do supervisor de estabilidade que permitir reconhecer traços de personalidades dos agentes não transparentes, ou aprender novos traços de personalidade, baseando-se em observações (Obs) dos agentes. Módulo de Decisão (QI-MDP): é o módulo do supervisor que executa o processo de decisão. Baseando-se nos balanço dos valores de trocas materiais e virtuais e no ponto de equilíbrio alvo. Assim, elabora um conjunto de recomendações formado por trocas sociais, estas recomendações são passadas aos agentes, de forma que estes possam adotá-las ou não.

36 36 Figura 5.2: Arquitetura do Supervisor Segundo os autores este modelo também poderá considerar a possibilidade do sistema multiagentes ser organizado como uma coleção de sub-sistemas, cada um podendo apresentar um ponto de estabilidade interno. Poderá haver, então, uma hierarquia de supervisores de interação, para a regulação das trocas entre os agentes, sendo estas internas a cada sub-sistema. No trabalho de Vargas [16], a arquitetura do supervisor de interações foi implementada em um agente especial denominado supervisor Equilíbrio, com a tarefa de controlar e administrar as interações entre pares de agentes. O agente supervisor armazena os balanços materiais fornecidos pelos agentes durante o seu ciclo de interação e, de tempos em tempos, faz uma avaliação do estado atual do sistema, e com base nesta avaliação, define novos processos de interação aos agentes, assim como, os valores a serem negociados. Neste trabalho apresenta-se a realização de diversas simulações com agentes baseados em personalidades, bem como a atuação do agente supervisor. Mas a visão centralizada do processo de decisão para sistemas multiagentes não é bem vista pela comunidade científica, que prima pela autonomia dos agentes, em que estes tenham a liberdade de proporem ou aceitarem interações que melhor lhe convirem. Dessa forma buscou-se uma nova abordagem para o controle das interações, em que este controle seja realizado internamente pelos próprios agentes Agente com Módulo de Supervisão Interno Com o objetivo de descentralizar o processo de controle das interações executadas pelo agente supervisor, buscou-se nos processos de decisão de Markov parcialmente observáveis (POMDP), uma nova abordagem para criar um mecanismo de regulação internalizado nos agentes. Assim, cada agente contará com um conjunto de regras a serem extraídas da política ótima do POMDP [29], as quais através das observações recebidas, qualifica o agente a inferir o estado atual do seu parceiro, e a partir dai a definir novos processos de interação que os levem ao estado de equilíbrio.

37 37 Figura 5.3: Processo de atividades agente com POMPD Um agente com o módulo de supervisão internalizado pode ser caracterizado como agente híbrido (BDI-POMDP), em que o processo de decisão do agente BDI é definido pela política ótima do POMDP, através das regras extraídas da política ótima. No trabalho Perreira [29] é apresentado um algoritmo para extração de regras BDI, a partir de políticas ótimas POMDP. Em função da complexidade para se definir uma política ótima POMDP, para pares de agentes, devido ao seu conjunto de estado ser formado pela combinação do conjunto de estados individuais e o conjunto de ações disponíveis, buscou-se uma abordagem particionada para o sistema. Assim, o cálculo da política foi dividido em três partes, ou seja, para cada estado do agente com POMDP, definiu-se uma política para tratar tal situação. Dessa forma, gerou-se uma política para o estado de equilíbrio interno do agente (π 0 ), uma para o estado favorável (π + ) e uma política para o estado desfavorável (π ). Na Figura 5.3 apresenta a seqüência de atividades executadas pelo agente com a política ótima internalizada. O processo inicia com a execução de uma interação espontânea por parte de um dos agentes, após o término dessa, os agentes atualizam os seus balanços internos. Com base em uma analise do seu estado atual, o agente com o POMDP internalizado seleciona-se uma das políticas (π 0, π +, π ), esta lhe fornecerá a próxima interação que deve ser executada pelos agentes. A interação também será definida em função da observação relatada pelo parceiro de interação, que a define através do seu estado interno (balanço material) e também com base em seus critérios de avaliação (traço de personalidade). Este processo deve-se repetir até que se encerre o ciclo de interação entre os agentes.

38 38 6 APLICAÇÃO Com o objetivo de desenvolver sistemas multiagentes voltados para área de simulação social, neste capítulo descreveremos a modelagem de agentes baseados em traços de personalidade e com POMPDs internalizados. Estes agentes negociam suas interações com base no sistema de valores de trocas, objetivando satisfazer interesses próprios e coletivos. 6.1 Agentes Baseados em Traços de Personalidades No trabalho de Vargas [16] foram modelados alguns dos possíveis traços de personalidades para agentes cognitivos. Neste trabalho analisaram-se aspectos que dizem respeito: aos possíveis lucros que os agentes buscam obter durante os processos de trocas sociais; à postura que os agentes assumem perante o mecanismo de regulação; as diferentes atitudes com relação à avaliação de seus resultados virtuais, expressas através de observações; e o controle que os agentes disponibilizam ao acesso externo de seus balanços de valores de trocas materiais. Assim temos: Quanto aos lucros que os agentes buscam obter durante os processos de trocas sociais: Egoísta: agente com alta probabilidade de realizar trocas que lhe trazem lucros e benefícios; Altruísta: agente com alta probabilidade de realizar trocas que geram lucro e benefícios aos seus parceiros; Fanático: agente com altíssima probabilidade de realizar trocas que os levem ao equilíbrio, evitando outros tipos de trocas que gerem maior ou menor lucro para um dos participantes; Tolerante: agente com altíssima probabilidade de aceitarem qualquer tipo troca que lhe seja proposta, independentemente de lucros ou prejuízos. Quanto à postura que os agentes assumem perante o mecanismo de regulação: Obediência Cega: agentes que seguem sempre as recomendações recebidas; Obediência Eventual: agentes que seguem ou não as recomendações de acordo com certas probabilidades;

39 39 Desconsideração Total das Recomendações: agentes que não levam em consideração as recomendações. Quanto à avaliação de seus resultados virtuais, expressas através de observações relatadas a outros agentes: Realista: agente com alta probabilidade de realizar avaliação correta, relatando observações de débitos e créditos reais. Super-estimador: agentes com alta probabilidade de relatar que possuem créditos e baixa probabilidade relatar débitos. Sub-estimador: agentes com alta probabilidade de relatar que possuem débitos e baixa probabilidade de relatar créditos. Quanto à disponibilidade de acesso externo aos seus balanços de valores de trocas materiais: Transparentes: agentes que permitem o acesso externo completo a seus balanços de valores de trocas materiais internos. Não-Transparentes: agentes que restringem o acesso externo a seus balanços de valores de trocas materiais. Em Dimuro, Vargas e outros [12] apresenta-se a modelagem de traços de personalidade, através de matrizes de transição de estado probabilísticas, que em função do estado atual e uma distribuição de probabilidades sobre os estados, definem o novo estado a ser alcançado pelo agente. Neste trabalho, definiram se matrizes para os traços de personalidade egoísta, altruísta, fanático e tolerante. No decorrer deste trabalho, analisar-se-á somente os traços de personalidade egoísta e tolerante, de forma a concentra-se apenas nos resultados gerados pela nova abordagem de regulação de interações, através de políticas POMDP. A seguir, descrevese a modelagem dos traços de personalidades egoísta e tolerante, através de matrizes de transição de estados, em que os agentes avaliam os seus balanços internos, em três possíveis estados, equilibrado (E 0 ), favorável (E + ) e desfavorável (E ). Sendo favorável quando tenha mais satisfações que realizações e desfavorável quando tenha mais realizações que satisfações. As matrizes de transição de estados para o traço de personalidade egoísta, modela a busca do agente pelo estado favorável (E + ), em que as trocas lhe permitam adquirir mais lucros do que perdas. Não existe um comprometimento forte com a ação executada. Logo, estes agentes são mais suscetíveis a aceitarem serviços, com altas probabilidades de os levarem ao estado favorável Tabela 6.1, do que a aceitarem pedidos de serviço Tabela 6.2, isto se evidência pela alta probabilidade de permanecer no estado atual. As matrizes de transição de estados para o traço de personalidade tolerante modelam um processo de troca mais aberto, com transições bem direcionas (probabilidades elevadas) pela ação. Quando o agente tolerante recebe um serviço Tabela 6.3 faz transições com alta probabilidade para estados maiores que o atual, e quando presta um serviço Tabela 6.4 faz transições com alta probabilidade para estados menores que o atual, isto é, as probabilidade de transição está diretamente ligada pela ação executada.

40 40 Tabela 6.1: Matriz traço de personalidade Egoísta, recebendo um serviço Tabela 6.2: Matriz traço de personalidade Egoísta, executando um serviço. E 0 E + E E E E E 0 E + E E E E Tabela 6.3: Matriz traço de personalidade Tolerante, recebendo um serviço Tabela 6.4: Matriz traço de personalidade Tolerante, executando um serviço. E 0 E + E E E E E 0 E + E E E E Nessa nova abordagem do controle de interações através de políticas POMDPs, os agentes devem disponibilizar informações sobre o seu estado interno após cada interação. Esta abordagem proporciona o desenvolvimento dos traços de personalidades referentes à avaliação de resultados virtuais, expressas através de observações. Logo, podemos modelar agentes realistas, sub-estimadores e super-estimadores. Novamente utilizou matrizes de transição para representar a emissão de observações. Estas observações são definidas pelo conjunto O = ( N, D, C ), onde N (NULO) representa o estado interno de equilíbrio, D (DÉBITOS) representa o estado favorável e C (CRÉDITOS) representa o estado desfavorável. Esta nomenclatura parece um tanto contraditória. Para exemplificar, tomamos a situação de um agente que tenha recebido diversos serviços de seu parceiro, e, portanto, encontra-se no estado favorável (E + ), devida as inúmeras satisfações adquiridas. Este agente tem uma dívida de gratidão com seu parceiro, logo está em débito com este. De forma análoga, verifica-se para o estado desfavorável. O traço personalidade realista está modelado pela matriz Tabela 6.5, na qual verifica-se que existem altas probabilidades de relatar de forma correta o estado atual. O traço de personalidade sub-estimador está representado pela matriz Tabela 6.6, na qual o agente tem probabilidades elevadas de relatar estados menores que o atual, e por fim o traço de personalidade super-estimador, modelado pela matriz Tabela 6.7 tem alta probabilidade de relatar estados maiores que o atual. Tabela 6.5: Matriz traço de personalidade Realista. N D C E E E Tabela 6.6: Matriz traço de personalidade Sub-Estimador. N D C E E E

41 41 Tabela 6.7: Matriz traço de personalidade Super-Estimador. N D C E E E Este trabalho detém se no estudo e desenvolvimento de um processo supervisor interno em cada agente, de forma que este apresentem um controle sobre dinâmica das interações, mantendo à busca pelo estado de equilíbrio interno do sistema. Para que um agente seja capaz de controlar o seu estado interno e o de seu parceiro, através de políticas POMDP, este deve conhecer características relevantes do seu parceiro. Esta necessidade fica ainda mais evidenciada quando se opera com agentes baseados em traços de personalidades. Assim, o agente com processo supervisor interno necessitará de uma política POMDP para cada traço de personalidade, de maneira a capacitá-lo a inferir o estado atual de seu parceiro e a tomar a melhor decisão de ação a ser executada POMDP para o agente com traço de personalidade Ao adicionar traços de personalidades aos agentes que interagem utilizado o sistema de valores de trocas para negociarem interações, torna-se necessário mecanismos de controle de interações, capazes de gerenciar e monitorar o andamento do sistema. Isto deve se em função das preferências dos agentes em relação ao estado almejado pelo agente, estas preferências geram um desequilíbrio interno no processo de troca, que será refletido no equilíbrio global do sistema. Para tratar desvios de balanços no sistema de valores de troca, buscou-se nos processos de decisão de Markov parcialmente observáveis uma sistemática capaz de reconhecer o estado atual mais provável de um parceiro de interação, através das observações recebidas, e a partir dai, definir novos processos de trocas a serem executados pelos agentes, na busca do equilíbrio. Este agente com processo de supervisão interno esta descrito na seção Agentes com processo de supervisão internalizado necessitam ter internamente políticas ótimas que representam aproximadamente o comportamento do outro agente. Logo, necessita-se modelar um POMDP para cada traço de personalidade. Neste trabalho restringiu-se ainda mais a especificação do POMDP, em função da complexidade de manipular pares de agentes, com um conjunto de estados (E 0, E +, E ), uma vez que as matrizes de transição seriam formadas pela combinação desses estados. Optou-se por dividir o POMDP base, em três POMDPs parciais, um para cada estado do agente que executa o processo de decisão POMDP para o agente egoísta - Estado equilíbrio A modelagem de um POMDP para o traço de personalidade egoísta-realista, em que um agente executa o processo de decisão estando no estado atual de equilíbrio (E 0 ). Leva em consideração as matrizes de transição estados deste traço de personalidade, na realização de um serviço Tabela 6.2, e no recebimento de um serviço Tabela 6.2. Utiliza também a matriz de observação Tabela 6.5 para o traço personalidade realista, assim com,

42 42 uma função de recompensa que atribui um valor de recompensa ou punição por alcançar o novo estado do sistema, após executar uma ação. A seguir apresentamos os demais atributos para representar o traço de personalidade egoísta-realista em um POMDP. S = (E 0, E, E + ) Estado do Balanço interno do agente A = (faz-serviço, pede-serviço) Ações disponíveis P Matriz transição de estado do agente egoísta (Tabela 6.1, 6.2) R Função de recompensa definida pela matriz (Tabela 6.8, 6.9) Ω = (N, D, C) Observações possíveis para o estado atual do agente φ Matriz de observação (Tabela 6.5) A Tabela 6.8 descreve a função de recompensa para agentes com POMDPs internalizado quando este decide por realizar uma ação faz-serviço para o seu parceiro de interação. Logo, as linhas da tabela representam os possíveis estados alcançáveis pelo agente com POMDP internalizado, e as colunas representam os possíveis estados alcançáveis pelo agente parceiro, com a realização da referida ação. O cruzamento do estado alcançado pelo agente com POMPD e o estado alcançado pelo agente parceiro definiu a recompensa atribuída ao executor da ação. Assim, ao definir um POMDP para o estado de equilíbrio, leva-se em conta somente a linha do estado de equilíbrio E 0, para ação faz-serviço e para ação pede serviço Tabela 6.9. Quando especifica-se um POMDP para o estado favorável leva-se em conta a linha do estado E +. Tabela 6.8: Matriz de recompensa para a ação faz-serviço Tabela 6.9: Matriz de recompensa para a ação pede-serviço. E 0 E + E E E E E 0 E + E E E E Após a especificação dos parâmetros do POMDP e de posse dos algoritmos de Witness descrito e implementado por Cassandra [7], pode se calcular a política ótima para o POMDP do agente com traço personalidade egoísta-realista. A política gerada está representada por regras, que dada a regra atual e observação recebida, transita para uma nova regra, executando a ação descrita pela política (01 - faz-serviço, 02 - pedeserviço). Na Tabela 6.10 apresenta uma versão simplificada da política gerada, foram retirado alguns nodos, em que nenhuma observação levava até eles. A partir da política gerada pode-se definir um grafo de política para o POMDP Figura POMDP para o agente egoísta - Estado favorável O cálculo de um novo POMDP para o estado favorável E +, demanda a utilização das linhas E + da matriz faz-serviço Tabela 6.8 e da matriz pede-serviço Tabela 6.9, visto que, nesse momento o agente com a política ótima internalizada para interagir com o agente egoísta-realista, encontra-se no estado atual favorável (E + ) e não mais no estado

43 43 Figura 6.1: Grafo de política agente egoísta-realista - Estado Equilíbrio

44 44 Tabela 6.10: Política para um agente no estado E 0 interagindo com agente egoíta-realista Nodo atual Ação Obs(N) Obs(D) Obs(C) de equilíbrio. Logo, as ações que este tomar, devem receber retribuições diferenciadas em relação as do estado de equilíbrio. A política ótima para o estado favorável está representa através do conjunto de regras apresentadas na Tabela 6.11, bem como a sua representação em grafo Figura 6.2. Tabela 6.11: Política para um agente no estado E + interagindo com agente egoíta-realista Nodo atual Ação Obs(N) Obs(D) Obs(C) POMDP para o agente egoísta - Estado desfavorável O cálculo de um novo POMDP para o estado desfavorável E, demanda a utilização das linhas E da matriz faz-serviço Tabela 6.8 e da matriz pede-serviço Tabela 6.9. A política ótima para o estado desfavorável está representa através do conjunto de regras apresentadas na Tabela 6.12, bem como a sua representação em grafo Figura 6.3. Tabela 6.12: Política para um agente no estado E interagindo com agente egoíta-realista Nodo atual Ação Obs(N) Obs(D) Obs(C)

45 45 Figura 6.2: Grafo de política agente egoísta-realista - Estado Favorável Figura 6.3: Grafo de política agente egoísta-realista - Estado Desfavorável

46 46 Figura 6.4: Grafo de política agente tolerante-realista POMDP para o agente tolerante - Estado equilíbrio A modelagem de um POMDP para o traço de personalidade tolerante-realista, em que um agente executa o processo de decisão estando no estado atual de equilíbrio (E 0 ). Necessita das matrizes de transição estados deste traço de personalidade, na realização de um serviço Tabela 6.4 e no recebimento de um serviço Tabela 6.3. Utiliza também a matriz de observação Tabela 6.5 para o traço personalidade realista, assim com, as matrizes de recompensas que foram utilizadas no cálculo da política no agente egoístarealista, para a ação faz-serviço Tabela 6.8 e para ação pede serviço pede-serviço Tabela 6.9. Na Tabela 6.13 apresenta uma versão simplificada da política gerada, foram retirado alguns nodos, em que nenhuma observação levava até eles. A partir da política gerada pode-se definir um grafo de política para o POMDP do traço de personalidade tolerante-realista Figura 6.4. Tabela 6.13: Política para um agente no estado E 0 interagindo com agente toleranterealista Nodo atual Ação Obs(N) Obs(D) Obs(C)

47 47 Figura 6.5: Grafo de política agente tolerante-realista POMDP para o agente tolerante - Estado favorável A política ótima para o estado favorável está representa através do conjunto de regras apresentadas na Tabela 6.14, bem como a sua representação em grafo Figura 6.5. Tabela 6.14: Política para um agente no estado E + interagindo com agente toleranterealista Nodo atual Ação Obs(N) Obs(D) Obs(C) POMDP para o agente tolerante - Estado desfavorável A política ótima para o estado desfavorável está representa através do conjunto de regras apresentadas na Tabela 6.15, bem como a sua representação em grafo Figura 6.6. Tabela 6.15: Política para um agente no estado E interagindo com agente toleranterealista Nodo atual Ação Obs(N) Obs(D) Obs(C)

48 48 Figura 6.6: Grafo de política agente tolerante-realista

49 49 7 IMPLEMENTAÇÃO E RESULTADOS Neste capitulo discorre sobre a implementação de políticas ótimas POMDP em uma arquitetura BDI. No processo de implementação e geração dos resultados utilizou-se o interpretador Jason para agentes BDI e a linguagem Java para geração dos gráficos de resultados. 7.1 Implementação de agentes BDI com processo de supervisão internalizado Com base no trabalho desenvolvido em Vargas [16], no qual implementou-se agentes BDI, no interpretador de sistemas multiagentes Jason (Java-based AgentSpeak Interpreter Used with Saci For Multi-Agent Distribution Over the Net) [19], no qual desenvolveu-se uma estrutura própria para a representação do sistema de valores de trocas intervalar, através de regras AgentSpeak [3], bem como, um conjunto de classes necessárias para manipular intervalos na linguagem Java, sendo esta linguagem a base do interpretador Jason. Além da implementação de agentes dotados de regras capazes de negociarem interações, tomando por base o sistema de valores de trocas, implementou-se a figura do agente supervisor de equilíbrio, tarefa desenvolvida por um agente próprio com capacidade de avaliar o sistema e recomendar processos de trocas aos agentes envolvidos. Conforme discutido no capitulo 5, a visão centralizada do processo de controle de interações não é bem visto pela comunidade científica. Assim, buscou-se nos processos de decisão de Markov parcialmente observáveis, uma sistemática capaz de inferir o estado de agentes parceiros de interações e recomendar trocas a estes, que interagem ao logo do tempo. Esta visão tem a vantagem de eliminar a figura do supervisor de equilíbrio e internalizar o processo de controle nos próprios agentes Modelagem do Agente com processo de decisão internalizado Para a modelagem de agentes com traço de personalidade é especificado um conjunto de crenças iniciais e um conjunto de regras. As crenças têm a função de representar o conhecimento inicial do agente sobre o ambiente, sobre si e sobre parceiros, já as regras representam as possíveis ações que podem ser executadas pelos agentes, ou seja, as capacidades que estes são dotados. Dessa forma, representaram-se políticas POMDP nas regras dos agentes BDI, para fazerem parte do raciocínio prático do agente durante o processo de deliberação, quando este define as próximas ações a serem executas. Com base no diagrama de atividades da UML, buscou especificar a seqüência de

50 50 intenções executadas pelo agente BDI, durante o processo de trocas sociais do estágio I e do estágio II. Esse processo serve de base para a implementação de agentes BDI, por se tratarem de processos dinâmicos e autônomos. A dinâmica do processo de troca social do estágio I, está descrito no diagrama de atividades Figura 7.1, em que o agente com traço de personalidade egoísta possui internamente um conjunto de regras extraídas da política ótima do POMDP, para interagir com o agente tolerante. O conjunto de regras contém as políticas para o estado de equilíbrio, favorável e desfavorável, conforme descrito na seção 6.1.1, logo este agente está apto a negociar com um agente de traço de personalidade tolerante. O processo inicia com uma interação espontânea estabelecida pelo agente egoísta, que se disponibiliza a realizar um serviço para o agente tolerante. O processo de valorização fica a cargo dos próprios agentes, seguindo os seus traços de personalidades, ao final do ciclo de interação os agentes realizam as devidas atualizações de seus balanços de trocas e encerram o processo de troca. Como o agente egoísta está dotado de regras para negociar com o agente tolerante, este faz uma avaliação do seu estado atual (E 0, E, E + ), através de uma análise do seu balanço material e constata qual o conjunto de regras que deve utilizar para restabelecer o equilíbrio do interno do sistema. Se verificar que se encontra no estado (E ) devido a sua realização, buscará o conjunto de regras descrito pela política para o estado (E ), dessa forma, poderá inferir a ação que deva ser capaz de conduzir os agentes ao estado de equilíbrio. De posse do conjunto de regras apropriadas para a situação atual, o agente egoísta aguarda uma observação do agente tolerante que lhe auxilie no processo de definir a melhor ação a ser executada pelo par. O agente tolerante define a observação através da analise do seu balanço material (E 0, E, E + ), por se tratar de um agente com traço de personalidade tolerante-realista, emite observações exatas do seu provável estado, observações estas contidas no conjunto (N,D,C) apresentadas na seção 6.1. E as repassa para o agente egoísta através de uma mensagem. O agente egoísta de posse do conjunto de regras para o seu estado atual e da observação recebida do agente tolerante, define a ação a ser executa pelo par e a próxima regra que servirá de base para análise das próximas interações. O diagrama de atividades apresentado na Figura 7.2, descreve um processo de troca social do estágio II, entre o agente com traço de personalidade egoísta e tolerante. O primeiro contém o conjunto de regras próprias para negociar com o agente toleranterealista. A descrição do processo apresenta grandes semelhanças com o estágio I, a única diferença marcante está no fato do agente tolerante poder recusar a cobrança de um serviço, fazendo com que o processo termine com a valorização nula para o processo de troca. Ou seja, não haverá alteração nos balanços dos agentes envolvidos. 7.2 Simulações Com base nas especificações de traços de personalidades e na especificação de POMDP para os referidos traços apresentados no capitulo 5, realizou simulações entre os agentes tolerante e egoísta. Inicialmente simulações simples, em que apenas um dos agentes possuía o processo de decisão internalizado. Em um segundo estágio realizou simulações, em que ambos os agentes possuíam o processo de decisão e que em determinados momentos trocam o controle do sistema. Assim, em alguns momentos um deles determina processos de trocas através de suas regras, hora outro o faz da mesma forma.

51 51 Figura 7.1: Diagrama de atividades para agentes egoísta e tolerante

52 52 Figura 7.2: Diagrama de atividades entre agentes egoísta e tolerante-realista

53 7.2.1 Simulação entre agente tolerante(pomdp) e egoísta 53 A simulação apresentada na Figura 7.3 e na Figura 7.4, representa o processo de troca entre o agente tolerante(pomdp) contendo um conjunto de regras próprios para negociar com o agente egoísta. Nessa simulação realizaram-se 80 interações, sendo a primeira espontânea e as demais supervisionadas. Os gráficos representam os balanços materiais dos agentes. Figura 7.3: Gráfico balanço material agente tolerante(pomdp) Figura 7.4: Gráfico balanço material agente egoísta Em uma análise superficial verifica-se que o agente egoísta apresenta inúmeras recusas ao agente tolerante com processo decisão internalizado, quando encontra-se no estado favorável, evidenciando o a sua preferência por manter-se neste estado.

54 7.2.2 Simulação entre agente egoísta(pomdp) e tolerante 54 A simulação apresentada na Figura 7.5 e na Figura 7.6, representa o processo de troca entre o agente egoísta contendo um conjunto de regras próprios para negociar com o agente tolerante. Nessa simulação realizaram-se 80 interações, sendo a primeira espontânea e às demais supervisionada. Figura 7.5: Gráfico balanço material agente egoísta(pomdp) Figura 7.6: Gráfico balanço material agente tolerante Nessa simulação observa-se a flexibilidade do agente tolerante, que aceita em quase todo o processo as recomendações, as decisões do agente egoísta. Outra característica observada nesta simulação e a ocorrência de um padrão no processo de troca, além da manutenção do agente egoísta no estado favorável.

55 Simulação entre agente egoísta(pomdp) e tolerante(pomdp) A simulação apresentada na Figura 7.7 e na Figura 7.8, representa o processo de troca entre o agente egoísta contendo um conjunto de regras próprios para negociar com o agente tolerante. Mas o agente tolerante também contendo um conjunto de regras para negociar com o agente egoísta. Definiu-se que o processo de troca iniciaria pelo agente egoísta como sendo o supervisor do processo, e o agente tolerante apenas respondendo as chamadas destes. Entretanto adicionou uma restrição em cada agente se o balanço material do agente supervisor ultrapassar um limite (valor inicial igual a 5), este deveria passar o controle do processo para o outro agente, fazendo que esse tomasse posse do controle da interação. Figura 7.7: Gráfico balanço material agente egoísta(pomdp) Figura 7.8: Gráfico balanço material agente tolerante(pomdp) Nesta simulação verifica como as anteriores que o agente egoísta busca o estado favorável, e tenta manter o agente tolerante no estado de equilíbrio. Mas quando ocorre a

Exibir mais