EXERCÍCIOS. Arquiteturas. Aprendizagem por Reforço MESTRADO INTEGRADO EM ENGENHARIA INFORMÁTICA E COMPUTAÇÃO 4º ANO

EXERCÍCIOS Arquiteturas 1. A companhia aérea TAR está a estudar a hipótese de efetuar voos exclusivamente com um piloto automático. O avião possui um percurso pré-definido correspondente ao caminho mais curto, que deverá seguir, sempre que possível. Pretende-se chegar em segurança ao destino e no menor tempo possível. No caso de existir nevoeiro intenso ou poços de ar, o avião deverá alterar a sua altitude (verificando limites máximos e mínimos de altitude de voo, bem como a existência de outros aviões). No caso de existir vento forte, o avião deverá alterar a sua velocidade ou percurso. Pode assumir outras informações que considerar relevantes. Especifique a arquitetura BDI de um agente que modela o piloto automático do avião. 2. Um robô explorador com capacidade de recolha de determinado minério é enviado para o planeta Marte. A localização do minério não é conhecida à priori. O planeta Marte possui obstáculos que o robô consegue detetar através dos seus sensores, devendo evitá-los. O robô possui uma capacidade de transporte, pelo que quando atinge essa capacidade deve retornar à nave-mãe para esvaziar. A nave-mãe transmite um sinal de rádio que o robô consegue detetar e que diminui de intensidade de acordo com a distância a que este se encontra. a) Descreva o agente robô através de uma arquitectura de subsunção de Brooks. Note que o robô executa duas acções essenciais: movimento (andar) e manuseamento (apanhar/largar minério). b) Embora a localização do minério não seja conhecida, existe uma tendência para que este se encontre espalhado pelo planeta Marte em pequenos conjuntos. Quando o robô já está cheio e regressa à nave-mãe para esvaziar, vai deixando cair partículas radioativas. Mais tarde, o robô é capaz de detetar radioatividade no terreno e assim chegar mais rapidamente ao minério anteriormente encontrado. Complemente a arquitetura especificada na alínea anterior de modo a contemplar esta funcionalidade. Aprendizagem por Reforço. Considere a seguinte configuração do espaço de uma casa. Pretende-se que o agente (representado como uma bola) seja capaz de encontrar o caminho para sair da casa, utilizando aprendizagem Q. Para tal, definiu-se a matriz de reforços ao lado da figura. As células sem valores indicam que não há transição entre os estados origem e destino respetivos. Matriz de reforços: Estado atual Ação (estado destino) A B C D E F A -- -- -- -- 0 -- B -- -- -- 0 -- 100 C -- -- -- 0 -- -- D -- 0 0 -- 0 -- E 0 -- -- 0 -- 100 F -- 0 -- -- 0 100 Nota: o estado F representa todo o espaço exterior. EUGÉNIO OLIVEIRA, ANA PAULA ROCHA, HENRIQUE LOPES CARDOSO PÁG. 1 / 7

a) Partindo de valores Q nulos para todos os pares estado-ação, e para um fator de desconto de 0.8 e uma taxa de aprendizagem de 1.0, mostre os novos valores Q que sofrem alteração com a execução de cada um dos seguintes episódios (para cada episódio utilize os valores resultantes do episódio anterior): i) C --> D --> B --> F ii) C --> D --> E --> F iii) C --> D --> B --> F iv) C --> D --> E --> F b) Considere que após um número considerável de iterações se convergiu para a seguinte matriz de valores Q. Que caminho(s) seguirá um agente ganancioso, partindo de C? Ação Estado A B C D E F A -- -- -- -- 400 -- B -- -- -- 20 -- 500 C -- -- -- 20 -- -- D -- 400 256 -- 400 -- E 20 -- -- 20 -- 500 F -- 400 -- -- 400 500 c) Explique o que faria um agente sabendo que, por alteração do ambiente, a tabela poderá não estar correta. 4. No jogo dos palitos existem inicialmente 10 palitos sobre a mesa. Cada jogador pode retirar 1, 2 ou palitos na sua vez. O objetivo é evitar ficar com o último palito. Imagine que pretende construir um agente computacional capaz de jogar este jogo, utilizando Q-learning. Para tal, definiu a seguinte função de recompensa, onde é a recompensa do estado em que estão palitos sobre a mesa depois de o adversário jogar: Inicializou a tabela de valores Q com zeros, para os pares estado-ação possíveis: e. No estado final (0 palitos) todos os pares têm valor 0. em que a) Para treinar o seu agente, encetou um conjunto de jogos. Considerando uma taxa de aprendizagem e um fator de desconto, apresente os valores que se alteram após a execução consecutiva de cada um dos jogos seguintes (os números representam as jogadas alternadas entre si e o computador, começando sempre o computador; à frente, entre parêntesis, indicam-se os estados do jogo antes de cada uma destas jogadas): i. 2-1-2--1-1 (10-8-7-5-2-1-0) ii. 2-2-1--1-1 (10-8-6-5-2-1-0) iii. 1--1--1-1 (10-9-6-5-2-1-0) b) Após estes jogos, o seu agente passa a ter um comportamento estritamente ganancioso (greedy) na utilização da tabela de valores Q atualizada. Sendo o primeiro a jogar contra uma estratégia que retira, sempre que possível, palitos, o seu agente ganha ou perde? c) A estratégia dominante neste jogo consiste em colocar o jogador adversário num estado em que o número de palitos seja 1 + um múltiplo de 4. Portanto, os estados 1, 5 e 9 são estados perdedores. O que alteraria no algoritmo de aprendizagem de modo a ter em conta esta estratégia? EUGÉNIO OLIVEIRA, ANA PAULA ROCHA, HENRIQUE LOPES CARDOSO PÁG. 2 / 7

Clustering 5. Considere o seguinte conjunto de dados: animal patas revestimento peixe 0 escamas lagarto 4 escamas rato 4 pelo coelho 4 pelo cobra 0 escamas Pela aplicação do algoritmo Cobweb, chegou ao seguinte agrupamento para os quatro primeiros animais: C1 = {peixe}, C2 = {lagarto}, C = {rato, coelho}. a) Determine em que classe, das já existentes, deve inserir o animal cobra. b) Após a classificação da cobra, determine se as classes C1 e C2 devem ser fundidas. 6. Pretende-se agrupar algumas cartas de um baralho convencional utilizando o algoritmo de agrupamento conceptual Cobweb. Para tal, as cartas distinguem-se pelo seu naipe (,,, ) e pelo seu tipo (figuras Dama, Valete, Rei ou cartas numéricas Ás, 2,, 10). Considere que tem já 2 classes criadas: Classe C1: Valete, Rei Classe C2: 4, 7, Rei a) Indique o estereótipo da classe C2, com β=0,. b) Considere que se pretende acrescentar à categorização existente a carta Dama. Indique qual dos seguintes operadores seria aplicado pelo algoritmo: i) criação de novo agrupamento; ii) inserção em C1. c) Indique o estereótipo da classe C1, com β=0,. 7. A figura seguinte representa 4 tipos de células, cada uma caracterizada pela sua coloração, número de núcleos e número de caudas. a) Utilizando o algoritmo Cobweb, e considerando inicialmente os elementos E1 e E2, determine se estes devem pertencer à mesma classe. b) Determine se o elemento E deve criar a sua própria classe ou ser acrescentado a uma classe já existente. c) Determine se o elemento E4 deve criar a sua própria classe ou ser acrescentado a uma classe já existente. 8. Um determinado sistema de confiança computacional aplica o algoritmo de agrupamento conceptual COBWEB para agrupar os agentes com um desempenho semelhante em determinado tipo de tarefas. A tabela seguinte mostra, para cada agente A1 a A6, o seu desempenho médio para tarefas de cada um dos tipos T1 a T. O desempenho, entre 0 e 1, é medido através de um valor de utilidade obtido com o resultado de execução da tarefa. A1 A2 A A4 A5 A6 T1 0.4 0. 0.2 0.5 0.2 0.5 T2 0.1 0.9 0.1 0.8 0.6 0.5 T 0.8 0.6 0.9 0.5 0.9 0.5 EUGÉNIO OLIVEIRA, ANA PAULA ROCHA, HENRIQUE LOPES CARDOSO PÁG. / 7

Para facilitar o mecanismo de agrupamento conceptual, optou-se por considerar três tipos de valores para a utilidade média obtida na execução de cada tarefa, de acordo com a tabela seguinte. Utilidade média 0.0 0. 0.4 0.6 0.7 1.0 Valor Fraco Médio Bom Como resultado de aplicação do algoritmo de agrupamento, os agentes encontram-se distribuídos por classes: Classe C1: {A1, A, A5}; Classe C2: {A2, A4}; Classe C: {A6} a) Calcule o estereótipo de cada uma das classes, considerando =0.5. b) Após um determinado período, a utilidade média do agente A1 na execução de tarefas do tipo T diminuiu para 0.. Determine se a classe 1 deve ser subdividida em duas, isolando o agente A1. Acordos 9. Imagine que Alfredo tem filhos F1, F2 e F cada um dos quais frequenta uma escola diferente E1, E2 e E, respetivamente. Todas as manhãs Alfredo precisa de os levar à escola. O seu vizinho do lado, Bernardo, que todas as manhãs tem uma incumbência semelhante, tem 2 filhos F4 e F5. Considere que F4 frequenta a escola E1, e F5 frequenta a escola E2. Em conversa, Alfredo e Bernardo procuram chegar a um acordo benéfico para ambos no que toca à distribuição dos filhos pelas escolas. Começam por afirmar que após estas tarefas ambos regressam a suas casas para trabalhar. O mapa seguinte ilustra as distâncias entre as casas e as escolas. Escola E 12 5 Escola E1 Escola E2 7 Casa Alfredo Casa Bernardo 8 a) Calcule os custos no acordo de conflito, para Alfredo e para Bernardo. b) Considerando a entrega de todos os filhos numa determinada manhã, identifique os acordos individualmente racionais para Alfredo e Bernardo em simultâneo em que os filhos que frequentem a mesma escola sejam transportados pela mesma pessoa (Alfredo ou Bernardo). c) Identifique, dos acordos anteriores, os que são acordos Pareto-ótimos. Justifique. d) Suponha que Alfredo e Bernardo chegam a acordo com o plano que maximiza a utilidade global. Identifique esse plano e complete-o para que seja justo. EUGÉNIO OLIVEIRA, ANA PAULA ROCHA, HENRIQUE LOPES CARDOSO PÁG. 4 / 7

10. Dois amigos, adeptos de futebol, decidem ir ao Porto Porto assistir a um jogo importante. O Carlos 200 mora em Lisboa e o Luís em Castelo Branco. A 125 Castelo Branco figura apresenta o mapa com as distâncias entre Torres Novas as cidades a considerar nos percursos a realizar. a) Calcule o custo do plano de conflito para os 100 dois amigos. Lisboa b) Considere que o Carlos e o Luís concordam no seguinte acordo misto: é efetuado o plano P a ou P b, de acordo com uma probabilidade. Pa: P Ca ={Lisboa-TorresNovas, TorresNovas-Porto}, P La ={CasteloBranco-TorresNovas} Pb: P Cb ={Lisboa-TorresNovas}, P Lb ={CasteloBranco-TorresNovas, TorresNovas-Porto} Nota: P Cx = tarefa do Carlos no plano x; P Lx = tarefa do Luís no plano x Qual a utilidade dos dois agentes neste plano misto? c) Sabendo que na nesta viagem específica o plano realizado foi o plano Pa, qual amigo teria de compensar o outro e qual o valor dessa compensação? d) Se os amigos negociassem um acordo tudo-ou-nada sobre quem transportava o outro, qual seria a sua utilidade? Este acordo é preferível ao acordo misto considerado na alínea b)? 11. Dois estafetas (E1 e E2) têm a incumbência de entregar as seguintes encomendas: Estafeta E1: locais A e C (com o menor custo) Estafeta E2: locais B e D (com o menor custo) Os locais estão distribuídos no seguinte mapa, onde as distâncias são as indicadas. Ambos os estafetas partem do ponto O e não necessitam de a ele regressar. B O 1 C A 4 D Os estafetas decidem negociar entre si de modo a reduzir o tempo de entrega. Para isso, seguem o Protocolo de Concessão Monótona e utilizam a estratégia de Zeuthen. Considere o seguinte conjunto de negociação: 1: (E1 vai a C e D; E2 vai a A e B) 2: (E1 vai a A e B; E2 vai a C e D) : (E1 vai a C, D e A; E2 vai a B) 4: (E1 vai a B; E2 vai a C, D e A) a) Mostre que todos os acordos ilustrados são individualmente racionais e Pareto-óptimos (não são dominados). b) De acordo com a estratégia utilizada, indique quais as propostas iniciais de cada um dos dois agentes. Justifique. c) De acordo com a estratégia utilizada, qual dos agentes deve conceder e efetuar a proposta seguinte? d) Que novo acordo i deve propor esse agente? Justifique. 12. Dois estafetas (E1 e E2) têm a incumbência de entregar as seguintes encomendas: Estafeta E1: locais A e C (com o menor custo) Estafeta E2: locais B e D (com o menor custo) EUGÉNIO OLIVEIRA, ANA PAULA ROCHA, HENRIQUE LOPES CARDOSO PÁG. 5 / 7

Os locais estão distribuídos no seguinte mapa, onde as distâncias são as indicadas. Ambos os estafetas partem do ponto O e não necessitam de a ele regressar. B O 1 C 4 A D Os estafetas decidem negociar entre si de modo a reduzir o tempo de entrega. a) Calcule os custos no acordo de conflito para cada um dos agentes. b) Considere que os agentes estabeleceram um acordo misto = (P1; P2):p, com P1={C, D, A} e P2={B}. Qual é a utilidade esperada dos agentes neste acordo misto? c) Suponha que os agentes determinam a seguinte distribuição de tarefas: (E1 executa P1; E2 executa P2). O que fazer para que o acordo seja justo? d) Qual é a utilidade esperada dos agentes com um acordo tudo-ou-nada? 1. Dois indivíduos precisam de enviar faxes de uma estação dos CTT para diferentes destinos. Os preços praticados pela estação estão indicados na tabela. Serviço Nacional Serviço Internacional 1ª página 2,40 4,20 Cada página adicional 1,25 2,0 A pessoa A tem um documento de 10 páginas a enviar para Passos Coelho (Lisboa), outro de 6 páginas a enviar para Ban Ki-moon (Nações Unidas, Nova Iorque), e outro ainda de páginas a enviar para Sarkozy (Paris). Por sua vez, a pessoa B tem um documento de 4 páginas a enviar para Passos Coelho, outro de 1 página a enviar para Ban Ki-moon, e outro ainda de 4 páginas a enviar para Sarkozy. Com vista a diminuir os gastos com o envio dos documentos, decidiram encetar uma negociação. (Note que a junção de documentos com o mesmo destino permite pagar apenas uma 1ª página.) a) Calcule os custos para A e B no acordo de conflito. b) Indique todos os acordos individualmente racionais para ambos os agentes. c) Considere que A e B estabelecem o acordo misto = ({Lx,NI}; {Pa}):p, onde as siglas correspondem aos destinos para onde se enviam os faxes (Lisboa, Nova Iorque e Paris, respetivamente). Qual é a utilidade esperada para os agentes neste acordo misto? d) Qual é a utilidade esperada para os agentes com um acordo tudo-ou-nada? Supondo que A faz tudo e B não faz nada, quanto terá B de pagar a A para que o acordo seja justo? 14. A Ana e o Bruno vão às compras ao supermercado Pontinente, que pratica descontos para compras superiores ou iguais a 15. Para tal, o cliente apresenta um talão de desconto emitido numa compra anterior cujo valor será descontado ao total. Os talões de desconto, pessoais e intransmissíveis, não são acumuláveis, isto é, apenas um pode ser utilizado numa compra de valor superior ou igual a 15. Ana tem um talão de desconto de,50 e Bruno tem um de,90, sendo esta a última oportunidade que têm para os utilizar. Ao chegarem à caixa verificam que a Ana tem no seu carrinho três artigos com os preços 5, 4 e, ao passo que o Bruno tem no seu carrinho quatro artigos com preços 6, 4, e 1. EUGÉNIO OLIVEIRA, ANA PAULA ROCHA, HENRIQUE LOPES CARDOSO PÁG. 6 / 7

a) A Ana e o Bruno põem a hipótese de chegar a um acordo, com vista a potenciar a utilização de um dos talões de desconto. Calcule os custos da no acordo de conflito. b) A Ana e o Bruno ponderam passar, um deles, um artigo para o carrinho do outro, ficando combinada a sua devolução (mas não do pagamento respetivo) depois de passarem pela caixa. Indique os possíveis acordos individualmente racionais. c) Dos acordos identificados na alínea anterior, qual(is) é(são) Pareto-eficiente(s)? Porquê? d) Considere agora que aquando da devolução do artigo (ver alínea b) o seu pagamento é restituído entre a Ana e o Bruno. Os acordos identificados na alínea b) continuam a ser individualmente racionais? Porquê? e) A Ana e o Bruno têm mais afazeres no mesmo centro comercial, mas precisam ir levar as compras a casa (são congelados!). Para evitar que ambos tenham de ir a casa e regressar, efetuam um acordo tudo-ou nada. Sabendo que a casa da Ana dista 9 Km do supermercado, a casa do Bruno 8 Km do supermercado e a distância da casa da Ana à do Bruno é de 2Kms, calcule a utilidade do acordo para ambos. 15. Duas empresas X e Y pretendem expedir produtos para a Austrália e para o Brasil, por via marítima, de acordo com a tabela. O transportador para a Austrália cobra 10u.m. (unidades monetárias) por cada contentor de material, e o transportador para o Brasil cobra 7u.m. por contentor. Cada contentor pode transportar no máximo 100u.v. (unidades de volume). De modo a conter os custos de exportação, as empresas admitem estabelecer um acordo de exportação conjunta, procurando minimizar o número de contentores necessários. a) Calcule os custos das empresas X e Y no acordo de conflito. b) Apresente os acordos individualmente racionais que são possíveis. Admita que o volume de carga a transportar por cada empresa é sempre divisível, e considere que quem paga cada contentor é a empresa que nele coloca mais volume. Apenas um dos contentores para um determinado destino pode ter carga das duas empresas. Utilize a representação {País([Volume_empresa_x+Volume_empresa_y], ); }: {A([V1x+V1y][V2x+V2y] [Vnx+Vny]);B([V1x+V1y][V2x+V2y] [Vmx+Vmy])} Exemplo para o acordo de conflito: {A([100x+0y][60x+0y][0x+100y][0x+20y]);B([60x+0y][0x+100y][0x+40y])} c) Considere o seguinte acordo puro: = {A([100x+0y][60x+40y][0x+80y]);B([60x+40y][0x+100y])} De modo a que as empresas fiquem com utilidades iguais, quem tem que pagar quanto a quem? d) Escolha um dos acordos selecionados na alínea b) e considere-o um acordo misto, pelo facto de os contentores com carga mista, na sua totalidade, poderem ser pagos por quem tem mais carga no contentor ou por quem tem menos carga no contentor. Calcule a utilidade esperada por cada uma das empresas nesse acordo misto. EUGÉNIO OLIVEIRA, ANA PAULA ROCHA, HENRIQUE LOPES CARDOSO PÁG. 7 / 7