Tamanho: px
Começar a partir da página:

Download ""

Transcrição

1 APRENDIZADO POR REFORÇO MULTIAGENTE MULTIOBJETIVO ACELERADO POR HEURÍSTICAS APLICADO AO PROBLEMA DA PRESA E PREDADOR Leonardo A. Ferreira, Carlos H. C. Ribeiro, Reinaldo A. C. Bianchi Centro Universitário da FEI, Av. Humberto de Alencar Castelo Branco, 3972 São Bernardo do Campo, São Paulo, Brasil Instituto Tecnológico da Aeronáutica, Praça Marechal Eduardo Gomes, 50 São José dos Campos, São Paulo, Brasil s: laferreira@fei.edu.br, carlos@ita.br, rbianchi@fei.edu.br Abstract This article introduces two possibles solutions for Heuristically Accelerated Multi-Agent Multi- Objective Reinforcement Learning: the first solution uses an algorithm that has only one Value-Action function and must learn all objectives from various reinforcement values, while the second uses an algorithm that divides the learning process in modules, each one responsible for learning only one objective independently from the others.for testing we used the Predator-Prey Problem, in which the learning agent plays the role of the prey and must learn to avoid the predator while reaching for the food. From the results it is possible to conclude that the algorithm that uses modules learns faster than the others, and the heuristics used accelerated even more the learning process. Resumo Este artigo apresenta duas possíveis soluções para problemas de Aprendizado por Reforço Multiagente Multiobjetivo Acelerado por Heurística: a primeira é o uso de um algoritmo que possui apenas uma função Valor-Ação que deve aprender todos objetivos a partir de diferentes valores de reforços recebidos, enquanto a segunda solução é um algoritmo que divide o processo de aprendizado e utiliza cada módulo resultante da divisão para apenas um objetivo. Para testar os algoritmos foi utilizado o problema da Presa e Predador, onde um agente aprendiz assume o papel de presa e deve aprender a fugir do predador que o persegue enquanto busca comida. A partir dos resultados conclui-se que o algoritmo que divide os objetivos aprende mais rapidamente do que os demais, e a heurística utilizada é capaz de acelerar mais ainda o aprendizado. Palavras-chave Aprendizado por Reforço, Aceleração, Heurísticas, Multiagentes, Multiobjetivos 1 Introdução Algoritmos de Aprendizado por Reforço (RL) procuram encontrar a solução ótima de problemas através da interação com o ambiente. Estes algoritmos já foram estendidos na literatura para ambientes em que o agente que aprende deve interagir com outros agentes tanto de forma cooperativa quanto competitiva para encontrar uma melhor sequência de ações até a solução do problema. Entretanto, em domínios com múltiplos objetivos, a solução ótima de um objetivo pode não ser ótima para os outros, e o critério utilizado para selecionar a melhor ação pode influenciar na política de ações encontrada pelo agente que aprende por reforço. Este trabalho apresenta uma comparação entre quatro métodos de RL para um domínio que inclui tanto as características de múltiplos agentes quanto de diversos objetivos o problema da Presa e Predador, onde o agente que aprende deve encontrar a comida em uma posição de um ambiente ao mesmo tempo que foge de um predador que o persegue e propõe o algoritmo HAMQL (Q-Learning Modular Acelerado por Heurísticas) que é capaz de aprender a solucionar este tipo de problema utilizando o conceito de aprendizado modular introduzido por Singh (1992), junto com o algoritmo Minimax-Q proposto por Littman (1994). Para acelerar o processo de aprendizado, o HAMQL utiliza heurísticas retiradas do ambiente, de modo similar ao algoritmo HAQL proposto por Bianchi (2004). Os resultados mostram que a divisão em módulos facilita o aprendizado, pois diminui o espaço de estados de cada objetivo, tornando-o mais rápido do que os métodos que trabalham com todos os objetivos simultaneamente. As heurísticas utilizadas no HAMQL aceleram ainda mais o aprendizado, pois ajudam o agente a encontrar a solução ótima com menor número interações diretas com o ambiente. Este artigo está organizado da seguinte maneira: a seção 2 apresenta os conceitos fundamentais do Aprendizado por Reforço. As seções 3 e 4 apresentam os algoritmos de RL voltados a problemas com múltiplos agentes e a aceleração por heurísticas aplicada ao RL. Em seguida, na seção 5, é introduzido o conceito de RL modular e a divisão em módulos introduzida por Singh (1992) e utilizada por Humphrys (1997) para a solução de problemas com múltiplos objetivos. Na seção 6 é descrito o algoritmo proposto HAMQL seguido pela seção 7 em que é introduzido o domínio da Presa e Predador utilizado para os testes. Finalmente, a seção 8 apresenta os resultados experimentais, e a seção 9 encerra com as conclusões do trabalho. ISSN: Vol. X 57

2 2 Aprendizado por Reforço Aprendizado por Reforço (RL) é uma classe abrangente de métodos de controle que procuram estimar o valor de funções a partir da experiência, simulação e busca (Sutton, 1996). Em um problema de RL, um agente aprendiz interage com o ambiente com a finalidade de adquirir conhecimento sobre o mundo ao seu redor a partir de reforços recebidos durante esta interação. Estes reforços podem ser positivos ou negativos, dependendo do estado em que o agente se encontra em determinado instante, e são utilizados a partir da experiência adquirida na interação para atualizar um funcional dos reforços (função valor), cujo valor para um determinado estado representa o quão útil este o é para o agente. De modo mais geral, a função valor também pode produzir o valor de cada ação possível em cada estado, e é definida utilizando como base a Teoria de Processos Markovianos de Decisão (PMD), em que o problema é formalizado a partir de uma quádrupla S, A, T, R onde S representa o conjunto de estados do ambiente, A o conjunto de ações que o agente aprendiz pode executar, T : S A (S) é a função de transição de estados e R : S A R representa a função que fornece o reforço recebido pelo agente ao executar cada ação do conjunto A em cada um dos estados de S. O algoritmo de RL mais utilizado atualmente é o Q-Learning proposto por Watkins (1989). Neste algoritmo um agente aprendiz atualiza os valores de uma função Valor-Ação Q(s t, a t ), que produz para cada par estado-ação s t, a t um valor indicativo da qualidade da escolha da ação no estado em questão, assumindo uma política ótima a partir da iteração seguinte. A partir da interação com o ambiente e da utilização dos reforços recebidos para a atualização da função Valor-Ação, existem condições teóricas que garantem o aprendizado da política ótima π que descreve a melhor sequência de ações dentre as disponíveis para cada estado possível. A regra de atualização dos valores Q considerando que a ação a t foi executada no estado s t é descrita pela equação 1. Q(s t, a t ) Q(s t, a t )+ [ α r t+1 + γ max a ] Q(s t+1, a) Q(s t, a t ) 3 Aprendizado por Reforço Multiagente (1) O algoritmo Q-Learning pode ser estendido para tratar de problemas onde mais de um agente atua no ambiente. Para tanto, uma possibilidade é utilizar como base a Teoria de Jogos de Markov (JM), que são uma extensão da Teorias dos Jogos para os PMDs. Um JM difere de um PMD por considerar também as ações que podem ser tomadas pelos outros agentes. Formalmente um JM pode ser definido pela tupla S, A 1,..., A i, T, R onde S, T e R são respectivamente o conjunto de estados, a função de transição de estados e os reforços que serão fornecidos ao agente aprendiz, e A 1 à A i são os conjuntos de ações disponíveis para cada um dos i agentes existentes. Uma simplificação dos JM muito estudada é a que considera apenas dois agentes, sendo um deles o oponente. Este tipo de jogo é a base para o algoritmo Minimax-Q, proposto por Littman (1994), que escolhe a melhor ação a ser executada no estado atual procurando maximizar o valor do estado futuro ao mesmo tempo que minimiza o do adversário. O algoritmo atua da mesma forma que o Q-Learning, mas utiliza os conceitos do algoritmo Minimax para problemas com mais de um agente. Enquanto o Q-Learning atualiza Q(s t, a t ) de acordo com o valor máximo das ações permitidas no estado seguinte, o algoritmo Minimax-Q utiliza também o valor mínimo das ações do oponente, conforme mostrado pela equação abaixo: V (s) = max min Q(s, a, o) π a (2) π P D(A) o O a A 4 Aprendizado por Reforço Acelerado por Heurísticas A utilização de heurísticas para acelerar o RL foi proposta originalmente por Bianchi (2004). No Aprendizado por Reforço Acelerado por Heurísticas (HARL), além da função Q(s t, a t ) o agente também utiliza uma função heurística H(s, a), atualizada a partir da interação com o ambiente. O valor de H(s, a) é então usado no instante de seleção de ação conforme a equação: a random, se q ɛ π(s t ) = max [Q(s t, a t ) + H(s t, a t )], a t (3) caso contrário onde π(s t ) é a política que vai ser seguida, a random é uma ação selecionada aleatoriamente, Q(s t, a t ) é o valor ao executar a ação a t no estado s t, e H(s t, a t ) é o valor da heurística calculada para o par estado-ação. As variáveis q e ɛ servem para controlar a taxa de exploração. O algoritmo Q-Learning modificado utilizando Heurísticas foi proposto por Bianchi et al. (2008) e está descrito no algoritmo 1. Assim como o Q-Learning, o Minimax-Q também pode ser acelerado por heurísticas utilizando as mesmas regras mostradas anteriormente. Da mesma forma que no Q-Learning, a função Heurística é utilizada no instante da seleção de ação ISSN: Vol. X 58

3 Inicialize Q(s t, a t ) arbitrariamente. Determine a heurística H(s t, a t ) utilizando o método adequado. Repita: Visite o estado s t. Selecione uma ação a t a partir da combinação correta da função Valor-Ação e da função Heurística. Receba a recompensa r(s t, a t ). Atualize H(s t, a t ). Observe o próximo estado s t+1 Atualize os valores de Q t (s t, a t ) usando: Q(s t, a t ) Q(s t, a t ) + α [ r + γ Q(s t+1, a t+1 ) Q(s t, a t )]. Atualize o estado: s t s t+1. Até que algum critério de parada seja atingido. Algoritmo 1: Algoritmo HAQL (Bianchi et al. 2008). Inicialize Q(s t, a t, o t ) e H(s t, a t, o t ). Repita: Visite o estado s t. Selecione uma ação a t a partir da combinação correta da função Valor-Ação e da função Heurística. Execute a t e observe a ação o t do oponente Receba a recompensa r(s t, a t, o t ) Observe o próximo estado s t+1 Atualize os valores de H(s t, a t, o t ) Atualize os valores de ˆQ t (s t, a t, o t ) usando: ˆQ(s t, a t, o t ) ˆQ(s t, a t, o t ) + α [r(s t, a t, o t )+ γ V t (s t+1 ) ˆQ(s ] t, a t, o t ) Atualize o estado: s t s t+1. Até que algum critério de parada seja atingido. Algoritmo 2: Algoritmo HA-Minimax-Q (Bianchi et al. 2007). e atualizada a cada episódio do aprendizado, de acordo com o algoritmo proposto por Bianchi et al. (2007) e mostrado no algoritmo 2. 5 Aprendizado por Reforço Multiobjetivo A forma de resolução de problemas de RL com múltiplos objetivos utilizada neste trabalho baseia-se na arquitetura de RL modular proposta por Singh (1992) e utilizada para a resolução de problemas com múltiplos objetivos através do W- Learning proposto por Humphrys (1997). A decomposição do aprendizado em módulos que se dedicam a apenas um objetivo é promissora, pois permite que os espaços de estados de cada módulo seja menor e com função de reforços mais simples (Sousa, 2007). Juntamente com estes conceitos, o algoritmo proposto também é influenciado pelo RL Distribuído proposto por Mariano and Morales (2000). No W-Learning, o aprendizado é dividido em módulos e cada um destes é responsável pelo aprendizado da política ótima de apenas um objetivo. Entretanto, apesar do W-Learning considerar que a interação com o ambiente atualiza todos os módulos ao mesmo tempo, o estado terminal de um módulo não força o início de um novo episódio, mas continua o aprendizado a partir daquele estado, como se o agente não estivesse chegado ao fim do episódio, o que não é adequado a um caso real (Sousa, 2007). O algoritmo MDQL proposto por Mariano and Morales (2000) estende o Q-Learning Distribuído utilizando agentes independentes para cada objetivo. No MDQL, cada agente atualiza uma função Valor-Ação de somente um objetivo e apenas ao final do episódio de todos os agentes, uma tabela Q que considera todos os objetivos do aprendizado é atualizada a partir da melhor solução encontrada por todos os agentes. Porém, no episódio seguinte, o agente utilizará para seu aprendizado os valores da função Valor-Ação que considera todos os objetivos e não a tabela Q respectiva ao seu único objetivo. 6 O algoritmo HAMQL O objetivo deste trabalho é unir algumas das característica dos algoritmos apresentados anteriormente para conseguir resolver de uma forma simples um problema de Aprendizado por Reforço Multiagente Multiobjetivo Acelerado por Heurísticas. O HAMQL reúne as características mais interessantes dos algoritmos para problemas com múltiplos objetivos de forma a realiza o aprendizado em módulos independentes, com interações independentes e atualizando tabelas independentes, para que o aprendizado de um objetivo não afete e não seja afetado pelo aprendizado dos demais. O conceito de divisão de objetivos permite a realização do aprendizado de forma modular, com cada módulo utilizando apenas informações relevantes a seu objetivo. Desta forma, para um problema Multiagente Multiobjetivo podemos ter uma camada com um algoritmo Minimax-Q (que trabalha apenas no problema com diversos agentes) e outro somente com o Q-Learning que resolve os problemas que não possuem outros agentes. Se cada objetivo é aprendido de forma independente dos outros módulos então pode-se utilizar heurísticas independentes para cada um como forma de aceleração do aprendizado. Para isto basta substituir o algoritmo de RL pelo seu equivalente com heurística (Minimax-Q por HA- Minimax-Q ou Q-Learning por HAQL). ISSN: Vol. X 59

4 Apesar do aprendizado ser feito em módulos, a interação final do agente com o ambiente acontece considerando todos os objetivos ao mesmo tempo, portanto após o aprendizado é necessário uma função que consiga selecionar a melhor ação a ser executada pelo agente a partir dos valores Q i (s t, a) de todas as ações a no estado atual s t fornecidos por cada módulo. Para realizar a seleção este trabalho utiliza o mesmo método que o algoritmo Maximização da Satisfação Coletiva de Humphrys (1997) onde é feita a soma dos valores Q(s t, a t ) de todas as ações possíveis de serem executadas no estado atual para todos os objetivos. Este método é interessante pois uma vez que na convergência todas as ações de todos os estados possíveis de serem visitados possuem um valor diferente do inicial (causado pelas atualizações) e considerando que o valor de uma ação é uma forma de computar a importância desta para que o agente consiga alcançar o seu objetivo, a soma destes valores é capaz de fornecer uma medida de quão interessante é executar aquela ação naquele estado, para todos os objetivos considerados. O algoritmo que foi utilizado neste trabalho para resolver o problema de Aprendizado por Reforço Multiagente Multiobjetivo Acelerado por Heurísticas é dividido em módulos onde cada aprendizado é executado separadamente dos demais (primeiro é executado n episódios considerando o apenas um dos objetivos e depois n somente o outro). Os algoritmos de cada módulo possuem suas próprias heurísticas baseadas somente em seus objetivos (heurísticas independentes) e só são utilizadas no instante de seleção da ação durante o aprendizado. No instante da seleção da ação as heurísticas não são consideradas. Finalmente, o HAMQL utilizado neste trabalho é apresentado no algoritmo 3. 7 Experimentos Realizados O problema da Presa e Predador foi utilizado para comparar o resultado do aprendizado de quatro algoritmos testados: o primeiro algoritmo utiliza apenas uma função Valor-Ação com múltiplos reforços (Q-Learning), o segundo o mesmo algoritmo do anterior só que acelerado por heurísticas (HAQL). Os outros dois algoritmos são o HAMQL proposto neste trabalho e a sua versão sem aceleração por heurísticas. O ambiente para esse problema é um mundo de grades de 5x5 que permite aos agentes a execução de quatro ações: ir para cima, baixo, direita e esquerda. Em uma posição fixa no mapa encontra-se a comida, que é um dos estados terminais do domínio. Além da comida e da presa existe um predador, que tenta capturar esta última utilizando um algoritmo que considera a posição da presa para escolher a ação a ser realizada Algoritmo de Aprendizado Repita para os n objetivos: Inicialize a função Valor-Ação Q n (s, a) Inicialize a função Heurística H n (s, a) Aprenda a política ótima π n utilizando um algoritmo de RL apropriado Algoritmo de Seleção de Ação Repita: Observe o estado s t Para cada uma das i ações faça: Para cada um dos n objetivos faça: a i = n 0 an i Selecione a ação a t a ser executada utilizando: a t = max a i i Executa a ação a t Atualize o estado: s t s t+1 Até que algum critério de parada seja atingido. Algoritmo 3: Algoritmo HAMQL com heurísticas independentes. e quando o consegue capturar o domínio chega ao fim do episódio. O agente aprendiz é a presa, e seu objetivo é chegar a comida sem ser capturado pelo predador. Nos algoritmos que utilizam somente uma Função Valor-Ação foi utilizado apenas uma tabela que contém as posições x e y e as ações a do agente, junto com as posições ox e oy do predador. Nos algoritmos que utilizam a divisão dos objetivos em módulos, um módulo ficou responsável por aprender a chegar a comida (objetivo 1) e o outro a fugir da presa (objetivo 2). As funções Valor-Ação utilizadas foram representadas em duas tabelas com as posições x e y e a ação a do agente para o objetivo 1, e com x e y e a do agente junto com as posições ox e oy e a ação o do oponente (predador) para o objetivo 2. Para escolher a ação a ser realizada após o aprendizado foi utilizado a soma dos valores das funções Valor-Ação de cada objetivo. Para o estado atual s(x, y, ox, oy) cada módulo passa os valores Q de todas as ações para a função de Seleção de Ação. Esta faz a soma de todos os valores e escolhe a ação com o valor máximo para ser executada. Os reforços utilizados para todos os algoritmos foram +100 para cada vez que o agente encontra a comida, -100 quando é capturado e -1 para qualquer outro estado visitado. Os valores das heurísticas são +10 para as ações que levam a presa a comida e que a afasta do predador e -10 caso contrário. A taxa de aprendizado foi fixada em α = 0.2 e o desconto em γ = 0.9 Para todos os algoritmos foram feitos 30 testes de episódios com amostragem a cada 10 episódios. Para os algoritmos com divisão em ISSN: Vol. X 60

5 Diferença Quadrática Média HAQL Q Learning MQL HAMQL Número de Passos Médios do Objetivo HAMQL MQL Episódio Episódio Figura 1: Diferença Quadrática Média dos algoritmos dos quatro algoritmos utilizados, onde HAMQL e MQL indicam os algoritmos modulares utilizando ou não heurísticas. módulos foram realizados 10 episódios de cada objetivo para a amostragem. Os resultados mostram a média dos 30 testes para cada instante amostrado. Nem todos os gráficos mostram os resultados de todos os episódios para não dificultar a compreensão que seria causada pela grande quantidade de pontos ilustrados. 8 Resultados A melhor forma encontrada de comparar diretamente os quatro algoritmos testados foi calculando a média dos 30 testes da Diferença Quadrática da tabela Q, pois quanto menor este valor mais perto da convergência o agente aprendiz se encontra. Para os algoritmos que possuem somente uma função Valor-Ação o valor foi utilizado diretamente na comparação, quando o agente utilizava duas tabelas (uma para cada objetivo) foi utilizado a soma dos valores absolutos da diferença quadrática entre os valores de Q(s t, a t ) de cada tabela. Neste método faz-se a soma dos quadrados das diferenças de cada valor Q do episódio atual com o do episódio anterior, conforme a equação a seguir. s = (Q t (s, a) Q t 1 (s, a)) 2 (4) A partir do gráfico que apresenta a Diferença Quadrática Média dos quatro algoritmos (figura 1) podemos perceber que a heurística utilizada durante o aprendizado acelera o processo quando utilizamos múltiplos reforços para aprender ambos objetivos. Quando utilizamos a divisão em módulos a diferença quadrática inicia com um valor muito mais baixo do que quando somente o Q-Learning é aplicado. A influência da heurística para os algoritmos com divisão módulos é de difícil visualização no gráfico de Diferença Quadrática, pois para ambos o valor é muito pequeno. Figura 2: Comparação entre o número de passos até o objetivo 1 somente entre os algoritmos com divisão em módulos. A segunda camada do aprendizado é responsável por aprender a fugir do predador e, portanto, deve aumentar o número de ações executadas (passos) a medida que o aprendizado avança. Na figura 3 observa-se que o número de passos oscila para ambos algoritmos, porém também percebe-se que já no início do aprendizado o HAQL consegue realizar mais passos antes do estado terminal do que o Q-Learning. A comparação da quantidade de passos entre os quatro algoritmos não foi feita, pois enquanto os aprendizados com múltiplos reforços devem diminuir o número de passos com o passar do tempo, a divisão em módulo prevê o aumento deste no objetivo 2, tornando a comparação inadequada. Porém a diferença entre estes algoritmos é claramente visível quando analisamos o número de passos necessários até cada objetivo (figuras 2 e 3). Como o domínio do mundo de grades possui tamanho de 5x5 e a comida encontra-se no canto superior direito do mapa, a quantidade máxima de passos que o agente deve realizar (considerando que este inicia o episódio no canto oposto a comida) afim de chegar ao objetivo é oito quatro movimentos na vertical e quatro na horizontal. Analisando o gráfico da figura 2 percebemos que a convergência deste objetivo é rápida para ambos algoritmos que realizam divisão modular das tarefas, porém a utilização de heurísticas permite ao agente já iniciar o aprendizado mais próximo da política ótima deste objetivo. 9 Conclusão O HAMQL, que foi proposto neste trabalho, separa o aprendizado dos objetivos, simplificando o espaço de estados e tornando o aprendizado acelerado por Heurísticas mais rápido. Assim como os objetivos, as heurísticas foram tratadas de forma independente, sendo calculadas focando na aceleração de apenas um objetivo de cada vez. O ISSN: Vol. X 61

6 Número de Passos Médios do Objetivo HAMQL MQL Agradecimentos Leonardo Anjoletto Ferreira agradece o apoio do CNPq e Reinaldo A. C. Bianchi agradece o apoio da FAPESP (Processo número 2011/ ). Carlos H. C. Ribeiro agradece o apoio do CNPq (Processo número /2010-4). Referências Episódio Bianchi, R. A. C. (2004). Uso de Heurísticas para a Aceleração do Aprendizado por Reforço, Tese de Doutorado, USP. Figura 3: Comparação entre o número de passos até o objetivo 2 somente entre os algoritmos com divisão em módulos. resultado final foi um aprendizado muito mais rápido do que o Q-Learning com múltiplos reforços, sendo capaz de conseguir resolver o problema proposto com muito menos interações com o ambiente e levando menos tempo. Entre os trabalhos futuros possíveis estão a comparação com outros algoritmos de Aprendizado por Reforço que específicos para problemas com múltiplos agentes e multiobjetivos e o estudo dos algoritmos que fazem atualização de uma só vez em todos os módulos, mas que utilizem uma interação com o ambiente diferente daquela utilizada no W-Learning, onde o fim do episódio não é identificado pelo agente aprendiz alcançar o estado terminal, somente pelo número de passos. Outro ponto importante a ser estudado futuramente é o modo como é feito a seleção de ação, pois utilizando a soma não-ponderada não é possível garantir que o valor da ação boa para todos os objetivos terá valor maior que a ação que é somente boa para alguns. Entretanto a soma dos valores Q(s t, a t ), que foi utilizada neste trabalho, é capaz de encontrar uma política que consegue resolver o problema, mas outras formas de soma ponderada e a mudança dos valores dos reforços mudam o comportamento do agente aprendiz. O estudo destes diferentes comportamentos é interessante uma vez que todas são possíveis soluções para um problema com múltiplos objetivos. Uma outra forma possível de selecionar a ação é utilizando fronteira de Pareto no lugar da soma ponderada, uma vez que esta nem sempre é capaz de encontrar a solução ótima (Vamplew et al., 2008) A heurística foi calculada de forma independente para cada camada, porém esta também pode ser calculada de outras formas, algo que também deve ser estudado. Bianchi, R. A. C., Ribeiro, C. H. C. and Costa, A. H. R. (2007). Heuristic selection of actions in multiagent reinforcement learning, IJCAI, pp Bianchi, R. A. C., Ribeiro, C. H. C. and Costa, A. H. R. (2008). Accelerating autonomous learning by using heuristic selection of actions, Journal of Heuristics 14(2): Humphrys, M. (1997). Action selection methods using reinforcement learning, PhD thesis, University of Cambridge. Littman, M. L. (1994). Markov games as a framework for multi-agent reinforcement learning, 11th ICML, pp Mariano, C. and Morales, E. (2000). A new distributed reinforcement learning algorithm for multiple objective optimization problems, Vol of Lecture Notes in Computer Science, pp Singh, S. (1992). Transfer of learning by composing solutions of elemental sequential tasks, Machine Learning 8(3): Sousa, C. d. O. (2007). Aprendizagem por Reforço de Sistemas com Múltiplos Objectivos: o Problema da Selecção de Acções, Dissertação de Mestrado, Universidade Técnica De Lisboa. Sutton, R. S. (1996). Generalization in reinforcement learning: Successful examples using sparse coarse coding, Advances in Neural Information Processing Systems 8, MIT Press, pp Vamplew, P., Yearwood, J., Dazeley, R. and Berry, A. (2008). On the limitations of scalarisation for multi-objective reinforcement learning of pareto fronts, Vol of Lecture Notes in Computer Science, pp Watkins, C. J. C. H. (1989). Learning from Delayed Rewards, PhD thesis, University of Cambridge. ISSN: Vol. X 62

USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO

USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO DANILO H. PERICO, REINALDO A. C. BIANCHI Centro Universitário da FEI, Av. Humberto de Alencar Castelo Branco,

Leia mais

Aprendizado por Reforço usando Aproximação

Aprendizado por Reforço usando Aproximação Aprendizado por Reforço usando Aproximação de Funções Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Aproximação de Funções 2. Do the evolution 1 Aproximação de Funções Função Utilidade

Leia mais

UTILIZANDO TRANSFERÊNCIA DE CONHECIMENTO PARA ACELERAR O APRENDIZADO POR REFORÇO Luiz A. Celiberto Jr, Murilo F. Martins, Reinaldo A. C. Bianchi, Jackson P. Matsuura Departamento de Sistemas e Controle

Leia mais

Aprendizado por Reforço

Aprendizado por Reforço Aprendizado por Reforço Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Aprendizado por Reforço 2. Q-Learning 3. SARSA 4. Outras ideias 1 Aprendizado por Reforço Problemas de decisão

Leia mais

CEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra Lista de exercícios 04

CEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra Lista de exercícios 04 . CEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra (ebezerra@cefet-rj.br) Lista de exercícios 04 Créditos: essa lista de exercícios contém a tradução dos exercícios disponibilizados na disciplina

Leia mais

Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid

Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid 1 Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid Luciana Conceição Dias Campos Resumo Este trabalho consiste da aplicação de um algoritmo genético ao método

Leia mais

Uso de Heurísticas para a Aceleração do Aprendizado por

Uso de Heurísticas para a Aceleração do Aprendizado por Uso de Heurísticas para a Aceleração do Aprendizado por Reforço Reinaldo A. C. Bianchi 1,2, Anna H. R. Costa 1 1 Laboratório de Técnicas Inteligentes Escola Politécnica da Universidade de São Paulo Av.

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 24 Aprendizado Por Reforço Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor (KNN).

Leia mais

Uso de Heurísticas para a Aceleração do Aprendizado por Reforço

Uso de Heurísticas para a Aceleração do Aprendizado por Reforço Proceedings of the International Joint Conference IBERAMIA/SBIA/SBRN 2006-5th Best MSc dissertation/phd thesis contest (CTDIA 2006), Ribeirão Preto, Brazil, October 23 28, 2006. CD-ROM. ISBN 85-87837-11-7

Leia mais

Aprendizado por Reforço para um Sistema Tutor Inteligente sem Modelo

Aprendizado por Reforço para um Sistema Tutor Inteligente sem Modelo Aprendizado por Reforço para um Sistema Tutor Inteligente sem Modelo Explícito do Aprendiz Marcus Vinícius Carvalho Guelpeli Divisão de Ciência da Computação Instituto Tecnológico de Aeronáutica São José

Leia mais

3 Aprendizado por reforço

3 Aprendizado por reforço 3 Aprendizado por reforço Aprendizado por reforço é um ramo estudado em estatística, psicologia, neurociência e ciência da computação. Atraiu o interesse de pesquisadores ligados a aprendizado de máquina

Leia mais

CEFET/RJ Inteligência Artificial (2017.2) Professor: Eduardo Bezerra Lista de exercícios 03

CEFET/RJ Inteligência Artificial (2017.2) Professor: Eduardo Bezerra Lista de exercícios 03 . CEFET/RJ Inteligência Artificial (2017.2) Professor: Eduardo Bezerra (ebezerra@cefet-rj.br) Lista de exercícios 03 Créditos: essa lista de exercícios contém a tradução dos exercícios disponibilizados

Leia mais

lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning)

lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning) lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning) Processo Decisório de Markov e Aprendizado por Reforço Quando falamos sobre Processo decisório de Markov e formalizamos

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 18 Aprendizado Por Reforço Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor (KNN).

Leia mais

Aprendizado por reforço em lote para o problema de tomada de decisão em processos de venda

Aprendizado por reforço em lote para o problema de tomada de decisão em processos de venda Aprendizado por reforço em lote para o problema de tomada de decisão em processos de venda Denis Antonio Lacerda e Leliane Nunes de Barros Departamento de Ciência da Computação, IME/USP denis@ime.usp.br,

Leia mais

Aprendizado por Reforço

Aprendizado por Reforço Aprendizado por Reforço SCC5865-Robótica Roseli A F Romero Introdução O modelo padrão de aprendizado por reforço Aprendizado por Reforço Formalmente, o modelo consiste de: Um conjunto discreto de estados

Leia mais

Aprendizagem por Reforço

Aprendizagem por Reforço Aprendizagem por Reforço Motivação! Como um agente aprende a escolher ações apenas interagindo com o ambiente? n n Muitas vezes, é impraticável o uso de aprendizagem supervisionada w Como obter exemplos

Leia mais

CENTRO UNIVERSITÁRIO DA FEI DANILO HERNANI PERICO USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO

CENTRO UNIVERSITÁRIO DA FEI DANILO HERNANI PERICO USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO CENTRO UNIVERSITÁRIO DA FEI DANILO HERNANI PERICO USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO São Bernardo do Campo 2012 DANILO HERNANI PERICO Uso de

Leia mais

CONSTRUINDO CASOS A PARTIR DA ESTRUTURA DO AMBIENTE: UMA NOVA ABORDAGEM PARA A ACELERAÇÃO DO APRENDIZADO POR REFORÇO.

CONSTRUINDO CASOS A PARTIR DA ESTRUTURA DO AMBIENTE: UMA NOVA ABORDAGEM PARA A ACELERAÇÃO DO APRENDIZADO POR REFORÇO. CONSTRUINDO CASOS A PARTIR DA ESTRUTURA DO AMBIENTE: UMA NOVA ABORDAGEM PARA A ACELERAÇÃO DO APRENDIZADO POR REFORÇO. Luiz Antonio Celiberto Junior, Jackson P. Matsuura, Reinaldo A. C. Bianchi Instituto

Leia mais

lnteligência Artificial Introdução ao Processo Decisório de Markov

lnteligência Artificial Introdução ao Processo Decisório de Markov lnteligência Artificial Introdução ao Processo Decisório de Markov Aprendizado - paradigmas Aprendizado supervisionado O crítico comunica a EA o erro relativo entre a ação que deve ser tomada idealmente

Leia mais

Inteligência Artificial. 3º Quadrimestre de 2018

Inteligência Artificial. 3º Quadrimestre de 2018 Inteligência Artificial Prof. Fabrício Olivetti de França Prof. Denis Fantinato 3º Quadrimestre de 2018 1 Busca Competitiva 2 Busca Competitiva Quando falamos sobre agentes mencionamos alguns cenários

Leia mais

IA - Planejamento II

IA - Planejamento II PO IA - Planejamento II Professor Paulo Gurgel Pinheiro MC906A - Inteligência Articial Instituto de Computação Universidade Estadual de Campinas - UNICAMP 16 de Novembro de 2010 1 / 48 PO http://www.ic.unicamp.br/

Leia mais

Aprendizado de Máquina. Combinando Classificadores

Aprendizado de Máquina. Combinando Classificadores Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores

Leia mais

4 Métodos Existentes. 4.1 Algoritmo Genético

4 Métodos Existentes. 4.1 Algoritmo Genético 61 4 Métodos Existentes A hibridização de diferentes métodos é em geral utilizada para resolver problemas de escalonamento, por fornecer empiricamente maior eficiência na busca de soluções. Ela pode ser

Leia mais

Aprendizado por Reforço Acelerado por Heurística para um Sistema Multi-Agentes

Aprendizado por Reforço Acelerado por Heurística para um Sistema Multi-Agentes Proceedings of the International Joint Conference IBERAMIA/SBIA/SBRN 2006-3rd Workshop on MSc dissertations and PhD thesis in Artificial Intelligence (WTDIA 2006), Ribeirão Preto, Brazil, October 23 28,

Leia mais

Marina Andretta. 17 de setembro de Baseado no livro Numerical Optimization, de J. Nocedal e S. J. Wright.

Marina Andretta. 17 de setembro de Baseado no livro Numerical Optimization, de J. Nocedal e S. J. Wright. Métodos de regiões de confiança Marina Andretta ICMC-USP 17 de setembro de 2014 Baseado no livro Numerical Optimization, de J. Nocedal e S. J. Wright. Marina Andretta (ICMC-USP) sme0212 - Otimização não-linear

Leia mais

Emerson de Oliveira Antunes Samir Elias Hachem Kerbage

Emerson de Oliveira Antunes Samir Elias Hachem Kerbage MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE CIÊNCIA E TECNOLOGIA INSTITUTO MILITAR DE ENGENHARIA Seção de Engenharia de Computação / SE 8 Emerson de Oliveira Antunes Samir Elias Hachem Kerbage

Leia mais

6. Controle por Aprendizado Neuro-Fuzzy

6. Controle por Aprendizado Neuro-Fuzzy 6. Controle por Aprendizado Neuro-Fuzzy 6.1. Introdução Neste capítulo é apresentado o controle por aprendizado utilizando um sistema híbrido Neuro-Fuzzy, para o cálculo e atualização dos pontos de reversão

Leia mais

1. Computação Evolutiva

1. Computação Evolutiva Computação Bioinspirada - 5955010-1 1. Computação Evolutiva Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 1.7. Outras Metaheurísticas Populacionais 1.7.1. Metaheurísticas Populacionais

Leia mais

Iam Vita Jabour. O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML. Dissertação de Mestrado

Iam Vita Jabour. O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML. Dissertação de Mestrado Iam Vita Jabour O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de

Leia mais

INVESTIGANDO O PROBLEMA DA MOCHILA IRRESTRITA EM SUA VERSÃO BIDIMENSIONAL

INVESTIGANDO O PROBLEMA DA MOCHILA IRRESTRITA EM SUA VERSÃO BIDIMENSIONAL INVESTIGANDO O PROBLEMA DA MOCHILA IRRESTRITA EM SUA VERSÃO BIDIMENSIONAL Mirella Augusta Sousa Moura, mirella.asm14@hotmail.com Thiago Alves de Queiroz, th.al.qz@catalão.ufg.br Resumo: Empacotamento consiste

Leia mais

3. Resolução de problemas por meio de busca

3. Resolução de problemas por meio de busca Inteligência Artificial - IBM1024 3. Resolução de problemas por meio de busca Prof. Renato Tinós Local: Depto. de Computação e Matemática (FFCLRP/USP) 1 Principais Tópicos 3. Resolução de problemas por

Leia mais

CES Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov

CES Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov CES -161 - Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov Prof. Paulo André Castro www.comp.ita.br/~pauloac pauloac@ita.br Sala 110, IEC-ITA Aprendizado - paradigmas Aprendizado

Leia mais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica REDES NEURAIS ARTIFICIAIS AULA 03 Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 INTRODUÇÃO Aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são adaptados através de um processo

Leia mais

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental Algoritmos de Aprendizado Regra de Hebb Perceptron Delta Rule (Least Mean Square Back Propagation Formas de Aprendizado Existe dois métodos básicos de aplicação do algoritmo Back Propagation: Aprendizado

Leia mais

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental Algoritmos de Aprendizado Regra de Hebb Perceptron Delta Rule (Least Mean Square Multi-Layer Perceptrons (Back Propagation Radial Basis Functions (RBFs Competitive Learning Hopfield Formas de Aprendizado

Leia mais

Classificadores Lineares

Classificadores Lineares Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Classificadores Lineares David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Funções Discriminantes Lineares Perceptron Support

Leia mais

5 Avaliação Experimental

5 Avaliação Experimental 5 Avaliação Experimental Com o objetivo de validar a modelagem proposta, foi desenvolvido um código que gerencia um ambiente de treinamento. Neste ambiente são controladas as condições de execução do treinamento,

Leia mais

Método de Otsu. Leonardo Torok 1

Método de Otsu. Leonardo Torok 1 Método de Otsu Leonardo Torok 1 1 Instituto de Computação Universidade Federal Fluminense (UFF) Av. Gal. Milton Tavares de Souza, s/nº 24.210 346 Niterói RJ Brasil ltorok@ic.uff.br Resumo. O método de

Leia mais

UAISOCCER2D - TEAM DESCRIPTION PAPER CBR 2013

UAISOCCER2D - TEAM DESCRIPTION PAPER CBR 2013 UAISOCCER2D - TEAM DESCRIPTION PAPER CBR 2013 André Luiz Carvalho Ottoni, Erivelton Geraldo Nepomuceno, Marcos Santos de Oliveira, Rubisson Duarte Lamperti, Eduardo Bento Pereira, Emerson Santos Silva,

Leia mais

Utilização de Aprendizagem por Reforço para Modelagem Autônoma do Aprendiz em um Tutor Inteligente

Utilização de Aprendizagem por Reforço para Modelagem Autônoma do Aprendiz em um Tutor Inteligente Utilização de Aprendizagem por Reforço para Modelagem Autônoma do Aprendiz em um Tutor Inteligente Modalidade Artigo Completo Marcus V. C. Guelpeli 1, Carlos H. C. Ribeiro 1 e Nizam Omar 2 1 Divisão de

Leia mais

6 Estudos de Casos Porta Lógica OU de 4 Entradas

6 Estudos de Casos Porta Lógica OU de 4 Entradas 6 Estudos de Casos Com o objetivo de avaliar a síntese automática de circuitos de QCA usando técnicas de Hardware Evolucionário (EHW), alguns circuitos foram sintetizados e serão apresentados a seguir.

Leia mais

Uma Introdução à Busca Tabu André Gomes

Uma Introdução à Busca Tabu André Gomes Uma Introdução à Busca Tabu André Gomes Departamento de Ciência da Computação, Instituto de Matemática e Estatística, Universidade de São Paulo, SP, Brasil Novembro de 2009 INTRODUÇÃO Método de Busca Local

Leia mais

Método de restrições ativas para minimização em caixas

Método de restrições ativas para minimização em caixas Método de restrições ativas para minimização em caixas Marina Andretta ICMC-USP 20 de outubro de 2014 Marina Andretta (ICMC-USP) sme5720 - Otimização não-linear 20 de outubro de 2014 1 / 25 Problema com

Leia mais

Projeto e Análise de Algoritmos

Projeto e Análise de Algoritmos Projeto e Algoritmos Pontifícia Universidade Católica de Minas Gerais harison@pucpcaldas.br 26 de Maio de 2017 Sumário A complexidade no desempenho de Quando utilizamos uma máquina boa, ela tende a ter

Leia mais

Enunciados dos Exercícios Cap. 2 Russell & Norvig

Enunciados dos Exercícios Cap. 2 Russell & Norvig Enunciados dos Exercícios Cap. 2 Russell & Norvig 1. (2.2) Tanto a medida de desempenho quanto a função de utilidade medem o quanto um agente está desempenhando bem suas atividades. Explique a diferença

Leia mais

a) Defina em Prolog iguais/1, um predicado que recebe um estado do jogo e que verifica que todas as pilhas têm o mesmo número de peças.

a) Defina em Prolog iguais/1, um predicado que recebe um estado do jogo e que verifica que todas as pilhas têm o mesmo número de peças. Introdução à Inteligência Artificial 2ª Época 29 Janeiro 2015 Nº Aluno: Nome Completo: Exame com consulta. Responda às perguntas nesta própria folha, nos espaços indicados. (I) O jogo do Nim (também chamado

Leia mais

Redes Neurais Artificiais

Redes Neurais Artificiais Redes Neurais Artificiais Marcelo K. Albertini 24 de Julho de 2014 2/34 Conteúdo Perceptron Gradiente descendente Redes multicamadas Retropropagação de erros 3/34 Modelos conexionistas Humanos Tempo de

Leia mais

Algoritmos de Ordenação

Algoritmos de Ordenação Algoritmos de Ordenação Introdução à Ciência da Computação Prof. Edison Ishikawa Objetivo Apresentar diferentes algoritmos de ordenação de dados Mostrar como analisar os algoritmos em termos de tempo de

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

PMR Computação para Mecatrônica

PMR Computação para Mecatrônica PMR3201 - Computação para Mecatrônica Prof. Thiago de Castro Martins Prof. Newton Maruyama Prof. Marcos de S.G. Tsuzuki Monitor: Pietro Teruya Domingues Exercício Programa 2 - Versão 2017 Resolvendo o

Leia mais

5 VNS com Filtro e Reconexão por Caminhos

5 VNS com Filtro e Reconexão por Caminhos 5 VNS com Filtro e Reconexão por Caminhos A metaheurística VNS (Variable Neighborhood Search) foi proposta por Mladenović e Hansen [40] e possui como idéia básica a mudança de vizinhanças realizada da

Leia mais

Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function

Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function Algoritmos de Aprendizado Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function Formas de Aprendizado Existe

Leia mais

Inteligência Artificial Redes Neurais

Inteligência Artificial Redes Neurais Inteligência Artificial Jarley P. Nóbrega, Dr. Faculdade Nova Roma Bacharelado em Ciência da Computação jpn@jarley.com Semestre 2018.2 Jarley P. Nóbrega, Dr. (Nova Roma) Inteligência Artificial Semestre

Leia mais

lnteligência Artificial

lnteligência Artificial lnteligência Artificial Busca Heurística - Informada Estratégias de Busca Heurística Usam conhecimento específico do problema na busca da solução Mais eficientes que busca não informada Busca Informada

Leia mais

Implementação e Avaliação do Algoritmo MCTS-UCT para o jogo Chinese Checkers. Jhonny Moreira

Implementação e Avaliação do Algoritmo MCTS-UCT para o jogo Chinese Checkers. Jhonny Moreira Implementação e Avaliação do Algoritmo MCTS-UCT para o jogo Chinese Checkers Jhonny Moreira Introdução Introdução Na área da inteligência artificial (IA), a motivação é conseguir colocar os computadores

Leia mais

Programa: Ciência da Computação Orientadora: Prof ạ Dr ạ Leliane Nunes de Barros

Programa: Ciência da Computação Orientadora: Prof ạ Dr ạ Leliane Nunes de Barros Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda Denis Antonio Lacerda Dissertação apresentada ao Instituto de Matemática e Estatística da Universidade

Leia mais

CEFET/RJ Disciplina: Inteligência Artificial Professor: Eduardo Bezerra Lista de exercícios 02

CEFET/RJ Disciplina: Inteligência Artificial Professor: Eduardo Bezerra Lista de exercícios 02 . CEFET/RJ Disciplina: Inteligência Artificial Professor: Eduardo Bezerra Lista de exercícios 02 Créditos: alguns itens desta lista são adaptados do material da disciplina CS188 - Artificial Intelligence

Leia mais

CIC 111 Análise e Projeto de Algoritmos II

CIC 111 Análise e Projeto de Algoritmos II CIC 111 Análise e Projeto de Algoritmos II Prof. Roberto Affonso da Costa Junior Universidade Federal de Itajubá AULA 27 Square root algorithms Combining algorithms Integer partitions Mo s algorithm Square

Leia mais

Redes Neurais Artificiais - Introdução. Visão Computacional

Redes Neurais Artificiais - Introdução. Visão Computacional Redes Neurais Artificiais - Introdução Visão Computacional Inspiração 2 Inspiração 3 Inspiração Atividade seletivanas conexões Soma os impulsos e passa a diante 4 Inspiração As conexões entre os dendritos

Leia mais

Cubo Mágico. Tutorial de Resolução. Nível Básico. Método das Camadas. Autor: Rinaldo Pitzer Junior.

Cubo Mágico. Tutorial de Resolução. Nível Básico. Método das Camadas. Autor: Rinaldo Pitzer Junior. Cubo Mágico Tutorial de Resolução Nível Básico Método das Camadas Autor: Rinaldo Pitzer Junior www.artedocubo.com.br Tópicos Abordados Curiosidades As Peças do Cubo Algoritmos Resolução Links Úteis Agradecimentos

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

Buscas Informadas ou Heurísticas - Parte II

Buscas Informadas ou Heurísticas - Parte II Buscas Informadas ou Heurísticas - Parte II Prof. Cedric Luiz de Carvalho Instituto de Informática - UFG Graduação em Ciência da Computação / 2006 FUNÇÕES HEURÍSTICAS - 1/7 FUNÇÕES HEURÍSTICAS - 2/7 Solução

Leia mais

Jogos com Oponentes. March 7, 2018

Jogos com Oponentes. March 7, 2018 Jogos com Oponentes March 7, 2018 Jogos com Oponentes ˆ Problemas de busca: não assumem a presença de um oponente ˆ Jogos: oponente INCERTEZA! ˆ Incerteza porque não se conhece as jogadas exatas do oponente

Leia mais

4 Análise de Dados. 4.1.Procedimentos

4 Análise de Dados. 4.1.Procedimentos 4 Análise de Dados 4.1.Procedimentos A idéia inicial para a comparação dos dados foi separá-los em series de 28 ensaios, com a mesma concentração, para depois combinar esses ensaios em uma única série.

Leia mais

Capítulo 10. Rotação. Copyright 2014 John Wiley & Sons, Inc. All rights reserved.

Capítulo 10. Rotação. Copyright 2014 John Wiley & Sons, Inc. All rights reserved. Capítulo 10 Rotação Copyright 10-1 Variáveis Rotacionais Agora estudaremos o movimento de rotação Aplicam-se as mesmas leis Mas precisamos de novas variáveis para expressá-las o o Torque Inércia rotacional

Leia mais

CTC-17 Inteligência Artificial Busca Competitiva e Busca Iterativa. Prof. Paulo André Castro

CTC-17 Inteligência Artificial Busca Competitiva e Busca Iterativa. Prof. Paulo André Castro CTC-17 Inteligência Artificial Busca Competitiva e Busca Iterativa Prof. Paulo André Castro pauloac@ita.br www.comp.ita.br/~pauloac Sala 110, IEC-ITA Sumário Busca Competitiva Para Ambientes multiagentes...

Leia mais

Fundamentos de Inteligência Artificial [5COP099]

Fundamentos de Inteligência Artificial [5COP099] Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL 1 o Semestre Assunto Aula 7 Algoritmos de Busca Competitiva 2 de 20 Sumário Introdução Busca Competitiva

Leia mais

Precondicionadores baseados na aproximação da inversa da matriz de coeficientes

Precondicionadores baseados na aproximação da inversa da matriz de coeficientes Precondicionadores baseados na aproximação da inversa da matriz de coeficientes João Paulo K. Zanardi, Italo C. N. Lima, Programa de Pós Graduação em Eneganharia Mecânica, FEN, UERJ 20940-903, Rio de Janeiro,

Leia mais

3 Trabalhos Relacionados

3 Trabalhos Relacionados 3 Trabalhos Relacionados Este capítulo apresenta, em linhas gerais, dois trabalhos relacionados que contribuíram de alguma forma para a concepção e desenvolvimento do método de verificação de sistemas

Leia mais

5 Estudo de Caso e Resultados

5 Estudo de Caso e Resultados 5 Estudo de Caso e Resultados 5.1. Introdução Finalizado o desenvolvimento da ferramenta, é indispensável testar suas funcionalidades e a eficácia da aplicação conjunta dos seus módulos de geração de experimentos

Leia mais

COMPARAÇÃO ENTRE DIFERENTES ESTRUTURAS DE REDES NEURAIS NO PROBLEMA PRESA-PREDADOR 1

COMPARAÇÃO ENTRE DIFERENTES ESTRUTURAS DE REDES NEURAIS NO PROBLEMA PRESA-PREDADOR 1 COMPARAÇÃO ENTRE DIFERENTES ESTRUTURAS DE REDES NEURAIS NO PROBLEMA PRESA-PREDADOR 1 Márcia Da Silva 2, Eldair Fabricio Dornelles 3, Rogério S. M. Martins 4, Édson L. Padoin 5. 1 Pesquisa desenvolvida

Leia mais

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO

Leia mais

4 Modelos Propostos para Otimização de Planejamentos com Restrições de Precedência 4.1 Representação com Algoritmos Genéticos

4 Modelos Propostos para Otimização de Planejamentos com Restrições de Precedência 4.1 Representação com Algoritmos Genéticos 46 4 Modelos Propostos para Otimização de Planejamentos com Restrições de Precedência 4.1 Representação com Algoritmos Genéticos Para definir a representação de um modelo para problemas de planejamento

Leia mais

Inteligência Artificial

Inteligência Artificial Inteligência Artificial Fabrício Olivetti de França 07 de Junho de 2018 1 Agentes 2 Agente, Ambiente e Sensores Um agente é definido pelo ambiente que ele consegue perceber através de seus sensores e as

Leia mais

DETERMINAÇÃO DE FUNÇÕES DE TRANSFERÊNCIA DE PROCESSOS QUÍMICOS ATRAVÉS DO MÉTODO DE EVOLUÇÃO DIFERENCIAL UTILIZANDO O SCILAB

DETERMINAÇÃO DE FUNÇÕES DE TRANSFERÊNCIA DE PROCESSOS QUÍMICOS ATRAVÉS DO MÉTODO DE EVOLUÇÃO DIFERENCIAL UTILIZANDO O SCILAB DETERMINAÇÃO DE FUNÇÕES DE TRANSFERÊNCIA DE PROCESSOS QUÍMICOS ATRAVÉS DO MÉTODO DE EVOLUÇÃO DIFERENCIAL UTILIZANDO O SCILAB A. H. R. REZENDE 1, D. L. SOUZA 1 1 Universidade Federal do Triângulo Mineiro,

Leia mais

Teoria de dualidade. Marina Andretta ICMC-USP. 19 de outubro de 2016

Teoria de dualidade. Marina Andretta ICMC-USP. 19 de outubro de 2016 Teoria de dualidade Marina Andretta ICMC-USP 19 de outubro de 2016 Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis. Marina Andretta (ICMC-USP) sme0211 - Otimização

Leia mais

Figura: Capa do Livro Hamburger, H., Richards, D. Logic and Language Models for Computer Science, Prentice Hall.

Figura: Capa do Livro Hamburger, H., Richards, D. Logic and Language Models for Computer Science, Prentice Hall. Figura: Capa do Livro Hamburger, H., Richards, D. Logic and Language Models for Computer Science, Prentice Hall. Universidade Federal de Campina Grande Departamento de Sistemas e Computação Curso de Bacharelado

Leia mais

6 Aplicações Detalhes da Implementação

6 Aplicações Detalhes da Implementação 6 Aplicações Neste trabalho, é importante implementar aplicações de interação em tempo real para que seja possível avaliar a aplicabilidade das técnicas de Visão Computacional descritas ao longo dos capítulos

Leia mais

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Avaliando Hipóteses George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Pontos importantes Erro da Amostra e Erro Real Como Calcular Intervalo de Confiança Erros de hipóteses Estimadores Comparando

Leia mais

Programação Procedimental

Programação Procedimental Programação Procedimental Maria Adriana Vidigal de Lima Universidade Federal de Uberlândia - 2013 1 Escrita de Algoritmos 1.1 Técnicas de Programação e Algoritmos Na elaboração de programas maiores e complexos

Leia mais

APLICAÇÃO DO ALGORITMO SARSA NA COLETA DE LIXO - ESTUDO DO PARÂMETRO ALPHA 1

APLICAÇÃO DO ALGORITMO SARSA NA COLETA DE LIXO - ESTUDO DO PARÂMETRO ALPHA 1 APLICAÇÃO DO ALGORITMO SARSA NA COLETA DE LIXO - ESTUDO DO PARÂMETRO ALPHA 1 Darlinton Prauchner 2, Rogério Martins 3, Edson Padoin 4. 1 Trabalho de conclusão de curso realiazado no curso de Ciência da

Leia mais

SEMÁFORO INTELIGENTE UMA APLICAÇÃO DE APRENDIZAGEM POR REFORÇO

SEMÁFORO INTELIGENTE UMA APLICAÇÃO DE APRENDIZAGEM POR REFORÇO Anais do XIX Congresso Brasileiro de Automática, CBA 2012. SEMÁFORO INTELIGENTE UMA APLICAÇÃO DE APRENDIZAGEM POR REFORÇO GABRIEL M. COSTA, GUILHERME S. BASTOS Centro de Referência em Tecnologias da Informação,

Leia mais

CTC-17 Inteligência Artificial Busca Competitiva e Busca Iterativa. Prof. Paulo André Castro

CTC-17 Inteligência Artificial Busca Competitiva e Busca Iterativa. Prof. Paulo André Castro CTC-17 Inteligência Artificial Busca Competitiva e Busca Iterativa Prof. Paulo André Castro pauloac@ita.br www.comp.ita.br/~pauloac Sala 110, IEC-ITA Sumário Busca Competitiva Para Ambientes multiagentes...

Leia mais

3 REDES CLÁSSICAS PERCEPTRON E ADALINE

3 REDES CLÁSSICAS PERCEPTRON E ADALINE w b Professor José Gomes de Carvalho Jr. 3 REDES CLÁSSICAS PERCEPTRON E ADALINE 3.-Redes com funções de ativação de limiar Uma rede simples de uma camada, consiste em um ou mais neurônios de saída j conectados

Leia mais

Agentes Inteligentes. Módulo 02 27/02/2013. Inteligência Artificial. Profª Hemilis Joyse

Agentes Inteligentes. Módulo 02 27/02/2013. Inteligência Artificial. Profª Hemilis Joyse Agentes Inteligentes Módulo 02 1 Agente É tudo que pode ser considerado capaz de perceber seu ambiente por meio de sensores e de agir sobre esse ambiente por intermédio de atuadores. 2 Agente Tabela parcial

Leia mais

UTILIZAÇÃO DE APRENDIZADO POR REFORÇO PARA APRENDER A ESTRATÉGIA DO JOGO DA VELHA

UTILIZAÇÃO DE APRENDIZADO POR REFORÇO PARA APRENDER A ESTRATÉGIA DO JOGO DA VELHA Anais do 12 O Encontro de Iniciação Científica e Pós-Graduação do ITA XII ENCITA / 2006 Instituto Tecnológico de Aeronáutica São José dos Campos SP Brasil Outubro 16 a19 2006 UTILIZAÇÃO DE APRENDIZADO

Leia mais

23/05/12. Consulta distribuída. Consulta distribuída. Objetivos do processamento de consultas distribuídas

23/05/12. Consulta distribuída. Consulta distribuída. Objetivos do processamento de consultas distribuídas Processamento de Consultas em Bancos de Dados Distribuídos Visão geral do processamento de consultas IN1128/IF694 Bancos de Dados Distribuídos e Móveis Ana Carolina Salgado acs@cin.ufpe.br Bernadette Farias

Leia mais

Gradiente descendente

Gradiente descendente Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Gradiente descendente Eduardo Vargas Ferreira Solução de quadrados mínimos Teorema: Seja X M n p (R), com n > p e posto(x

Leia mais

Modelagem e Simulação de um Sistema de Aprendizado de Reforço para Robôs

Modelagem e Simulação de um Sistema de Aprendizado de Reforço para Robôs Modelagem e Simulação de um Sistema de Aprendizado de Reforço para Robôs André Luiz Carvalho Ottoni (UFSJ) andreottoni@ymail.com Rubisson Duarte Lamperti (UFSJ) duartelamperti@yahoo.com.br Erivelton Geraldo

Leia mais

Inteligência Artificial - IA. Resolução de problemas por meio de busca

Inteligência Artificial - IA. Resolução de problemas por meio de busca Resolução de problemas por meio de busca 1 Agente reativo - definido por ação reação Agente de resolução de problemas (ou baseado em objetivos) encontra sequencias de ações que leva ao estado desejável.

Leia mais

Redes Neurais e Sistemas Fuzzy

Redes Neurais e Sistemas Fuzzy Redes Neurais e Sistemas Fuzzy Redes de uma única camada O Perceptron elementar Classificação de padrões por um perceptron A tarefa de classificação consiste em aprender a atribuir rótulos a dados que

Leia mais

5 Testes e Resultados

5 Testes e Resultados 5 Testes e Resultados Neste capítulo serão apresentados experimentos que ilustram as implementações desenvolvidas e propostas no capítulo anterior. São mostrados experimentos que investigam o algoritmo

Leia mais

ALGORITMOS GENÉTICOS. Adair Santa Catarina Curso de Ciência da Computação Unioeste Campus de Cascavel PR

ALGORITMOS GENÉTICOS. Adair Santa Catarina Curso de Ciência da Computação Unioeste Campus de Cascavel PR ALGORITMOS GENÉTICOS Adair Santa Catarina Curso de Ciência da Computação Unioeste Campus de Cascavel PR Fev/2018 Introdução Algoritmos Genéticos são algoritmos heurísticos de busca, que utilizam regras

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 22 Redes Neurais Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de decisão. K-Nearest Neighbor (KNN). Support

Leia mais

3. Resolução de problemas por meio de busca

3. Resolução de problemas por meio de busca Inteligência Artificial - IBM1024 3. Resolução de problemas por meio de busca Prof. Renato Tinós Local: Depto. de Computação e Matemática (FFCLRP/USP) 1 Principais Tópicos 3. Resolução de problemas por

Leia mais

Tópicos Especiais em Otimização

Tópicos Especiais em Otimização Tópicos Especiais em Otimização ivo.junior@ufjf.edu.br Juiz de Fora, 05 de Maio de 2016 Introdução Qual a diferença entre inteligência: ARTIFICIAL E COMPUTACIONAL? ARTIFICIAL: É a ciência que tenta compreender

Leia mais

Aprendizado por Árvores de Decisão

Aprendizado por Árvores de Decisão Universidade Federal de Santa Maria Departamento de Eletrônica e Computação Prof. Cesar Tadeu Pozzer Disciplina de Programação de Jogos 3D E-mail: pozzer@inf.ufsm.br Período: 2006/01 Aprendizado por Árvores

Leia mais

Aula 2: Algoritmos: Intuição

Aula 2: Algoritmos: Intuição Aula 2: Algoritmos: Intuição Fernanda Passos Universidade Federal Fluminense Programação de Computadores IV Fernanda Passos (UFF) Algoritmos: Intuição Programação de Computadores IV 1 / 27 Agenda 1 Revisão

Leia mais