UTILIZAÇÃO DE APRENDIZADO POR REFORÇO PARA APRENDER A ESTRATÉGIA DO JOGO DA VELHA

Documentos relacionados
Figura: Capa do Livro Hamburger, H., Richards, D. Logic and Language Models for Computer Science, Prentice Hall.

Fundamentos de Inteligência Artificial [5COP099]

Inteligência Artificial. Resolução de problemas por meio de algoritmos de busca. Aula VI Busca Competitiva

Árvore de Jogos Minimax e Poda Alfa-Beta

3 Aprendizado por reforço

INF 1771 Inteligência Artificial

Inteligência Artificial. 3º Quadrimestre de 2018

Busca Competitiva. Inteligência Artificial. Até aqui... Jogos vs. busca. Decisões ótimas em jogos 9/22/2010

Implementação e Avaliação do Algoritmo MCTS-UCT para o jogo Chinese Checkers. Jhonny Moreira

INF 1771 Inteligência Artificial

Inteligência Computacional

Jogos com Oponentes. March 7, 2018

Busca competitiva. Inteligência Artificial. Profª. Solange O. Rezende

INF 1771 Inteligência Artificial

Jogos. Geralmente o oponente tentará, na medida do possível, fazer o movimento menos benéfico para o adversário.

Inteligência Artificial

Redes Neurais Artificiais Aplicadas ao Jogo da Velha 3D em Pinos

INTELIGÊNCIA ARTIFICIAL

Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid

Jogo de Damas. Alunos: Sávio Mendes de Figueiredo Sômulo Nogueira Mafra

Aprendizado de Máquina

Algoritmos de retrocesso

Algoritmos de retrocesso

Aprendizagem de Máquinas

Aprendizado por Reforço

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Controle Ótimo - Aula 6 Exemplos e Exercícios

INF 1771 Inteligência Artificial

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Introdução à Inteligência Artificial. Procura em contextos competitivos jogos (cont.)

UFSC Universidade Federal de Santa Catarina CTC Centro Tecnológico INE Departamento de Informática e Estatística

PMR Computação para Mecatrônica

Fabrício Jailson Barth BandTec

Ex. 1) Considere que a árvore seguinte corresponde a uma parte do espaço de estados de um jogo de dois agentes: f=7 f=7 f=1 f=2

OTIMIZAÇÃO DE PORTFÓLIO PARA UMA CARTEIRA DE CRIPTOMOEDAS: UMA ABORDAGEM EM REINFORCEMENT LEARNING

PROCESSO SELETIVO N 42/2019 PROVA 2 - CONHECIMENTOS ESPECÍFICOS

a) Defina em Prolog iguais/1, um predicado que recebe um estado do jogo e que verifica que todas as pilhas têm o mesmo número de peças.

lnteligência Artificial Introdução a Lógica Nebulosa (Fuzzy)

lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning)

Jogos com Oponentes. espaço de busca muito grande tempo para cada jogada

MODELAGEM E IMPLEMENTAÇÃO DE JOGOS APLICADOS A APRENDIZAGEM DE MÁQUINA 1

Redes Neurais (Inteligência Artificial)

Fundamentos de Inteligência Artificial [5COP099]

CTC-17 Inteligência Artificial Busca Competitiva e Busca Iterativa. Prof. Paulo André Castro

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais

DESENVOLVIMENTO DE TÉCNICA DE INTELIGENCIA ARTIFICIAL BASEADA EM REDE NEURAL FUZZY-CMAC PARA APLICAÇÃO EM CONTROLE DE MÁQUINAS DE PRODUÇÃO

3. Resolução de problemas por meio de busca

Aprendizagem por Reforço

Inteligência Artificial

Implementação De Um Jogo Com Inteligência Artificial e Aprendizado Probabilístico

RECONHECIMENTO DE CARACTERES EM PLACAS AUTOMOTIVAS UTILIZANDO REDES NEURAIS

Aprendizado de Máquina Aplicado à Jogos

Simulação do Jogo Tic-Tac-Toe com o uso de Técnicas de Inteligência Artificial

Resolução de Problemas. Hugo Barros

APLICAÇÃO DE REDES NEURAIS RECORRENTES EM AMBIENTES PARCIALMENTE OBSERVÁVEIS 1

Jaraguá Clube Campestre VI Campeonato Interno de Futsal -2015

SOLUÇÕES HEURÍSTICAS PARA O JOGO DE DAMAS

CEFET/RJ Disciplina: Inteligência Artificial Professor: Eduardo Bezerra Lista de exercícios 02

Universidade Federal do ABC Rua Santa Adélia, Bairro Bangu - Santo André - SP - Brasil CEP Telefone/Fax:

Fundamentos de Inteligência Artificial [5COP099]

USO DE JOGOS LÓGICOS APLICADOS A APRENDIZAGEM DE MÁQUINA. 1

Semáforo Autor: Alan Parr. Avanço Autor: Dan Troyka, Material Um tabuleiro quadrado 7 por peças brancas e 14 peças negras.

Departamento de Ciência de Computadores - FCUP Primeiro Teste de Inteligência Artificial / Sistemas Inteligentes (Duração: 2 horas)

Jogos com Oponentes. Problemas de busca: não assumem a presença de um oponente

CEFET/RJ Inteligência Artificial (2017.2) Professor: Eduardo Bezerra Lista de exercícios 03

Técnicas para Implementação de Jogos

6. QUADRIMESTRE IDEAL 7. NÍVEL Graduação 8. Nº. MÁXIMO DE ALUNOS POR TURMA

INTRODUÇÃO À INTELIGÊNCIA COMPUTACIONAL. Aula 04 Prof. Vitor Hugo Ferreira

UMA INTRODUÇÃO AOS ALGORITMOS GENETICOS

Aprendizado de Máquina (Machine Learning)

INTELIGÊNCIA ARTIFICIAL

Manual do Kiriki. Albert Astals Cid Eugene Trounev Tradução: Luiz Fernando Ranghetti

Objetivo: Vence o jogo o time que conseguir revelar primeiro todas as 3 Cartas de Identidade de 2 infiltrados pertencentes ao time adversário.

Anatomia do motor de um programa de xadrez. Hugo Vinicius M. D. Santana Orientador: José Coelho de Pina

Agentes Inteligentes. Inteligência Artificial

1/ 36. Computação 1 - Python Aula 1 - Teórica: Introdução

Tópicos Especiais em Informática Fatec Indaiatuba

TAPETE DAS LIGAÇÕES: UMA ABORDAGEM LÚDICA SOBRE AS LIGAÇÕES QUÍMICAS E SEUS CONCEITOS

CEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra Lista de exercícios 04

Inteligência Computacional para Jogos Eletrônicos

Jogos com Oponentes. Problemas de busca: não assumem a presença de um oponente

INF 1771 Inteligência Artificial

Manual do KSquares. Matt Williams Revisor: Eugene Trounev Tradução: Luiz Fernando Ranghetti Tradução: André Marcelo Alvarenga

INTELIGÊNCIA ARTIFICIAL

ESTIMULAR O ENSINO-APRENDIZAGEM NA MATEMÁTICA ATRAVÉS DE JOGO LÚDICO

APLICAÇÃO DO ALGORITMO SARSA NA COLETA DE LIXO - ESTUDO DO PARÂMETRO ALPHA 1

Soluções da Lista de Exercícios Unidade 20

REGRAS DOS JOGOS do CNJM15

Sumário. Decisões óptimas em jogos (minimax) Cortes α-β Decisões imperfeitas em tempo real

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular INTELIGÊNCIA ARTIFICIAL Ano Lectivo 2018/2019

Inteligência Artificial (SI 214) Aula 6 Busca com Adversário. Prof. Josenildo Silva

Gatos & Cães Simon Norton, 1970s

Fundamentos de Teoria dos jogos

Trabalho Prático 2 Mundo dos Blocos Alocação Dinâmica / Listas Encadeadas

Probabilidade Condicional

Implementação de controlador PID fuzzy para otimização do controle de posição de um servomotor DC

Transcrição:

Anais do 12 O Encontro de Iniciação Científica e Pós-Graduação do ITA XII ENCITA / 2006 Instituto Tecnológico de Aeronáutica São José dos Campos SP Brasil Outubro 16 a19 2006 UTILIZAÇÃO DE APRENDIZADO POR REFORÇO PARA APRENDER A ESTRATÉGIA DO JOGO DA VELHA Marcelo Corrêa Horewicz Instituto Tecnológico de Aeronáutica ITA.Programa de Pós-Graduação em Aplicações Operacionais (PPGAO). H9B apt 203 Campus do CTA - São José dos Campos 12228-611 SP Brasil horewicz@ita.br Cairo Lúcio Nascimento Jr. Instituto Tecnológico de Aeronáutica ITA. Divisão de Engenharia Eletrônica. São José dos Campos 12228-900 SP Brasil cairo@ele.ita.br Resumo. Neste artigo são apresentados os resultados alcançados com o aprendizado por reforço do inglês Reinforcement Learning (RL) de jogadores artificiais de jogo da velha em um tabuleiro com 3X3 casas. O aprendizado por reforço é uma técnica de aprendizagem onde os agentes recebem recompensas e punições a partir da realização de uma determinada ação. No caso em estudo primeiramente um jogador artificial de jogo da velha aprendeu por reforço boas estratégias de jogo após ter sido treinado por um outro jogador artificial que já possuía boas estratégias do jogo da velhaeste jogador fora implementado com o algoritmo conhecido como Min-Max. Numa segunda situação dois jogadores artificiais se confrontaram aprendendo por reforço conjuntamente as estratégias do jogo. As simulações realizadas em MATLAB comprovaram a eficiência da técnica e os jogadores artificiais aprendizes ao final dos treinamentos ficaram capacitados a jogar o jogo da velha contra qualquer adversário seja este uma outra máquina seja este um ser humano. Palavras chave:inteligência Artificial algoritmo min-max aprendizado por reforço. 1. Introdução O aprendizado é a aquisição de conceitos e de conhecimentos estruturados. O estudo do aprendizado pela máquina é uma área fundamental da inteligência artificial (IA). O aprendizado pode ocorrer com ou sem a presença de um tutor ou seja de um professor. O aprendizado supervisionado caracteriza-se pela orientação de um tutor na aquisição dos conceitos e de conhecimentos estruturados enquanto que o aprendizado não-supervisionado ocorre apenas em função dos estímulos primitivos não existindo a figura do tutor na aprendizagem. Um dos mecanismos empregados no processo de aprendizagem é o de punição e recompensa onde as tentativas e os erros são disciplinados por um supervisor que fornece ao aprendiz um sinal de retorno na forma de punição ou recompensa dependendo das ações certas ou erradas executadas pelo supervisionado. A aprendizagem por reforço é um típico problema de aprendizagem baseado em punição e recompensa ou comportamental e é realizada através da interação entre o sistema de aprendizagem e o seu ambiente dentro do qual o sistema procura alcançar um objetivo específico apesar da presença de incertezas. O fato de que esta interação é realizada sem um professor torna a aprendizagem por reforço atrativa para situações dinâmicas em que é custoso ou difícil reunir um conjunto satisfatório de exemplos de entradas e saídas. A aprendizagem por reforço pode ser aplicada ao clássico jogo da velha do inglês Tic-Tac-Toe. Neste caso pretende-se que a máquina possua a capacidade de jogar o jogo da velha com boas estratégias de jogo adquiridas após um treinamento utilizando o aprendizado por reforço. A máquina uma vez aprendido estratégias do jogo da velha terá condições de jogar contra seres humanos ou computadores. Para que a máquina possa aprender a jogar o jogo da velha ela necessita de jogar contra um oponente que conheça as regras e de preferência que possua boas estratégias de jogo. Para um primeiro treinamento foi utilizado como adversário um programa que já possuía o conhecimento de estratégias do jogo da velha desenvolvido segundo a técnica conhecida como Min-Max. Num segundo treinamento foram utilizados dois jogadores aprendizes que se confrontaram e com isto aprenderam conjuntamente e por reforço as estratégias do jogo da velha. Vale a pena ressaltar que neste caso nenhum dos dois jogadores conheciam algum tipo de estratégia de jogo antes do treinamento. Para efeitos de padronização e facilidade de entendimento a partir deste momento a máquina que utilizou a técnica de aprendizagem por reforço será denominada simplesmente de AR e a máquina que foi desenvolvida segundo a técnica Min-Max será chamada simplesmente de Min-Max. No segundo caso de treinamento os jogadores artificiais serão nomeados como AR1 e AR2. Neste artigo são mostrados os resultados obtidos pelo treinamento de um AR jogando contra um Min-Max e pelo treinamento de um AR1 jogando contra um AR2.

2. Aprendizagem por Reforço Segundo (Sutton e Barto 1998) aprendizagem por reforço (AR) é um formalismo da Inteligência Artificial que permite a um indivíduo aprender a partir da sua interação com o ambiente no qual ele está inserido. A aprendizagem se dá através do conhecimento sobre o estado decorrente das ações que são elementos essenciais na área de aprendizado de máquina. Desta forma a aprendizagem por reforço é uma técnica de aprendizagem de máquina que consiste no aprendizado do mapeamento de estados em ações de modo que um valor numérico de retorno seja maximizado. O agente não precisa inicialmente saber as ações que deve tomar mas deve descobrir quais ações o levam a obter maiores valores de retorno. Segundo (Haykin 2001) na aprendizagem por reforço o aprendizado de um mapeamento de entrada e saída é realizado através da interação contínua com o ambiente visando a minimizar um índice escalar de desempenho. A Figura 1 mostra o diagrama de blocos de uma forma de sistema de aprendizagem por reforço construído em torno de um crítico que converte um sinal de reforço primário recebido do ambiente em um sinal de reforço heurístico. O sistema é projetado para aprender por reforço atrasado o que significa que o sistema observa uma seqüência temporal de estímulos também recebidos do ambiente que ocasionalmente resultam na geração do sinal de reforço heurístico. O objetivo da aprendizagem é minimizar uma função de custo para avançar definida como a expectativa do custo cumulativo de ações tomadas ao longo de uma seqüência de passos em vez simplesmente do custo imediato. Pode acontecer que certas ações tomadas anteriormente naquela seqüência de passos de tempo sejam de fato os melhores determinantes do comportamento global do sistema. O sistema de aprendizagem tem como função descobrir estas ações e realimentá-las para o ambiente (Haykin 2001). Reforço Primário Ambiente ENTRADA Crítico Ações Reforço Heurístico Sistema de Aprendizagem Figura 1. Diagramas em bloco do Aprendizado por Reforço. A aprendizagem por reforço diferencia-se de outros tipos de aprendizagem por ser um aprendizado por interação ou seja o agente por aprendizagem por reforço age no ambiente e recebe um valor de reforço que o ambiente retorna em resposta perante a ação tomada assimilando através do aprendizado o valor de reforço obtido para tomar decisões posteriores. 3. Algoritmo Min-Max O algoritmo conhecido como Min-Max é bastante utilizado em teoria de jogos e habilita computadores a possuir boas estratégias em jogos. O algoritmo tem como premissa maximizar uma função de utilidade assumindo que o adversário jogará perfeitamente para minimizá-la (Russell 1995). Segundo (Nascimento 2000) o algoritmo Min-Max é fundamentado numa expansão de nós de uma árvore e para que se possa selecionar a melhor opção de jogada há a necessidade de uma heurística que permita fornecer a cada jogada um valor que indique a vantagem posicional alcançada pelo movimento conhecido. No caso do jogo da velha especificamente uma heurística bastante utilizada é a da diferença entre o número de alinhamentos possíveis para cada jogador ou seja a diferença entre todos os alinhamentos possíveis naquele momento para o adversário ganhar e todos os alinhamentos possíveis naquele momento para o computador ganhar. É baseada nesta heurística que o computador

realiza sua estratégia de jogo maximiza a sua jogada levando-se em conta que o adversário fará o melhor possível para minimizá-la. Daí vem o nome do algoritmo: Min-Max. Como dito o algoritmo Min-Max fundamenta-se em uma árvore como mostrado na Figura 2 porém o cálculo da heurística é realizado das folhas para a raiz que é a primeira jogada realizada. Se o algoritmo realiza os cálculos apenas para uma jogada sua e do adversário a frente ele possui a profundidade de uma jogada no entanto se o algoritmo realiza os cálculos visualizando duas jogadas a frente ele possui uma profundidade de duas jogadas e assim por diante. Pode-se perceber que quanto maior o nível de profundidade de busca do computador maior o seu poder computacional e sua habilidade no jogo. Foram utilizados no treinamento do AR programas com o Min-Max com profundidade de uma jogada e com profundidade de duas jogadas. Figura 2. Construção da árvore aplicado ao jogo da velha. 4. Aprendizagem por Reforço no Jogo da Velha A utilização de aprendizagem por reforço no jogo da velha tem como objetivo produzir um jogador com inteligência artificial capaz de após um treinamento baseado em recompensas e punições jogar contra um oponente seja este um ser humano ou uma outra máquina. O primeiro passo do algoritmo de aprendizado por reforço é a geração de uma lista permanente com os estados que são aprendidos com o decorrer do treinamento a alocação dos estados é dinâmica e depende da quantidade de jogos e da habilidade do adversário treinador. Além desta lista permanente é criada uma lista temporária para cada jogo completo realizado esta lista guarda a seqüência de jogadas daquele jogo específico. Tanto na lista permanente quanto na lista temporária são armazenadas as matrizes de jogo composta de 9 campos (num tabuleiro 3X3) marcando um valor 1 para a jogada do adversário na casa correspondente um valor -1 para a jogada do computador na casa correspondente e um valor zero para a casa que ainda não foi jogada. Além disto também é armazenada uma lista de probabilidades associada para cada casa em cada estado. Esta lista é iniciada com cada campo contendo um valor de 0.5 ou seja é suposto que inicialmente existem 50% de chance do computador ganhar o jogo jogando em qualquer casa vaga para cada estado de jogo apresentado. Para cada jogada do computador é sorteado um valor que define em qual casa vaga o computador deverá jogar de forma que inicialmente a jogada é realizada de uma forma totalmente aleatória. Conforme o AR vai sendo treinado os valores das probabilidades vão se alterando sendo diminuídos ao receber um reforço negativo ou aumentado ao receber um reforço positivo. Para atualizar os valores das probabilidades é utilizado o método da aprendizagem por diferença temporal. O valor corrente do estado é ajustado de forma a ter seu valor mais alterado do que os estados iniciais isto porque nos estados finais é que se sabe se houve ou não uma vitória. A Equação (1) descreve a regra de atualização das probabilidades de se ganhar o jogo conforme (Sutton e Barto 1998): V(s) V(s) + α[v(s ) V(s)] (1) Sendo: α é a taxa de aprendizagem V(s) é o valor da probabilidade atualizada a cada fim de partida

V(s ) tem o valor inicial de 1 no reforço positivo ou seja quando há uma vitória e 0 no reforço negativo ou seja quando há uma derrota do computador. Ao final de cada partida todos os estados contidos na lista temporária têm suas listas de probabilidades atualizadas proporcionalmente conforme a equação acima. Ao fim do treinamento o AR possui uma lista permanente que especifica as melhores jogadas a serem executadas a cada estado aprendido. 5. Resultados Nesta seção serão apresentados alguns resultados interessantes do treinamento de um AR contra um Min-Max e de dois AR aprendendo por reforço conjuntamente. Na primeira situação o AR treina contra um Min-Max com 1 e com 2 níveis de profundidade de busca a frente. Numa segunda situação um AR1 treina contra um AR2 sendo que ambos jogadores somente sabem as regras do jogo não tendo nenhum tipo de estratégia inicial de jogo. Primeiramente somente o AR1 inicia o jogo numa seguinte simulação os jogadores iniciam intercalados ou seja o AR1 inicia o jogo nas partidas ímpares e o AR2 inicia o jogo nas partidas pares. 5.1 AR x Min-Max: Jogador Min-Max inicia o jogo Quando o jogador implementado com a técnica Min-Max inicia o jogo tanto com a profundidade de 1 jogada quanto na profundidade de 2 jogadas a frente não é possível vencê-lo no máximo o que ocorre é o empate. No caso do jogo da velha a técnica do Min-Max possui um desempenho excelente quando este inicia o jogo. Numa primeira simulação de treinamento manteve-se fixa a taxa de aprendizagem α em 0.95 e alterou a quantidade de partidas jogadas com o Min-max possuindo profundidade de 1 jogada. A Figura 3 mostra os resultados obtidos para a quantidade de jogadas de 10.000 15.000 e 20.000 respectivamente. Em vermelho têm-se os valores percentuais de derrotas do AR em verde têm-se os valores percentuais de empates e em azul os de vitória que neste caso mesmo com o aumento significante do número de partidas foi completamente zerada ou seja mostrando que quando o Min-Max inicia o jogo ele é imbatível. Pode-se notar que mesmo alterando a quantidade de partidas o número de empates se estabilizou ao final do treinamento em 70%. Figura 3. Min-Max inicia Taxa de Aprendizagem α: 0.95 Quantidade de partidas: 10.000 15.000 e 20.000. Mesmo aumentando o número de partidas jogadas o máximo que o AR conseguiu foi empatar com o Min-Max. Para que o AR em seu treinamento por reforço vença um oponente que inicie o jogo é necessário que este jogador não seja invencível isto poderia ser realizado talvez com um ser humano não muito hábil. Numa segunda simulação de treinamento manteve-se fixa a taxa de aprendizagem α em 0.95 e a quantidade de partidas jogadas em 10.000 também com o Min-Max possuindo profundidade de 1 jogada. Porém agora foi alterada a estratégia do aprendizado as primeiras 300 partidas foram jogadas por sorteio ou seja com probabilidade a partir daí a escolha da jogada do AR foi selecionada pelo valor máximo da lista de probabilidade daquele estado específico. Com isto como pode ser visto na Figura 4 o AR aprendeu rapidamente a empatar o jogo o que ocasionou a elevação do índice de empates a quase 100% após o término do treinamento. Nesta simulação o AR obteve um índice de 9773% de empates no final do treinamento.

Figura 4. Alteração da estratégia de Aprendizagem: Min-Max inicia Taxa de Aprendizagem α: 0.95 Quantidade de partidas: 10.000. 5.2 AR x Min-Max: Jogador AR inicia o jogo Quando o AR inicia o jogo é possível vencer o Min-Max tanto na modalidade com a profundidade de 1 jogada quanto na da profundidade de 2 jogadas a frente. No caso do jogo da velha quando o Min-Max é o segundo jogador a jogar a técnica do Min-Max possui um fraco desempenho na profundidade de 1 jogada de busca e um desempenho razoável na profundidade de busca de 2 jogadas a frente. Numa primeira simulação o treinamento consistiu em 1.000 partidas jogadas entre o AR e o Min-Max mas agora tendo profundidade de 2 jogadas de busca onde apenas a taxa de aprendizagem do AR foi alterada. A Figura 5 mostra os resultados obtidos para as taxas de aprendizagem de 0.2 0.5 e 0.8 respectivamente. Em vermelho têm-se os valores percentuais de derrotas do AR em verde têm-se os valores percentuais de empates e em azul os de vitória do AR. Figura 5. AR inicia Quantidade de partidas: 1.000 partidas Taxa de Aprendizagem: 0.2 0.5 e 0.8 Profundidade 2 Inicialmente o AR possui uma quantidade excessiva de derrotas porém com o decorrer do tempo ele vai aprendendo a empatar até que ele finalmente aprende as melhores seqüências de jogadas para vencer o adversário não perdendo mais a partir daí. O Min-Max de profundidade 2 somente perde se o adversário jogar em um dos cantos do tabuleiro e o AR demora um certo tempo para perceber isto pois ele aprende aos poucos através das recompensas e punições recebidas durante a execução das partidas. No entanto a partir do momento que o AR identifica a limitação do adversário ele ganha sempre a partir de então chegando a um índice próximo de 100% de vitórias. A Figura 6 mostra este resultado quando é alterado o treinamento para 10.000 partidas sendo a taxa de aprendizagem de 0.95 e a profundidade do Min-Max de 2 jogadas de busca. Nesta simulação o AR obteve um índice de 9484% de vitórias no final do treinamento.

Figura 6. AR inicia Quantidade de partidas: 10.000 partidas Taxa de Aprendizagem:0.95 Profundidade 2 5.3 AR1 x AR2: Jogador AR1 inicia o jogo Na simulação o treinamento consistiu em 10.000 partidas jogadas entre dois AR sendo que apenas um deles sempre iniciava o jogo no caso o AR1. As taxas de aprendizagem dos ARs foram sempre iguais porém sendo alterados em cada simulação. A Figura 7 mostra os resultados obtidos para as taxas de aprendizagem de 0.2 0.5 e 0.8 respectivamente. Em vermelho têm-se os valores percentuais de derrotas do AR1 em verde têm-se os valores percentuais de empates e em azul os de vitória do AR1. Figura 7. AR1 inicia Quantidade de partidas: 10.000 partidas - Taxa de Aprendizagem: 0.2 0.5 e 0.8 Pode-se notar que mesmo alterando a taxa de aprendizagem dos ARs o número de vitórias do AR1 se estabilizou ao final do treinamento em 60% e do AR2 em 30%. Uma explicação possível para este fato é que o AR que inicia o jogo aprende com mais rapidez a ganhar e por isto possui um maior desempenho de vitórias do que o AR que só joga na segunda vez. Outro fato interessante é que a partir do momento em que o AR2 começa a vencer as partidas o AR1 começa a receber um reforço negativo para as suas jogadas no qual estava acostumado a vencer desta forma existe um efeito de desaprendizagem do AR1. 5.4 AR1 x AR2: Início Intercalado Nesta simulação os jogadores iniciaram intercalados ou seja o AR1 iniciava o jogo nas partidas ímpares e o AR2 iniciava o jogo nas partidas pares. Numa primeira simulação o treinamento consistiu em 10.000 partidas jogadas entre os dois AR sendo que as taxas de aprendizagem dos ARs foram sempre iguais e sendo alterados a cada simulação. A Figura 8 mostra os resultados obtidos para as taxas de aprendizagem de 0.2 0.5 e 0.8 respectivamente. Em vermelho têm-se os valores percentuais de derrotas do AR1 em verde têm-se os valores percentuais de empates e em azul os de vitória do AR1.

Figura 8. Início intercalado Quantidade de partidas: 10.000 - Taxa de Aprendizagem: 0.2 0.5 e 0.8 Pode-se notar que houve praticamente uma igualdade na quantidade de vitórias dos ARs desde as primeiras partidas o que caracteriza que o jogador que inicia o jogo provavelmente é o vencedor ou seja os ARs praticamente aprenderam apenas a vencer e não a empatar. Nesta simulação o empate foi considerado como um reforço negativo para ambos jogadores. Uma segunda simulação de treinamento para este caso foi realizada para tentar fazer com que os ARs aprendessem a empatar e não somente a ganhar quando era a sua vez de iniciar o jogo. Manteve-se fixa a quantidade de partidas jogadas em 10.000 e a taxa de aprendizagem dos ARs igualmente em 0.95. Além disto foi alterada a estratégia do aprendizado as primeiras 500 partidas de ambos ARs foram jogadas com o sorteio a partir daí a escolha da jogada a ser realizada pelos ARs foi selecionada pelo valor máximo da lista de probabilidade daquele estado específico. O empate agora foi considerado como sendo um reforço positivo para ambos jogadores. Nestas condições como pode ser observado na Figura 9 houve o aprendizado por ambos ARs em empatar o jogo independentemente de quem iniciava o jogo. Houve um índice de 9564 % de empates. Figura 9. Início intercalado Quantidade de partidas: 10.000 - Taxa de Aprendizagem: 0.95 6. Conclusões Este trabalho teve como finalidade mostrar os resultados obtidos na aprendizagem por reforço de um jogador artificial do jogo da velha com tabuleiro 3X3. Para o seu treinamento primeiramente foi utilizado um outro jogador artificial que fora implementado com o algoritmo conhecido como Min-Max utilizando profundidades de busca de 1 ou 2 jogadas a frente. Em seguida foi realizado um treinamento com dois jogadores artificiais aprendizes utilizando a técnica de reforço por aprendizagem sendo que ambos somente conheciam no início as regras do jogo não tendo nenhuma estratégia de jogo. Diversas simulações foram realizadas e os resultados mostraram que é bastante satisfatório o aprendizado de um jogador artificial utilizando a técnica de aprendizagem por reforço. As simulações mostraram que quando o Min-Max começa jogando ele é imbatível o AR no máximo conseguiu empatar tendo um índice de 70% de empates ao final do treinamento. Alterando a estratégia do aprendizado este índice chegou próximo aos 100% de empate.

Já nos casos em que o AR iniciava o jogo o computador aprendiz conseguia aprender os pontos fracos do Min Max e a partir deste momento a vencer todas as partidas chegando a um índice próximo de 100% de vitórias no final do treinamento. Neste caso não houve a necessidade de se alterar a estratégia de aprendizagem. Quando o treinamento é realizado com dois jogadores aprendizes tendo a mesma taxa de aprendizagem o jogador que inicia o jogo teve uma grande vantagem no número de vitórias possivelmente por ter aprendido mais rápido a vencer. Interessante foi o fato de verificar que com o decorrer do treinamento o primeiro jogador acabava desaprendendo o que tinha aprendido até então. Quando os jogadores iniciaram intercalados ou seja o primeiro jogador iniciava nas partidas ímpares e o segundo jogador iniciava nas partidas pares a quantidade de vitórias de ambos jogadores foram igualados. Notou-se que a quantidade de empates entre os jogadores era muito pequeno em torno de 10%. Uma explicação possível para isto é que o empate estava sendo considerado como um reforço negativo. Considerando o empate um reforço positivo igualando a taxa de aprendizagem em 095 e alterando a estratégia de escolha da jogada para ambos jogadores fez com que os jogadores aprendessem a empatar independentemente do jogador que iniciava o jogo. 7. Agradecimentos Gostaríamos de agradecer ao Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq pela oportunidade da realização deste trabalho. 8. Referências Haykin Simon; Redes Neurais Princípios e Práticas 2ª Ed. Editora Bookman 2001. Nascimento Júnior Cairo Lúcio; Yoneyama Takashi; Inteligência Artificial em Controle e Automação Editora Wdgard Blücher Ltda 2000. Russell Stuart; Norvig Peter; Artificial Intelligence A Modern Approach Prentice Hall 1995. Sutton R. S. ; Barto A. G.; Reinforcment Learning: An Introduction. MIT Press Cambridge Massachusetts 1998.