VINÍCIUS GOMES QUAGLIO TÉCNICAS DE INTELIGÊNCIA ARTIFICIAL APLICADAS AO JOGO OTHELLO: UM ESTUDO COMPARATIVO

Transcrição

1 VINÍCIUS GOMES QUAGLIO TÉCNICAS DE INTELIGÊNCIA ARTIFICIAL APLICADAS AO JOGO OTHELLO: UM ESTUDO COMPARATIVO LONDRINA PR 2013

2

3 VINÍCIUS GOMES QUAGLIO TÉCNICAS DE INTELIGÊNCIA ARTIFICIAL APLICADAS AO JOGO OTHELLO: UM ESTUDO COMPARATIVO Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. Orientador: Profa. Ms. Helen C. de Mattos Senefonte LONDRINA PR 2013

4 VINÍCIUS GOMES QUAGLIO TÉCNICAS DE INTELIGÊNCIA ARTIFICIAL APLICADAS AO JOGO OTHELLO: UM ESTUDO COMPARATIVO Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. BANCA EXAMINADORA Profa. Ms. Helen C. de Mattos Senefonte Universidade Estadual de Londrina Orientador Profa. Dra. Cinthyan Renata Sachs C. de Barbosa Universidade Estadual de Londrina Prof. Dr. Jacques Duílio Brancher Universidade Estadual de Londrina Londrina PR, 21 de novembro de 2013 LONDRINA PR 2013

5 Dedico este trabalho à Rosângela Gomes Quaglio, minha mãe, pelo exemplo de vida, amor e fé.

6

7 AGRADECIMENTOS Primeiramente agradeço a Deus por tudo. Por ter me abençoado, me dado força e sabedoria, me guiado até aqui e ajudado nos momentos difíceis. Aos meus pais Rosângela e Luis, pelo apoio e incentivo. Por toda dedicação e imensuráveis esforços para me proporcionar o melhor. À minha esposa Stephane pelo amor, carinho, apoio e por estar ao meu lado todos os dias. Meus sinceros agradecimentos aos amigos da computação, com os quais eu vivi grande parte desses últimos anos e que foram como uma verdadeira família para mim. Foram muitas risadas, bagunças, estudos, trabalhos, provas, sono, gordices, nerdices e companheirismo, dia e noite, todo dia. À Helen C. de Mattos Senefonte, por quem tive a honra de ser orientado, pelos conselhos, confiança, paciência e sabedoria em mim depositados. Aos professores do Departamento de Computação que contribuíram para a minha graduação, transmitindo conhecimento e dando exemplos de profissionalismo. Aos meus amigos, que sempre desempenharam papel fundamental em minha vida, estando ao meu lado na alegria e na tristeza. Também àqueles que estão mais distantes, mas que são verdadeiros amigos. À minha irmã Larissa e à toda minha família pelo amor, incentivo e por acreditarem em mim. A todos os professores que durante minha vida contribuíram para a minha educação e formação, sem os quais essa conquista não seria possível. À família da minha esposa, que me acolheu como próprio filho e irmão.

8

9 A fé na vitória tem que ser inabalável. (Marcelo Falcão)

10

11 QUAGLIO, V. G.. Técnicas de Inteligência Artificial aplicadas ao Jogo Othello: Um estudo comparativo. 48 p. Trabalho de Conclusão de Curso (Graduação). Bacharelado em Ciência da Computação Universidade Estadual de Londrina, RESUMO Othello é um jogo determinístico soma-zero de dois jogadores com informação perfeita, jogado em um tabuleiro 8 X 8. Este trabalho ter por objetivo implementar um agente inteligente jogador de Othello, a fim de investigar o uso e desempenho de técnicas de inteligência artificial aplicadas à jogos, disponibilizando um estudo comparativo prático para futuros testes de agentes inteligentes de jogos. Para realizar este estudo, algumas técnicas serão implementadas e observadas através de partidas simuladas assim como a extração de informações obtidas por meio de testes. Palavras-chave: othello. inteligência artificial. q-learning.

12

13 QUAGLIO, V. G.. Artificial Intelligence techniques applied to the Othello game: a comparative study. 48 p. Final Project (Undergraduation). Bachelor of Science in Computer Science State University of Londrina, ABSTRACT Othello is a deterministic zero-sum game of two players with perfect information, played on an 8 X 8 board. This work aims to implement an intelligent agent Othello player in order to investigate the usage and performance of artificial intelligence techniques applied to games, providing a comparative study for future practical tests of intelligent agents in games. To conduct this study, some techniques are implemented and observed through simulated matches as well as the attainment of information acquired during performance of tests. Keywords: othello. artificial intelligence. q-learning.

14

15 LISTA DE ILUSTRAÇÕES Figura 1 Início da Árvore de Jogo 8-puzzle Figura 2 Aprendizado por Reforço Figura 3 Configuração Inicial do Otthelo Figura 4 Ambiente Padrão Othello Figura 5 Período de Treinamento Figura 6 Tempo Médio Figura 7 Desvio Padrão do Tempo Figura 8 Reforço Médio Figura 9 Desvio Padrão do Reforço

16

17 LISTA DE TABELAS Tabela 1 Avanços em Programas para Othello Tabela 2 MiniMax x Poda Alfa Beta - Profundidade Tabela 3 MiniMax x Poda Alfa Beta - Profundidade Tabela 4 Comparação antes e depois do treinamento Tabela 5 Q-Learning x MiniMax Tabela 6 Q-Learning x Poda Alfa Beta

18

19 LISTA DE ALGORITMOS 1 MiniMax Poda Alfa Beta Q-Learning

20

21 LISTA DE ABREVIATURAS E SIGLAS AR GB IA IDE ms σ Aprendizado por Reforço Gigabyte Inteligência Artificial Integrated Development Environment Milisegundo Desvio Padrão

22

23 SUMÁRIO 1 Introdução Fundamentação Teórica Inteligência Artificial em Jogos Árvores de Jogos Algoritmo Minimax Algoritmo Poda Alfa-Beta Aprendizado de Máquina Q-Learning O Jogo Othello Regras Othello e IA Ambiente Othello e técnicas de Inteligência Artificial Ambiente Padrão Othello Jogador Artificial de Teste MiniMax e Poda Alfa Beta Q-Learning Resultados e Considerações MiniMax x Poda Alfa-Beta Q-Learning Indicadores de Tempo Indicadores de Reforço Número de vitórias Torneio de Algoritmos Conclusão Dificuldades Encontradas Trabalhos Futuros Referências

24

25 23 1 INTRODUÇÃO Em meados do século XX, começaram as primeiras tentativas científicas para inventar máquinas inteligentes [1]. Entre os pioneiros, estão Shannon [2] que, em seu artigo de 1950, propõe um programa capaz de jogar xadrez, Turing [3] em 1953 também abordou o xadrez e busca em árvore de jogos. Pesquisadores da área de Inteliência Artificial, desde então, utilizam jogos populares em todo mundo, tais como Xadrez, Damas, Othello, Go, Poker, entre outros, como alvo de pesquisas, sempre no intuito de superar a supremacia humana [1]. Um dos jogos explorados na literatura de IA é o Othello, que consiste em um jogo de dois jogadores, com um tabuleiro 8 x 8 e 64 discos que são brancos de um lado e pretos no outro. Em cada movimento, o jogador deve necessariamente fazer com que pelo menos uma peça adversária seja cercada dos dois lados pelas suas peças, transformando a peça cercada em peça própria. O objetivo é terminar o jogo possuindo maior número de peças que o adversário. Utilizado no jogo Othello por Eck e Wezel [4], em 2008 e por Kim et al [5] em 2007, o aprendizado por reforço é um dos paradigmas de aprendizado de máquina disponíveis entre as técnicas de Inteligência Artificial. Um estudo comparativo de dois algoritmos de aprendizado para aquisição de funções de avaliação para o jogo Othello foi feito por Lucas e Runarsson [6]. Esse trabalho tem como objetivo investigar o uso de técnicas de inteligência artificial aplicado a jogos, realizando um estudo comparativo através de implementações e testes práticos no jogo Othello. No Capítulo 2 são descritos os principais conceitos de Inteligência Artificial utilizados em jogos, características e funcionamento do jogo Othello, bem como os avanços da área de IA relacionados ao Othello. No Capítulo 3 são descritos o desenvolvimento do Ambiente Padrão Othello e as implementações das técnicas de IA. As análises e resultados são apresentados no Capítulo 4 e, por fim, a conclusão no Capítulo 5.

26

27 25 2 FUNDAMENTAÇÃO TEÓRICA Neste capítulo são apresentados os principais conceitos de Inteligência Artificial (IA) necessários para o desenvolvimento deste trabalho. Inicialmente são abordados os conceitos de IA com relação aos jogos e algumas técnicas utilizadas, em seguida, o aprendizado de máquina, suas classificações e uma técnica pertencente a esse paradigma. Ao final, é apresentado o jogo Othello, suas regras e os avanços de IA relacionados. 2.1 Inteligência Artificial em Jogos Uma das primeiras tarefas empreendidas em Inteligência Artificial foi a participação em jogos [7]. Por anos tem sido um tópico fascinante para IA, rendendo, nas últimas duas décadas, grandes avanços em jogos clássicos de tabuleiro [8]. De acordo com Mandziuk [8], algumas questões ainda podem ser exploradas, na área de IA em relação aos jogos, tais como: a implementação de mecanismos autônomos capazes de descobrir conhecimento com o propósito de criar novas estratégias de jogo; a melhoria do comportamento do jogador artificial baseado apenas no conhecimento obtido através de jogos anteriores; a implementação de mecanismos que simulem a intuição humana. O objetivo final, no uso de técnicas de IA em jogos é a construção de um agente jogador de vários jogos, verdadeiramente autônomo, como o ser humano [8]. As diversas técnicas de IA aplicadas em jogos podem variar e apresentar desempenhos diferentes, de acordo com as características do problema. Por exemplo, considerando a classe dos jogos com dois jogadores, em que um faz o primeiro movimento, seguido do outro jogador, e revezam-se até o jogo terminar, Russell e Norvig [7] definem um jogo como um problema de busca com os componentes a seguir: Estado Inicial - Determina a posição das peças no tabuleiro e o jogador que fará o movimento inicial. Função Sucessor - Retorna uma lista de pares com as ações válidas e o respectivo estado resultante. Teste de Término - Indica quando o jogo acabou.

28 26 Capítulo 2. Fundamentação Teórica Estados terminais - São os estados onde o jogo é encerrado. Função Utilidade - Retorna o resultado do jogo. Pode ser vitória, derrota ou empate em alguns jogos, ou mais variedade de resultados em outros. Através destes componentes é possível construir uma árvore, estrutura de dados comumente utilizada para representar o conjunto de estados de um jogo Árvores de Jogos A configuração inicial e os movimentos válidos para dois jogadores definem uma árvore, em que as folhas são os estados terminais e a raiz é o estado inicial. Essa árvore é chamada árvore do jogo. Os dois jogadores podem ser chamados de MIN e MAX 1, sendo que o último faz o primeiro movimento e prosseguem com turnos alternados. Cada folha possui um valor associado que representa o resultado do jogo pelo ponto de vista de MAX. [7] Na figura 1, são mostrados os primeiros níveis da árvore de jogo do quebra cabeça 8-puzzle, que consiste em um jogo de tabuleiro com blocos deslizáveis. O objetivo do jogo é mover as peças a partir de um estado inicial até que esteja em seu estado final. Só é permitido deslizar os blocos em direção ao bloco vazio e em movimentos ortogonais. Figura 1 Início da Árvore de Jogo 8-puzzle. Uma estratégia ótima é aquela em que o estado terminal alcançado represente um estado objetivo, uma vitória. Portanto, para o jogo, a estratégia deve especificar o 1 O motivo dos nomes MIN e MAX dos jogadores ficarão mais claros na seção

29 2.1. Inteligência Artificial em Jogos 27 movimento inicial de MAX e seus movimentos seguintes a cada possível resposta de MIN. [7] O valor minimax em cada nó, dada uma árvore de jogo, é a utilidade de se encontrar no estado que leve ao melhor estado final, ou seja, uma pontuação. Através do valor minimax é possível definir uma estratégia ótima Algoritmo Minimax O algoritmo minimax utiliza computação recursiva dos valores de minimax de cada estado sucessor para calcular a decisão minimax a partir do estado corrente [7]. A estratégia é, em cada nível da árvore, tentar maximizar a pontuação do jogo (para MAX) e minimizar a pontuação do adversário (MIN). Por isso, o algoritmo é denominado MiniMax. O algoritmo percorre em profundidade a árvore completa do jogo. A complexidade de tempo é O(b m ), onde m é a profundidade máxima e b o número de movimentos válidos em cada ponto [7]. O código do Minimax é apresentado no Algoritmo 1. Algoritmo 1: MiniMax begin minimax (no_corrente) if ehfolha(no_corrente) then return pontuacao(no_corrente); end if ehnomin(no_corrente) then return min(minimax(filhosde(no_corrente))); end if ehnomax(no_corrente) then return max(minimax(filhosde(no_corrente))); end end Apesar da utilização do algoritmo MiniMax garantir a estratégia ótima, a busca pela árvore completa do jogo pode não ser viável para a maioria dos jogos, pois o número de estados que a busca tem que examinar é exponencial em relação ao número de movimentos Algoritmo Poda Alfa-Beta Através da Poda Alfa-Beta, é possível tornar a busca por um bom movimento mais eficiente removendo seções da árvore de jogo que não compensam examinar [9], ou seja, aquelas seções onde sabemos que o melhor movimento já não pode mais ser encontrado. Esse artifício pode reduzir o expoente de tempo do algoritmo MiniMax, retornando o mesmo movimento [7].

30 28 Capítulo 2. Fundamentação Teórica Segundo Coppin [9], o algoritmo é implementado da seguinte forma: a árvore de jogo é percorrida em profundidade. Para cada nó que não seja um folha, é armazenado um valor, chamado α para nós Max e β para nós Min; α é o valor máximo encontrado até o momento entre os descendentes dos nós Max; β é o valor mínimo encontrado até o momento entre os descendentes dos nós Min. Os parâmetros α e β dão nome à técnica, que atualiza os valores de α e β e encerra a chamada recursiva de um nó corrente se o valor deste for pior que o valor de α para Max ou pior que β para Min [7]. O código pode ser encontrado no Algoritmo 2. Algoritmo 2: Poda Alfa Beta begin alfabeta (no_corrente, alfa, beta) if ehraiz(no_corrente) then alfa = ; beta = ; end if ehfolha(no_corrente) then return pontuacao(no_corrente) end if ehnomax(no_corrente) then alfa = max(alfa, alfabeta(filhos, alfa, beta)); if alfa >= beta then cortarbuscaabaixo(no_corrente); end end if ehnomin(no_corrente) then beta = min(beta, alfabeta(filhos, alfa, beta)); if beta <= alfa then cortarbuscaabaixo(no_corrente); end end end 2.2 Aprendizado de Máquina O objetivo do aprendizado de máquina é que o agente utilize as percepções ou interações com o ambiente para, além de agir ou tomar decisões, melhorar sua habilidade de realizar essas atividades no futuro. O aprendizado pode variar desde a memorização trivial da experiência até a criação de teorias científicas inteiras. O aprendizado de máquina é

31 2.2. Aprendizado de Máquina 29 útil quando não é possível ou não é viável descrever detalhadamente todo o ambiente e decisões do agente [7]. A adaptação do jogo para ações do jogador e a capacidade de um personagem do jogo melhorar de acordo com a experiência são alguns benefícios ou razões para a utilização do aprendizado de máquina em jogos. Em alguns problemas de aprendizado de máquina, a tarefa é aprender a classificar entradas, para isso, o sistema de aprendizado possui um conjunto de dados de treinamento. Então, a partir dos dados de treinamento, o sistema tenta aprender a classificar estes mesmos dados e também novos dados não observados [9]. O aprendizado de máquina normalmente é classificado de três formas: aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço [7]. A investigação deste trabalho será no contexto do aprendizado por reforço. Aprendizado Supervisionado Aprendizado supervisionado consiste na aprendizagem de uma função a partir de exemplos de entradas e saídas. Em ambientes completamente observáveis, o agente poderá observar os efeitos causados por suas ações, e poderá utilizar métodos de aprendizado supervisionado para aprender a prevê-los. Em ambientes parcialmente observáveis, os efeitos imediatos podem não ser visualizados pelo agente, dificultando o problema [7]. Alguns exemplos de utilização são o diagnóstico de casos médicos e a avaliação de risco de crédito de candidatos a empréstimos. Aprendizado Não Supervisionado No aprendizado não supervisionado, o problema consiste em aprender padrões quando não são fornecidos valores de saídas específicos, ou seja, os métodos de aprendizado não supervisionado aprendem sem a intervenção de um supervisor [9, 7]. Um exemplo é o mapa de Kohonen, uma rede neural capaz de aprender a classificar um conjunto de dados de entrada sem receber dados de treinamento e sem ter conhecimento de quais são as classificações [9]. Aprendizado por Reforço No aprendizado por reforço (AR), a aprendizagem é realizada através de tentativa e erro, em interações do agente com o meio ambiente. [10] O agente observa o ambiente e toma uma ação. O ambiente então responde com um reforço e segue para um próximo estado. Em seguida, com o ambiente em um novo estado, o agente deve tomar outra ação,

32 30 Capítulo 2. Fundamentação Teórica recebendo do ambiente outro reforço, constituindo um ciclo. A tarefa do agente é aprender de acordo com os reforços recebidos [4]. A Figura 2 exemplifica este processo. O reforço é uma medida de desempenho utilizado para avaliar a qualidade da ação realizada pelo agente. Este pode ser positivo ou negativo, conhecido também como recompensa ou punição, respectivamente [11]. Figura 2 Aprendizado por Reforço. De acordo com [11], os principais elementos do aprendizado por reforço são: Agente - é a entidade que percebe o mundo à sua volta, aprende e decide qual ação tomar em cada estado. Ambiente - tudo que é exterior ao agente. Reforço - é a medida de desempenho dada ao agente em forma de punição ou recompensa por executar um ação. Estado - representa o ambiente em determinado instante. Ação - ato realizado pelo agente. Infelizmente, a convergência de qualquer algoritmo AR só pode ser alcançado após grande exploração do espaço de estado-ação, que pode ser muito demorado. [10] Um exemplo de algoritmo de AR é o Q-learning, proposto por Watkins [12], que será abordado na próxima seção Q-Learning Q-Learning é um algoritmo de AR em que um agente aprendiz qualifica pares estado-ação de acordo com seu objetivo. Esta qualificação é atualizada a cada iteração com o ambiente [11].

33 2.3. O Jogo Othello 31 Segundo Mitchell [13], para calcular essa qualificação é utilizada uma função de avaliação Q, o valor de Q (x,a) é a avaliação recebida imediatamente após a execução de uma ação a do estado x, mais o valor do próximo par estado-ação seguindo uma política ótima. Cada par estado-ação é atualizado com base na equação 2.1 [12]: Q (x,a) = Q (x,a) + α[r + γ.max b Q(y, b) Q (x,a) ] (2.1) Onde: r - é o reforço dado pelo ambiente. γ - é o fator de desconto, utilizado para manter os valores de Q finitos. α - é o fator de aprendizado, que pode ser calculado através da equação: α = visitas(x, a) (2.2) em que visitas(x,a) é o número de vezes que a ação a foi escolhida e executada no estado x. [11] A parte max b Q(y, b) da equação 2.1 é o valor do melhor par estado-ação seguinte, portanto, para atualizar o valor de uma determinada jogada, o algoritmo considera valor das jogadas possíveis no futuro e não apenas o reforço imediato. [13]. Para treinamento e atualização dos pares estado/ação é utilizado o Algoritmo 3 Algoritmo 3: Q-Learning foreach x, a do Inicialize a tabela Q (x,a) ; end Observe o estado atual x; repeat Selecione uma ação a e execute; Receba um reforço imediato; Observe o novo estado x ; Atualize a tabela Q (x,a) de acordo com a equação 2.1; x x ; until Critério de parada satisfeito; 2.3 O Jogo Othello Othello é um jogo de tabuleiro determinístico soma-zero de dois jogadores com informação perfeita [14]. Um jogo soma-zero é aquele em que o placar final para cada

34 32 Capítulo 2. Fundamentação Teórica jogador pode ser uma vitória, derrota ou empate. Jogos com informação perfeita são aqueles em que é possível visualizar completamente o estado do jogo, diferente de jogos como o pôquer onde os jogadores escondem informações de seus oponentes [9]. Existe um Campeonato Mundial de Othello que é realizado anualmente desde 1977, onde o japonês Hiroshi Inoue foi o primeiro campeão. A sede é alternada e a primeira edição foi em Tókio. Em 1987 passou a ocorrer simultaneamente o campeonato entre equipes e em 2005 começou a premiação para a categoria feminina [15]. A 37 a edição, em 2013 aconteceu em Estocolmo, na Suécia, e o vencedor foi Kazuki Okamoto. Em 2004 foi realizado o primeiro campeonato oficial no Brasil, o Circuito Brasileiro de Othello. O campeão foi Daniel Dantas, que se tornou o primeiro brasileiro a representar o Brasil no Campeonato Mundial de Othello. O Campeonato Brasileiro de Othello é realizado desde a criação da Federação Brasileira de Othello, e é o evento mais importante de Othello do país. O vencedor da última edição, em 2013, foi Lucas Cherem [15] Regras Othello é jogado em um tabuleiro 8 x 8 com 64 discos que são brancos de um lado e pretos no outro. Enquanto um jogador coloca os discos no lado branco, o outro coloca no lado preto.[4] O jogo se inicia com dois discos de cada cor, assim como na Figura 3. Figura 3 Configuração Inicial do Otthelo. Em cada movimento, o jogador deve necessariamente fazer com que pelo menos uma peça adversária seja cercada dos dois lados pelas suas peças. As peças adversárias cercadas são transformadas em peças próprias. O objetivo dos jogadores nesse jogo é deixar no tabuleiro o maior número de fichas com sua cor Othello e IA Em 1997, o então campeão mundial Takeshi Murakami foi derrotado pelo programa de Michael Buro, o Logistello. Em seu discurso durante o evento, o Sr. Murakami disse

35 2.3. O Jogo Othello 33 que não se sentiu em uma partida contra um simples programa de computador, mas sim contra gerações de engenheiros e matemáticos [16]. Buro [17], em 2002, descreve a evolução dos principais programas de Othelo, desde simples algoritmos até sistemas de aprendizado que superaram a habilidade humana de jogar. A tabela 1 sintetiza os avanços descritos por Buro. Ano Programa Característica 1982 Iago Função de avaliação manual 1990 Bill Padrão baseado em partes, utilização de pesos 1994 Logistello 1 Aprendizagem independente de valores padrão 1997 Logistello 2 Aprendizagem conjunta de valores padrão Tabela 1 Avanços em Programas para Othello Gunawan et al [18] publicaram em 2012, um trabalho sobre Othello que une Redes Neurais e Algoritmos Genéticos formando Redes Neurais Evolutivas. Redes Neurais também podem ser encontradas em [14]. O uso do aprendizado por reforço no jogo Othello é abordado por Eck e Wezel [4], em 2008 e por Kim et al [5] em Estudo comparativo de dois algoritmos de aprendizado para aquisição de funções de avaliação para o jogo Othello pode ser encontrado em [6], de 2006.

36

37 35 3 AMBIENTE OTHELLO E TÉCNICAS DE IN- TELIGÊNCIA ARTIFICIAL Neste capítulo são descritas as implementações do ambiente de testes e das técnicas que este trabalho comtempla. 3.1 Ambiente Padrão Othello O ambiente padrão Othello foi desenvolvido utilizando a linguagem Java, e tem sua lógica principal na classe "Tabuleiro", onde o tabuleiro propriamente dito é uma matriz 8 x 8 que, em cada posição, existe uma instância da classe "Casa", podendo estar nos estados "Vazio", "Disponível", "Branco"ou "Preto". O ambiente padrão Othello durante uma partida é mostrado na figura 4. Figura 4 Ambiente Padrão Othello. Durante as partidas, só é permitido executar um movimento se a casa em que pretende-se jogar estiver no estado "Disponível", portanto, é possível afirmar que todas as jogadas executadas são válidas. Feito um movimento, a primeira rotina é a de captura que, a partir da casa onde o movimento foi realizado, percorre o tabuleiro em todos os sentidos e direções à procura de uma casa com um disco da mesma cor que a do jogador atual. Ao encontrar uma casa com um disco do jogador adversário, a busca continua, se a casa possuir um disco do jogador atual, todas as casas que possuíam discos adversários entre essa casa e a casa de partida passam a ser do jogador atual e, encontrando uma casa vazia ou a borda do tabuleiro, a busca para nessa direção e começa a próxima. Após a conclusão da captura, é feita a verificação de casas disponíveis para o próximo movimento. Para cada casa vazia do tabuleiro são feitas buscas similares à de

38 36 Capítulo 3. Ambiente Othello e técnicas de Inteligência Artificial captura, marcando a casa como disponível, se na próxima jogada um movimento leve à captura de alguma peça adversária. Se no tabuleiro não houver nenhuma casa disponível, o jogador perderá a vez e a verificação é feita novamente. Se não houver nenhuma casa disponível mais uma vez, o jogo acabou e vence o jogador que possuir mais discos no tabuleiro. Para um jogador humano, é possível executar uma jogada clicando em uma casa disponível, onde será disparado um evento que ativará a lógica do jogo. Os jogadores artificiais são executados em threads, e ficam esperando sua vez para realizar um movimento. 3.2 Jogador Artificial de Teste Com o objetivo de testar os algoritmos implementados sem a necessidade da intervenção humana, foi desenvolvido um jogador de teste que simplesmente executa uma jogada aleatória dentre as jogadas disponíveis. Utilizando uma função Java que gera um valor booleano aleatoriamente, o algoritmo pode percorrer o tabuleiro de cima para baixo ou no sentido contrário, de acordo com o valor booleano gerado, e executa a primeira jogada que encontrar disponível. Como o tabuleiro é fixo e possui apenas 64 posições, a complexidade desse algoritmo é baixa, de modo que facilita os testes e simulações, quase não acrescentando mais tempo à execução dos outros algoritmos que serão testados. 3.3 MiniMax e Poda Alfa Beta Foi implementado um jogador artificial que chama a técnica MiniMax a cada rodada. Como o algoritmo em si retorna apenas a pontuação de um movimento, foi desenvolvida uma função que verifica todas as jogadas disponíveis e chama o MiniMax para cada uma delas, comparando e escolhendo a jogada de maior pontuação. O algoritmo é recursivo e o tempo de resposta foi muito grande ao analisar o tabuleiro até o fim, sendo necessário estabelecer um limite de profundidade, onde o algoritmo retornaria o resultado parcial, mesmo não terminando de analisar todas as possibilidades. O método principal é constituído de uma sequência de regras que, dependendo da ocasião, chama o mesmo método recursivamente passando os parâmetros necessários ou retorna a pontuação. Os parâmetros utilizados para cada chamada são, o estado atual do tabuleiro, um indicador de qual é o jogador da vez e a profundidade, que a cada chamada é incrementada. Alguns métodos foram necessários para a execução do algoritmo, conforme mostrado no Algoritmo 1. Foram implementados então, um método que verifica se o nó atual

39 3.4. Q-Learning 37 é um nó folha ou a profundidade limite foi atingida, um que verifica se é o nó Min, outro que verifica se é o no Max e um que retorna a pontuação do movimento, dada pelo número de discos da cor do jogador que chamou o método minimax. O algoritmo da Poda Alfa-Beta é um aperfeiçoamento do MiniMax, a diferença está justamente na poda. Então, a experiência obtida na implementação do MiniMax foi aproveitada, concentrando os esforços na implementação da poda e da manipulação dos parâmetros necessário para tal. Além disso, também foi implementado um jogador que chama o algoritmo e executa a ação retornada por este. A poda consiste em parar a busca quando já se sabe que não é possível encontrar um resultado melhor. À chamada da função são adicionados dois parâmetros: α e β. α é inicializado com um valor que representa infinito negativo e atualizado a cada chamada sempre com o valor máximo encontrado até o momento, enquanto β é inicializado com infinito positivo e atualizado com o valor mínimo encontrado até o momento. No momento em que α passa a ser maior que β, a busca é terminada nesta árvore. 3.4 Q-Learning Assim como nos outros algoritmos, foi implementado um jogador, que chama o método qlearning e depois executa uma jogada de acordo com o resultado retornado pelo método. Quando o método é chamando pelo jogador, em primeiro lugar, é feito uma busca no banco de dados para obter o id do atual estado do tabuleiro. Caso o estado não seja encontrado no banco, é adicionado e inicializado. Logo após, é feita outra busca no banco, que de maneira gulosa, selecionando qual é a ação que possui um melhor valor para esse estado. A ação é tomada e recebe um reforço como resposta, esse reforço é utilizado junto com outros parâmetros para calcular o valor em que essa ação será atualizada na matriz Q (x,a). Esse cálculo é feito baseado na equação 2.1. Em seguida, Q (x,a) é atualizada no banco de dados e o tabuleiro também é atualizado com a nova jogada. Reforço O reforço dado ao agente, a cada jogada, foi baseado na posição do tabuleiro em que foi feita esta jogada e em quantos discos foram convertidos. Inicialmente para posição do tabuleiro, foram utilizados como base os mesmos valores utilizados por Eck e Wezel [19]. Mas como várias posições no tabuleiro possuem um mesmo valor, para valorizar mais a individualidade de cada jogada, foi acrescentado o número de peças convertidas, fazendo com que em determinado momento, uma jogada na mesma posição tenha um maior valor que em outro.

40 38 Capítulo 3. Ambiente Othello e técnicas de Inteligência Artificial Após alguns testes observou-se que, como o valor inicial para todo par estadoação foi configurado como zero, bastava que o reforço para um par fosse positivo para que nenhum outro par estado-ação fosse escolhido, pois os outros pares eram 0 e nunca seriam mais vantajosos que o primeiro. Sendo assim, o algoritmo teria um comportamento semelhante a um jogador que escolhe uma ação aleatória, pois no começo todas as ações tem o mesmo valor e, ao tomar a primeira ação, não seria possível escolher outra. Devido a isso, o valor inicial de todas as posições do tabuleiro foi alterado para 100. Desta forma, na primeira jogada, o resultado seria menor que 100, então na próxima jogada o algoritmo escolheria outro valor, até que todas as ações fossem tomadas e pudessem ser comparadas devidamente. Base de dados Para o funcionamento correto do algoritmo é necessário ter uma base de dados com todos os possíveis pares estado-ação do tabuleiro. Para o tabuleiro do jogo Othello, esse número é muito grande, então foi implementada uma solução que atualiza a base de dados conforme os estados são conhecidos. Inicialmente, o algoritmo não terá nenhum estado disponível, mas sempre que buscar no banco de dados um estado e não encontrar, este estado é adicionado e todas as ações deste estado são configuradas com o valor 0. Essa adição de estados em tempo real influencia no tempo de resposta do algoritmo, mas após certo treinamento, essas inserções não são mais necessárias, pois os estados já estarão armazenados no banco.

41 39 4 RESULTADOS E CONSIDERAÇÕES Todas as simulações e testes foram executados em um mesmo computador, para que o ambiente não influenciasse e fosse possível fazer comparações. O computador utilizado foi um notebook Dell, com processador Intel Core i3, sistema operacional Windows 7 e 4GB de memória. O banco de dados empregado foi o PostgreSQL e o IDE foi o NetBeans. 4.1 MiniMax x Poda Alfa-Beta Para o algoritmo MiniMax, o número de estados a serem examinados é exponencial em relação ao número de movimentos, comprometendo o funcionamento do algoritmo para jogos com amplo número de movimentos possíveis. A Poda Alfa-Beta diminui o número de estados, mas esse número ainda é muito grande. As tabelas 2 e 3 mostram indicadores de desempenho durante competições entre o MiniMax e o Poda Alfa Beta utilizando limites de profundidade 2 e 3, respectivamente. Algoritmo Maior Tempo Menor Tempo Tempo Médio N o Discos MiniMax 6587ms 0ms 2154ms 38 Poda Alfa Beta 1590ms 0ms 550ms 26 Tabela 2 MiniMax x Poda Alfa Beta - Profundidade 2 Algoritmo Maior Tempo Menor Tempo Tempo Médio N o Discos MiniMax ms 0ms ms 38 Poda Alfa Beta ms 0ms ms 26 Tabela 3 MiniMax x Poda Alfa Beta - Profundidade Q-Learning Com a finalidade de medir o desempenho do algoritmo implementado, foram adotados indicadores de de tempo e reforço, além de analisar o número de vitórias. Foram colhidas amostras das 200 primeiras partidas, ou seja, iniciando com a base de dados vazia, e 200 partidas após um treinamento de 2000 partidas, conforme a Figura 5. Todas as partidas foram realizadas utilizando o Jogador Artificial de Teste.

42 40 Capítulo 4. Resultados e Considerações Figura 5 Período de Treinamento Indicadores de Tempo Antes do treinamento, o tempo médio de execução de uma jogada foi de 88,62ms, e depois foi coletado um tempo médio de 388ms, conforme a Figura 6. O tempo médio está relacionado com o número de estados armazenados no bando de dados, e conforme foram adicionadas novas tuplas, este aumentou proporcionalmente. Figura 6 Tempo Médio. Figura 7 Desvio Padrão do Tempo. A medida que o algoritmo se aproxima do total de estados possíveis para o jogo, o tempo de resposta tende a convergir e estabilizar. Essa afirmação pode ser embasada

43 4.2. Q-Learning 41 no fato de que o desvio padrão do tempo diminuiu de 10,6 para 6,46, mostrando que a diferença entre os tempos foi menor na segunda sequência de testes, pois a descoberta de novos estados foi menor que no início do treinamento. A comparação do desvio padrão pode ser visualizada na Figura Indicadores de Reforço No primeiro conjunto de dados analisado, o reforço médio obtido durante as partidas foi 3,88 e seu desvio padrão foi 0,93. Nos dados coletados após o treinamento, o reforço médio foi 7,3 e o desvio padrão 0,89. A evolução do reforço médio e do desvio padrão do reforço são apresentadas nas Figuras 8 e 9, respectivamente. Figura 8 Reforço Médio. Figura 9 Desvio Padrão do Reforço. Baseado no aumento do reforço médio, é possível concluir que, com o treinamento, o algoritmo passou a tomar decisões melhores, rendendo um reforço maior. Com a diminuição do desvio padrão, entende-se que após o treinamento, grande parte das decisões do

44 42 Capítulo 4. Resultados e Considerações algoritmo, já convergiram para as melhores ações, explorando menos caminhos diferentes e, desta forma, variando menos o reforço recebido Número de vitórias O número de vitórias subiu de 62, antes do treinamento, para 113, depois do mesmo. Esse aumento reflete o aprendizado do algoritmo, e confere com o aumento do reforço, reafirmando que depois do treinamento o algoritmo optou por estratégias mais vantajosas. Levando em consideração que o adversário utilizado foi o Jogador Artificial de Teste, e que ele sempre toma decisões aleatórias, é possível afirmar que o desempenho do Q-Learning pode ser otimizado se for treinado por um número maior de partidas, aproximando-se de um aproveitamento de 100 A tabela 4 apresenta um resumo dos indicadores de tempo, reforço e vitórias antes e depois do treinamento: Tempo Médio σ Tempo Reforço Médio σ Reforço Vitórias Antes do treinamento 88,62ms 10,6 3,88 0,93 62 Após o treinamento 388ms 6,46 7,3 0, Tabela 4 Comparação antes e depois do treinamento 4.3 Torneio de Algoritmos Embora os algoritmos MiniMax e Poda Alfa-Beta tenham uma ótima acurácia, o custo de processamento é muito alto, tornando a utilização desses algoritmos menos vantajosa em relação ao Q-Learning que depois de treinado, pode alcançar excelentes resultados em tempo muito menor. Nas tabelas 5 e 6 são apresentadas comparações entre Q-Learning e MiniMax e entre Q-Learning e Poda Alfa Beta, sendo que a execução dos algoritmos MiniMax e Poda Alfa Beta foi com limite de profundide 3, diminuindo tanto o tempo quanto a acurácea destes. Algoritmo Maior Tempo Menor Tempo Tempo Médio N o Discos Q-Learning 2872ms 0ms MiniMax ms 0ms ms 50 Tabela 5 Q-Learning x MiniMax

45 4.3. Torneio de Algoritmos 43 Algoritmo Maior Tempo Menor Tempo Tempo Médio N o Discos Q-Learning 2091ms 0ms 1128ms 15 Poda Alfa Beta ms 0ms 27529ms 49 Tabela 6 Q-Learning x Poda Alfa Beta Verifica-se que mesmo estando limitados, os algoritmos MiniMax e Poda Alfa Beta venceram o Q-Learning. Isso se deve ao fato de que o Q-Learning não foi treinado contra esses adversários e, como constatado na Seção 4.2.3, ainda não foi treinado o suficiente.

46

47 45 5 CONCLUSÃO Desde o surgimento da Inteligência Artificial, jogos servem de incentivo e motivação para seu desenvolvimento e aperfeiçoamento. Atualmente, existem várias técnicas utilizadas em jogos e raramente são encontrados jogos em desenvolvimento que não usufruam de IA. O jogo Othello é alvo de pesquisas e implementações e, embora os algoritmos de Othello já tenham superado a inteligência humana, estes ainda podem ser aperfeiçoados, pois o jogo Othello pode ser jogado em tabuleiros diferentes, como 10 x 10 ou até N x N. O algoritmo MiniMax possui a vantagem de analisar todas as possibilidades da árvore de jogo, porém, seu tempo de execução pode ser muito alto. Ainda que o algoritmo Poda Alfa-Beta reduza o número de nós a serem analisados, mantendo o mesmo aproveitamento, para uma árvore muito grande, essa redução não é suficiente. Durante os testes e simulações realizadas, os algoritmos MiniMax e Poda Alfa- Beta se mostraram inviáveis para aplicação no jogo Othello pois, para que pudessem ser executados em um tempo aceitável, foi necessário limitar à profundidade a no máximo três, enquanto o algoritmo completo ultrapassaria trinta níveis. A técnica de aprendizado por reforço Q-Learning é interessante, pois não necessita de tanto processamento para tomar uma decisão. Ao passo que o MiniMax e Poda Alfa-Beta precisam refazer todos os cálculos a cada jogada, o Q-Learning reaproveita o resultado obtido em jogadas passadas para tomar uma decisão rápida e ainda melhor. Destaca-se a necessidade do treinamento, sem o qual, o algoritmo não apresenta bons resultados, tomando decisões próximas a aleatórias. O Q-Learning apresentou nos testes um tempo de resposta muito menor que os outros algoritmos estudados, mesmo tendo grande número de estados armazenados na base. Os resultados obtidos após o treinamento mostraram que algoritmo aprendeu e melhorou suas decisões, bastando apenas que seja treinado o suficiente. Considerando custo como o tempo de processamento e benefício como a decisão tomada, a relação custo x benefício foi satisfatória, mostrando que esse algoritmo é apropriado para utilização no jogo Othello. 5.1 Dificuldades Encontradas Durante o desenvolvimento do ambiente padrão Othello houve uma dificuldade com sincronização, pois para executar um movimento era necessário clicar na casa e ativar um evento que executaria a jogada, mas um evento iniciava antes que o outro terminasse,

48 46 Capítulo 5. Conclusão fazendo uma leitura errada de qual era o jogador da vez. Essa dificuldade foi superada com algumas verificações a mais, não sendo necessário o uso de semáforos. Houve dificuldade em analisar o funcionamento do algoritmo minimax devido à grande ramificação e profundidade da árvore de jogo do Othelo. Durante a implementação do Q-Learning, mesmo tendo executado corretamente toda a partida, foi verificado que sempre após a última jogada, era reportado um erro de estado não encontrado. Isso se deve ao fato de que o algoritmo ao analisar a jogada atual, tenta visualizar o estado do tabuleiro uma jogada depois, tal estado não existe após o final da partida, ocasionando uma exceção de banco de dados. 5.2 Trabalhos Futuros Como sugestão de trabalhos futuros, é possível destacar a investigação de outras técnicas de IA para utilização no jogo Othello, a implementação de melhorias que possam maximizar o desempenho das técnicas abordadas e o desenvolvimento de uma técnica híbrida.

49 47 REFERÊNCIAS 1 MANDZIUK, J. Computational intelligence in mind games. In: Challenges for Computational Intelligence. [S.l.: s.n.], p SHANNON, C. E. XXII. Programming a computer for playing chess. Philosophical Magazine (Series 7), Taylor & Francis, v. 41, n. 314, p , TURING, A. M. Digital computers applied to games. Faster than thought: a symposium on digital computing machines, ed. B. V. Bowden, Pitman, London, UK, ECK, N. J. van; WEZEL, M. van. Application of reinforcement learning to the game of othello. Computers & Operations Research, v. 35, n. 6, p , Part Special Issue: OR Applications in the Military and in Counter-Terrorism. 5 KIM, K.-J.; CHOI, H.; CHO, S.-B. Hybrid of evolution and reinforcement learning for othello players. In: Computational Intelligence and Games, CIG IEEE Symposium on. [S.l.: s.n.], p LUCAS, S.; RUNARSSON, T. Temporal difference learning versus co-evolution for acquiring othello position evaluation. In: Computational Intelligence and Games, 2006 IEEE Symposium on. [S.l.: s.n.], p RUSSELL, S.; NORVIG, P. Inteligência Artificial. Elsevier, MANDZIUK, J. Some thoughts on using computational intelligence methods in classical mind board games. In: Neural Networks, IJCNN (IEEE World Congress on Computational Intelligence). IEEE International Joint Conference on. [S.l.: s.n.], p ISSN COPPIN, B. Inteligência Artificial. [S.l.]: LTC, ISBN BIANCHI, R. A.; RIBEIRO, C. H.; COSTA, A. H. Accelerating autonomous learning by using heuristic selection of actions. Journal of Heuristics, Kluwer Academic Publishers, Hingham, MA, USA, v. 14, n. 2, p , abr ISSN SENEFONTE, H. C. M. Aceleração do aprendizado por reforço em sistemas com múltiplos objetivos. Dissertação (Mestrado) Instituto Tecnológico de Aeronáutica, ITA, WATKINS, C. J. C. H. Learning from Delayed Rewards. Tese (Doutorado) King s College, Cambridge, UK, May MITCHELL, T. M. Machine Learning. 1. ed. New York, NY, USA: McGraw-Hill, Inc., ISBN , CHONG, S.; TAN, M.; WHITE, J. Observing the evolution of neural networks learning to play the game of othello. Evolutionary Computation, IEEE Transactions on, v. 9, n. 3, p , june ISSN X.

50 48 Referências 15 Federação Brasileira de Othello. Campeonatos Data de Acesso: 31 oct Disponível em: < 16 BURO, M. Takeshi murakami vs. logistello. ICCA Journal 20(3), p , BURO, M. The evolution of strong othello programs. In: IWEC-2002 Workshop on Entertainment Computing. [S.l.: s.n.], GUNAWAN et al. Evolutionary neural network for othello game. Procedia - Social and Behavioral Sciences, v. 57, n. 0, p , International Conference on Asia Pacific Business Innovation and Technology Management. 19 WEZEL, M. v.; ECK, N. v. Reinforcement learning and its application to Othello. [S.l.], Disponível em: < /RePEc:dgr:eureir: >.