CENTRO UNIVERSITÁRIO DA FEI MURILO FERNANDES MARTINS

Tamanho: px
Começar a partir da página:

Download "CENTRO UNIVERSITÁRIO DA FEI MURILO FERNANDES MARTINS"

Transcrição

1 CENTRO UNIVERSITÁRIO DA FEI MURILO FERNANDES MARTINS APRENDIZADO POR REFORÇO ACELERADO POR HEURÍSTICAS APLICADO AO DOMÍNIO DO FUTEBOL DE ROBÔS São Bernardo do Campo 2007

2 MURILO FERNANDES MARTINS APRENDIZADO POR REFORÇO ACELERADO POR HEURÍSTICAS APLICADO AO DOMÍNIO DO FUTEBOL DE ROBÔS Disseração de Mesrado apresenada ao Cenro Universiário da FEI para obenção do íulo de Mesre em Engenharia Elérica. Orienador: Prof. Dr. Reinaldo A. da C. Bianchi São Bernardo do Campo 2007

3 Ficha Caalográfica Marins, Murilo Fernandes Aprendizado por reforço acelerado por heurísicas aplicado ao domínio do fuebol de robôs / Murilo Fernandes Marins. São Bernardo do Campo, f. : il. Disseração de Mesrado - Cenro Universiário da FEI. Orienador: Prof. Dr. Reinaldo Auguso da Cosa Bianchi 1. Ineligência arificial. 2. Aprendizado por reforço. 3. Aprendizado acelerado por heurísicas. 4. Fuebol de robôs. 5. Robóica móvel. I. Tíulo. CDU 007.5

4 Ao meu avô Anônio Auguso Fernandes, por er-me ensinado a sonhar e er-me mosrado que sonhos se realizam. Por odos os momenos da minha infância e pela sua eerna companhia.

5 AGRADECIMENTOS Não poderia iniciar de oura forma, senão agradecendo aos meus pais, Maria Lucia Fernandes Marins e Leônidas César Marins Filho, pelas renúncias a mim dedicadas, por erem feio muio mais que o possível para que eu ivesse condições de aqui chegar. Agradeço à minha avó Angelina Medeiros Fernandes pelo apoio incondicional e por me fazer acrediar em meus sonhos. Agradeço aos meus ios Anônio Medeiros Fernandes e Francisco Medeiros Fernandes pelo incenivo e confiança, pela imporância de er recebido o apoio deles. Ao meu avô Anônio Auguso Fernandes, em quem me inspiro e busco forças, o maior responsável pelos caminhos da minha vida e o alicerce da brilhane família que enho. Aos professores Dr. Carlos E. Thomaz, Dr. Flavio Tonidandel, Dr. Paulo E. Sanos e meu orienador Dr. Reinaldo A. C. Bianchi, pela amizade, pelos conselhos, por erem comparilhado conhecimeno comigo nas aulas e nas anas conversas desconraídas de almoço e dos cafés da arde. Agradeço a eles, responsáveis pela minha formação, por acrediarem em meu rabalho e pelas oporunidades que êm me dado. Agradeço aos amigos, membros da equipe de Fuebol de Robôs do Cenro Universiário da FEI, André de Oliveira Sanos, Diego Oliveira Fernandes, Fernando Perez Tavarez, José Ângelo Gurzoni Junior, Ronaldo K. Saomi e Valquiria Fenelon Pereira, que conribuíram para que esse rabalho fosse realizado e cuja ajuda foi de um valor inesimável. Pelos momenos ímpares da fase de aquisição de crédios, agradeço à primeira urma de mesrado do grupo IAAA do Cenro Universiário da FEI: Edson Caoru Kiani, Julio A. Sgarbi, Leandro Demari Rodrigues, Luiz Anônio Celibero Jr., Marcel Lira Gomes, Nelson A. O. de Aguiar, Rodolfo Coura de Brio e Sérgio Henry A. de Oliveira. Agradeço ao Cenro Universiário da FEI por fornecer oda a infra-esruura necessária para o desenvolvimeno desse rabalho, como equipamenos, compuadores e laboraórios. Agradeço a CAPES pela bolsa de esudos de mesrado a mim concedida, a qual foi deerminane para o bom desenvolvimeno da minha pesquisa durane esses dois anos. Agradeço a Deus pelo presene da vida.

6 Mesre não é só quem ensina; mas quem, de repene, aprende. Guimarães Rosa

7 RESUMO Esse rabalho apresena uma comparação enre algorimos de Aprendizado por Reforço com e sem a uilização de heurísicas para aceleração do aprendizado em ambiene simulado e a ransferência de conhecimeno, aravés de heurísicas, para o ambiene real. O ambiene de Fuebol de Robôs é uilizado como plaaforma para os experimenos realizados, pois é um ambiene complexo, dinâmico e não-deerminísico. As informações do ambiene foram absraídas e o conjuno de esados foi definido por regiões, enquano o conjuno de ações represena diferenes comporamenos de alo nível. Foram efeuados experimenos em ambiene real e simulado. Os eses em ambiene simulado mosraram que heurísicas aceleram o aprendizado significaivamene. Para os eses em ambiene real, foi desenvolvido um sisema compleo de um ime de Fuebol de Robôs e o conhecimeno adquirido no aprendizado em simulação foi ransferido aravés das heurísicas. Os resulados mosraram que algorimos de Aprendizado por Reforço acelerados por heurísicas implicam em um melhor desempenho quando comparados com os algorimos radicionais de Aprendizado por Reforço.

8 ABSTRACT This work presens a comparison beween Reinforcemen Learning algorihms wih and wihou he use of heurisics o accelerae he learning ask in a simulaed environmen and he knowledge ransfer, hrough heurisics, for he real environmen. The Robo-soccer environmen is used as a es plaform, because i is a complex, dynamic and nondeerminisic environmen. The environmens informaions were absraced and he sae space was defined by regions, while he acion space represens differen high level behaviors. Experimens were done in real and simulaed environmens. The ess in simulaed environmen showed ha heurisics accelerae he learning significanly. For he real environmen ess, a complee sysem of a Robo-soccer eam was developed and he learning acquired in he simulaed environmen was ransferred hrough heurisics. The resuls showed ha he heurisically acceleraed Reinforcemen Learning algorihms imply in a beer performance when compared wih radiional Reinforcemen Learning algorihms.

9 SUMÁRIO 1 INTRODUÇÃO Objeivo Proposa Organização do rabalho APRENDIZADO POR REFORÇO O problema do aprendizado Propriedades de ambienes Processos Markovianos de Decisão Deerminação de uma Políica Óima Méodos para a solução do problema de Aprendizado por Reforço O Méodo de Diferenças Temporais TD Q-learning ACELERAÇÃO DO APRENDIZADO POR REFORÇO Aceleração por Absração Aceleração por Generalizações Q(λ)-learning QS-learning Uso de heurísicas para aceleração do aprendizado por reforço A função heurísica H Definição da função heurísica H Q-learning Acelerado por Heurísicas - HAQL FUTEBOL DE ROBÔS Arquieura de um sisema simulado Caegoria Simuroso Arquieura de um sisema real Caegoria Miroso Sisemas de visão compuacional Sisemas de esraégia Sisemas de navegação e conrole Robôs da caegoria Miroso... 46

10 5 O TIME DE FUTEBOL DE ROBÔS DESENVOLVIDO O sisema de visão compuacional desenvolvido A Transformada de Hough Sisema de aquisição de imagens Subração de fundo Conversão de cores para escala de cinza O filro de bordas Canny Geração do espaço de Hough Deerminação de círculos a parir do espaço de Hough Reconhecimeno dos objeos Resulados obidos Sisema de navegação e conrole uilizado Proocolo de comunicação Cube 3 O robô desenvolvido Placa de conrole do robô Cube Placa de poência do robô Cube APRENDIZADO POR REFORÇO NO DOMÍNIO DE FUTEBOL DE ROBÔS Inrodução Arquieura do sisema de Aprendizado por Reforço Conjuno de esados Conjuno de ações Função de recompensa Função heurísica Transição de esados Algorimos de Aprendizado por Reforço implemenados Parâmeros dos algorimos de AR Q-learning e HAQL Q(λ)-learning QS-learning HAQ(λ)-learning HAQS-learning EXPERIMENTOS E RESULTADOS... 81

11 7.1 Experimenos em ambiene simulado Simuroso Experimenos em ambiene real Miroso Transferência de conhecimeno aravés de heurísicas CONCLUSÃO E TRABALHOS FUTUROS Conribuições Trabalhos fuuros REFERÊNCIAS BIBLIOGRÁFICAS... 98

12 LISTA DE FIGURAS Figura 2.1 Algorimo TD(0) Figura 2.2 Algorimo TD(λ) Figura 2.3 Algorimo Q-learning Figura 3.1 Algorimo Q(λ) de Wakins (1989) Figura 3.2 Algorimo Q(λ) de Peng e Wiiliams (1996) Figura 3.3 Algorimo QS Figura 3.4 Algorimo HAQL Figura 4.1 O simulador Simuroso Figura 4.2 Arquieura proposa pela FIRA para a caegoria Miroso Small League Figura 4.3 Eiquea de um robô da caegoria Miroso Figura 5.1 Exemplo de geração de ponos no espaço de Hough Figura 5.2 Exemplo de subração de fundo Figura 5.3 Resulado da aplicação do filro Canny Figura 5.4 O espaço de Hough Figura 5.5 Exemplo de árvores com raízes de cor primária e nós filhos (círculos próximos) Figura 5.6 Raiz com rês nós filhos válidos Figura 5.7 Caso especial em que o sisema pode não deecar os robôs Figura 5.8 Curva de Bezier de grau cúbico Figura 5.9 Trajeória com desconinuidade enre as curvas de Bezier Figura 5.10 Trajeória com coninuidade enre as curvas de Bezier Figura 5.11 Pacoe de dados do proocolo proposo Figura 5.12 Esquema elérico da placa de conrole do robô Cube Figura 5.13 Esquema elérico da placa de poência do robô Cube Figura 5.14 Placas de poência (à esquerda) e conrole (à direia) dos robôs Cube Figura 5.15 Os robôs Cube Figura 6.1 Ambiene proposo por Liman (1994) Figura 6.2 Campo de jogo dividido em 7 x 5 regiões Figura 6.3 Exemplo de execução da ação Ge Ball Figura 6.4 Algorimo Q(λ) implemenado nesse rabalho Figura 6.5 Espalhameno por similaridade no algorimo QS... 79

13 Figura 7.1 Número acumulado de gols a favor em 500 jogos dos algorimos Q-learning e HAQL Figura 7.2 Número acumulado de gols sofridos em 500 jogos dos algorimos Q-learning e HAQL Figura 7.3 Saldo de gols acumulado em 500 jogos dos algorimos Q-learning e HAQL Figura 7.4 Número acumulado de gols a favor em 500 jogos dos algorimos QS e HAQS Figura 7.5 Número acumulado de gols sofridos em 500 jogos dos algorimos QS e HAQS Figura 7.6 Saldo de gols acumulado em 500 jogos dos algorimos QS e HAQS Figura 7.7 Número acumulado de gols a favor em 500 jogos dos algorimos Q(λ) e HAQ(λ) Figura 7.8 Número acumulado de gols sofridos em 500 jogos dos algorimos Q(λ) e HAQ(λ) Figura 7.9 Saldo de gols acumulado em 500 jogos dos algorimos Q(λ) e HAQ(λ) Figura 7.10 Saldo de gols acumulado em 100 jogos do algorimo Q(λ) em ambiene simulado e real Figura 7.11 Número acumulado de gols a favor em 100 jogos do Q(λ) em ambiene simulado e real Figura 7.12 Número acumulado de gols sofridos em 100 jogos do Q(λ) em ambiene simulado e real Figura 7.13 Saldo de gols acumulado em 100 jogos do algorimo HAQ(λ) em ambienes simulado e real Figura 7.14 Número acumulado de gols a favor em 100 jogos do HAQ(λ) em ambienes simulado e real Figura 7.15 Número acumulado de gols sofridos em 100 jogos do HAQ(λ) em ambienes simulado e real Figura 7.16 Saldo de gols acumulado em 100 jogos do algorimo HAQ(λ) com diferenes heurísicas Figura 7.17 Saldo de gols acumulado em 100 jogos dos algorimos Q(λ) e HAQ(λ) em ambiene real... 93

14 LISTA DE ABREVIATURAS AR Aprendizado por Reforço CRC Cyclic Redundancy Check Código de Redundância Cíclica HAQL Heurisically Acceleraed Q-learning Q-learning Acelerado por Heurísicas HAQS Heurisically Acceleraed Q-spreading Q-spreading Acelerado por Heurísicas HAQ(λ) Heurisically Acceleraed Q(λ) Q(λ) Acelerado por Heurísicas IA Ineligência Arificial PMD Processo Markoviano de Decisão PWM Pulse Widh Modulaion Modulação por Largura de Pulso QS QS-learning Q(λ) Q(λ)-learning TD Temporal Diferences Diferenças Temporais TH Transformada de Hough

15 LISTA DE SÍMBOLOS α Taxa de aprendizado β Variável de influência da heurísica γ Faor de descono para os reforços fuuros δ Erro de diferença emporal ε Taxa de exploração do ambiene η Variável de influência da heurísica λ Faor de descono de diferenças emporais fuuras σ Função de espalhameno ξ Variável de influência da heurísica τ Variável de ponderação da similaridade S Conjuno de esados A Conjuno de ações R Função de recompensa T Função de ransição de esados H Função heurísica π Uma políica π A políica óima H π Políica heurísica Q Função ação-valor Qˆ Esimaiva da função ação-valor Q Função ação-valor óima V Função valor Vˆ Esimaiva da função valor V Função valor óima

16 16 1 INTRODUÇÃO A idéia de robôs que jogam fuebol foi mencionada pela primeira vez pelo professor Alan Mackworh (1992) em um arigo iniulado On Seeing Robos, apresenado no Vision Inerface 92, em Vancouver, Canadá. Nesse mesmo ano, no mês de ouubro, um grupo de pesquisadores japoneses organizou um Workshop sobre Grandes Desafios para a Ineligência Arificial (IA), em Tóquio. Foram discuidos e proposos novos problemas que represenavam grandes desafios para os pesquisadores de IA. Uma das idéias mais discuidas foi a possibilidade de se uilizar um jogo de fuebol enre robôs para promover ciência e ecnologia. Esudos apresenados durane esse Workshop mosraram que a idéia era viável, desejável e englobava diversas aplicações práicas. No ano seguine, em 1993, um grupo de pesquisadores japoneses, incluindo Minoru Asada, Yasuo Kuniyoshi e Hiroaki Kiano, organizou uma compeição denominada Robo J- League (fazendo uma analogia à J-League, nome da Liga Japonesa de Fuebol Profissional). Em um mês vários pesquisadores já se pronunciavam dizendo que a iniciaiva devia ser esendida ao âmbio inernacional. Assim surgia a Robo World Cup Iniiaive (ROBOCUP, 2007). Em 1995, na Coréia, o professor Jong-Hwan Kim iniciou seus rabalhos sobre o Fuebol de Robôs e a primeira compeição inernacional ocorreu em 1996, em Daejeon, Coréia (FIRA, 2007). Em 1997, durane o Torneio Micro-Robo Soccer 97, foi criada a Federaion of Inernaional Robo-Soccer Associaion (FIRA, 2007). O ano de 1997 é lembrado como um marco na hisória da Robóica e IA. Em maio desse ano, o supercompuador da IBM, o DeepBlue (IBM, 2007), derroou Gary Kasparov, o humano campeão mundial de xadrez. Ainda nesse ano, a missão espacial da NASA chamada Pahfinder (NASA, 2007) obeve sucesso com a sonda Sojourner, primeiro sisema robóico auônomo para exploração da superfície de Mare. O Fuebol de Robôs posicionou-se, enão, como o novo desafio para os pesquisadores da área de IA, criando um novo campo inerdisciplinar de pesquisa em robóica auônoma ineligene, uilizando paridas de fuebol. A RoboCup propôs o desafio de se desenvolver

17 17 robôs jogadores de fuebol capazes de enfrenar a seleção humana campeã mundial em Os campeonaos da RoboCup aconecem anualmene e, paralelamene, aconece um congresso onde as equipes podem apresenar a conribuição cienífica de suas pesquisas na área de Fuebol de Robôs. O mesmo ocorre com a FIRA, que promove congresso e compeição anuais. Ambas as enidades êm o objeivo de promover o desenvolvimeno de sisemas robóicos auônomos muli-agenes, inegrando áreas diversas, como IA, visão compuacional, robóica, conrole, engenharia elérica e mecânica, enre ouras. Tano a FIRA quano a RoboCup possuem diversas caegorias de Fuebol de Robôs. Esse rabalho esá focado nas caegorias de Fuebol de Robôs Simuroso e Miroso, proposas pela FIRA (2007). 1.1 Objeivo O objeivo desse rabalho é verificar o comporameno de um agene robóico de Aprendizado por Reforço (AR) quando inserido em um ambiene de Fuebol de Robôs real, aravés da comparação enre algorimos de AR sem a uilização de heurísicas e com a uilização de heurísicas, écnica de aceleração do aprendizado proposa por Bianchi (2004). 1.2 Proposa Esse rabalho propõe a uilização do ambiene de Fuebol de Robôs simulado como plaaforma para efeuar eses de desempenho de alguns algorimos de AR. Os resulados desses eses serão uilizados como referência para a comparação com os resulados do desempenho dos algorimos de AR quando o agene robóico for inserido em um ambiene real de Fuebol de Robôs. Aravés dos eses comparaivos, preende-se verificar a influência das heurísicas definidas a priori no desempenho dos algorimos de AR, ano em ambiene simulado como em ambiene real. Também preende-se invesigar, nesse rabalho, a ransferência do aprendizado adquirido em ambiene simulado para o ambiene real. As experiências adquiridas em simulação serão uilizadas para definir as heurísicas aplicadas nos algorimos de AR em ambiene real.

18 Organização do rabalho O capíulo 2 apresena uma revisão bibliográfica sobre AR, descrevendo os algorimos de AR fundamenais para o presene rabalho. O capíulo 3 apresena proposas para aumenar o desempenho dos algorimos descrios no capíulo 2 aravés de écnicas de aceleração do aprendizado. No capíulo 4, são descrias, aravés de uma breve revisão bibliográfica, odas as pares que compõem o domínio do Fuebol de Robôs, ano em ambiene simulado, como em ambiene real. O capíulo 5 descreve o ime de Fuebol de Robôs desenvolvido para que os experimenos desse rabalho pudessem ser feios. As pares que compõem o sisema compleo de Fuebol de Robôs desenvolvido são descrias em dealhes. O capíulo 6 apresena a arquieura do sisema de AR proposo nesse rabalho, assim como as peculiaridades de implemenação dos algorimos Q-learning, Q(λ), QS e HAQL, já conhecidos na lieraura, além da inrodução de dois novos algorimos HAQ(λ) e HAQS. O capíulo 7 descreve os experimenos efeuados ano em ambiene simulado, como em ambiene real e apresena uma análise críica dos resulados obidos. Por fim, o capíulo 8 conclui esse rabalho e sugere possíveis rabalhos fuuros, baseando-se nos resulados obidos.

19 19 2 APRENDIZADO POR REFORÇO O AR é um campo mulidisciplinar que reúne pesquisadores das áreas de engenharia de conrole, neurociência, psicologia, enre ouras áreas. Para a área de IA, o AR é uma abordagem compuacional para o esudo do problema de aprendizado de máquina. Segundo Suon e Baro (1998), o crescene ineresse dos pesquisadores em AR é jusificado em pare pelo desafio em se desenvolver sisemas ineligenes que devem operar em ambienes dinâmicos reais. 2.1 O problema do aprendizado Diferenemene de ouros méodos de aprendizado de máquina, no AR não há exemplos de enrada, ampouco há a especificação das saídas. O aprendizado aconece a parir da ineração de um agene aprendiz com o ambiene em que esá inserido, o qual irá responder às ações do agene, reornando um reforço, ambém denominado de recompensa. A arefa do agene é aprender um mapeameno das diferenes resposas do ambiene em relação às diferenes ações que esse agene venha a execuar, buscando maximizar as recompensas recebidas a cada ineração com o ambiene, acumuladas ao longo do empo. 2.2 Propriedades de ambienes Ambienes possuem diversas propriedades, as quais definem, enre ouras caracerísicas, a maneira a qual esse ambiene pode er seu esado alerado e como o mesmo reage às ações execuadas pelo agene. Para que um agene possa ineragir com o ambiene no qual esá inserido, uma das primeiras arefas é observar esse ambiene. Um ambiene onde o agene é capaz de observar odas as informações relevanes para a escolha da ação a ser execuada, é denominado ambiene compleamene observável. Esses ambienes compleamene observáveis são convenienes, pois não é necessário que o agene armazene informações sobre o ambiene ao longo do empo para ser capaz de selecionar a ação a ser execuada. No enano, a presença de ruído e a imprecisão na leiura de sensores podem impossibiliar que o agene seja capaz de observar odas as variáveis do ambiene que definem um esado. Pode aconecer, ainda, que um agene não seja capaz de observar odas as variáveis que definem um esado. Logo, o ambiene é denominado parcialmene observável.

20 20 Depois de observar o esado aual em que se enconra e selecionar a ação a ser execuada, é conveniene que o agene seja capaz de deerminar o esado fuuro do ambiene. Quando se pode deerminar o esado fuuro apenas com a observação do esado aual e com a informação de qual ação será execuada pelo agene, o ambiene é denominado deerminísico. Caso apenas as informações de esado aual e ação a ser execuada pelo agene não sejam suficienes para deerminar o esado fuuro, esse ambiene é denominado não-deerminísico. Quando se raa da mudança de esados de um ambiene, caso seu esado seja alerado apenas pela execução da ação selecionada pelo agene, enão é denominado ambiene esáico. Do conrário, quando o esado do ambiene pode sofrer alerações enquano o agene esá selecionando qual ação deve ser execuada, esse ambiene é denominado dinâmico. 2.3 Processos Markovianos de Decisão Uma das maneiras de formalizar um agene de AR é aravés do Processo Markoviano de Decisão (PMD), descrio em Russell e Norvig (2004, cap. 17). Uilizando o PMD é possível modelar maemaicamene um agene de AR, iso é, definir as funções maemáicas para os componenes de um agene de AR. Segundo Kaelbling, Liman e Moore (1996), a propriedade de Markov define que as ransições de esados são independenes do hisórico de esados visiados e ações execuadas aneriormene pelo agene. Um PMD é definido da seguine maneira: Um conjuno finio de esados S; Um conjuno finio de ações A; Uma função recompensa R : S A R ; Uma função de ransição de esados T : S A Π( S), onde (S) é um mapeameno da ransição de esados em probabilidades. As funções de recompensa e ransição de esados são definidas de acordo com as propriedades do ambiene, represenando um modelo desse ambiene. Um agene de AR, segundo Kaelbling, Liman e Moore (1996), é composo por quaro componenes: uma políica, uma função de recompensa, uma função valor e uma função de ransição de esados.

21 21 A políica é responsável por selecionar a ação a ser execuada, dependendo da siuação em que o agene se enconra, para que uma mea seja alcançada. Seja qual for o esado inicial, essa políica deve indicar uma seqüência de ações para se chegar ao objeivo, sendo essa seqüência a que maximiza o ganho de recompensas acumuladas ao longo do empo aé um esado erminal ou aé que um criério de parada seja aingido. Uma políica que maximiza esse ganho de recompensas acumuladas é ida como uma políica óima. Uma políica pode deerminar uma seqüência de ações que não alcance o objeivo, ou ainda, que alcance o objeivo, mas cuja recompensa acumulada ao longo do empo não seja a máxima possível. Dessa forma, a políica é ida como não óima, ou sub-óima. O objeivo do agene de AR é represenado aravés da função de recompensa. A função de recompensa deve reornar um valor que represena, numericamene, uma punição ou uma graificação para cada possível ação a ser execuada em cada um dos possíveis esados. Enquano a função recompensa represena uma resposa imediaa do ambiene à ação execuada pelo agene, a função valor represena, para cada ação possível a ser execuada em deerminado esado, o valor máximo de recompensa acumulada que pode ser recebida ao longo do empo, aé que um esado erminal seja aingido. Por fim, a função de ransição de esados é capaz de reornar o esado fuuro, seja qual for o esado aual e a ação execuada. Essa função de ransição de esados depende das propriedades do ambiene no qual o agene de AR esá inserido. Em um ambiene deerminísico, a seleção de uma ação a A em um esado s S resula sempre no mesmo esado fuuro s +1 S e a ransição T s, a, s ) ocorre com ( + 1 probabilidade 1. Para ambienes não-deerminísicos, a seleção da ação a A no esado s S pode resular em diferenes esados fuuros e a ransição T s, a, s ) é represenada por ( + 1 uma disribuição de probabilidades que define os efeios de cada ação a sobre o conjuno de esados S, que pode ser expressa como a probabilidade de alcançar o esado s +1, dado o esado aual s e considerando que a ação a seja execuada, P s + s, a ). ( Deerminação de uma Políica Óima Com o agene de AR modelado por um PMD, admiindo que as funções de recompensa e ransição de esados são conhecidas e o ambiene seja deerminísico, é possível

22 22 deerminar uma políica óima π : S A, para selecionar a próxima ação a A quando observado o esado s S, ou seja, π ( s ) = a. Pode-se definir o valor acumulado V π (s ), que uiliza uma políica arbirária π, a parir de um esado inicial s, como mosrado na equação (2.1): V π i= 0 i ( s ) = γ r + i (2.1) onde: r +i é a seqüência de recompensas recebidas a parir do esado s, uilizando a políicaπ para selecionar ações; γ é um faor de descono que deermina o quano as recompensas fuuras serão consideradas, admiindo o inervalo 0 γ < 1. Para que uma políica óima, denominada π, seja deerminada, a arefa do agene de AR é aprender uma políica π que maximize o valor acumulado V π (s), para qualquer esado s S, como mosrado na equação (2.2): π π arg maxv ( s), s S (2.2) π Dessa forma, denomina-se V * (s) como sendo o valor acumulado óimo, aquele que resula de uma políica óima π. 2.5 Méodos para a solução do problema de Aprendizado por Reforço Segundo Suon e Baro (1998), exisem rês classes de méodos para resolver o problema de AR: programação dinâmica, méodos de Mone Carlo e méodos de diferenças emporais. Os méodos de programação dinâmica êm uma base maemáica consisene, embora necessiem de um modelo compleo do ambiene, ou seja, o conhecimeno das funções de recompensa e ransição de esados. Méodos de Mone Carlo são conceiualmene simples e não requerem um modelo de ambiene, mas não são apropriados para compuação ieraiva, onde uma políica é aprendida passo a passo, enquano os méodos de diferenças emporais não requerem um modelo de ambiene e são, essencialmene, méodos ieraivos.

23 23 Suon e Baro (1998) apresena uma exensa revisão bibliográfica, descrevendo dealhadamene as rês classes de méodos para a solução do problema de AR. Kaelbling, Liman e Moore (1996) e Ribeiro (1999) ambém apresenam discussões sobre diversos algorimos de AR. São discuidos, a seguir, os algorimos fundamenais para a compreensão desse rabalho O Méodo de Diferenças Temporais TD Apresenado por Suon (1988), o Méodo de Diferenças Temporais (TD) é fundamenado por uma base maemáica consisene. Esse méodo calcula, de forma ieraiva, uma esimaiva π Vˆ do valor acumulado V π, selecionando as ações seguindo uma políica π. O Méodo TD exige apenas que o próximo passo s +1 seja observado para aualizar a esimaiva esimaiva π Vˆ, sem a necessidade de um modelo do ambiene. A regra de aualização da π Vˆ do Méodo TD mais simples, conhecido por TD(0), aconece de acordo com as equações (2.3) e (2.4): Vˆ 0 ˆ α δ π π ( s ) V ( s ) + (2.3) ˆ π ( ) ˆ π δ = r + γv s + V ( s ) (2.4) 1 Onde: s é o esado aual; s +1 é o esado fuuro; π Vˆ é a esimaiva aual do valor acumulado V π na ieração ; π V ˆ +1 é a esimaiva fuura do valor acumulado V π na ieração +1; α é a axa de aprendizado na ieração, sendo 0 < α 1; 0 δ é chamado de diferença emporal, ou erro TD(0), na ieração, que represena uma esimaiva da diferença enre a esimaiva de valor aual Vˆ π ( ) e o valor acumulado esperado ˆ π r γ V ( s ) ; s + +1 r é a recompensa recebida na ieração, quando uma ação a, selecionada a parir da políica π, é execuada no esado s, aingindo o esado s +1; γ é um faor de descono que deermina o quano as recompensas fuuras serão consideradas, admiindo o inervalo 0 γ < 1.

24 24 A Figura 2.1 apresena o algorimo TD(0) para calcular a esimaiva Para odo esado s, inicialize V π (s) com zero Observe o esado aual s Repia infiniamene: (1) Selecione uma ação a de acordo com a políica π (2) Receba a recompensa imediaa r (3) Observe o novo esado s +1 (4) Compue o erro TD(0) conforme a equação (2.4) (5) Aualize a esimaiva do valor acumulado V π conforme a equação (2.3) (6) s s +1 Figura 2.1 Algorimo TD(0) As equações (2.3) e (2.4) mosram que a esimaiva fuura gradualmene, sendo ponderada com a esimaiva aual π Vˆ. ˆ π +1 V é aualizada π Vˆ aravés da axa de aprendizado α. 0 Em ambienes deerminísicos, o valor 1 é aribuído a α, o erro TD(0) δ é calculado e a esimaiva π Vˆ é aualizada com o valor da esimaiva ˆ π +1 V. Para o caso de ambienes nãodeerminísicos, a axa de aprendizado α deve er seu valor menor que 1 para que a esimaiva fuura ˆ π +1 V seja ponderada com a esimaiva anerior π Vˆ. Dessa forma, com a axa de aprendizado α < 1, odas as ierações aneriores são consideradas para calcular a esimaiva de valor acumulado π Vˆ. Segundo Wakins e Dayan (1992), a axa de aprendizado α deve decair ao longo do empo para saisfazer duas condições de convergência de algorimos ieraivos uilizados em ambienes não-deerminísicos. Uma maneira de se ober uma axa de aprendizado α que decai ao longo do empo é aravés da equação (2.5), como descrio por Michell (1997): 1 α = (2.5) 1+ visias ( s) Onde visias (s) é o número de visias ocorridas ao esado s aé a ieração. Pode-se expandir o Méodo TD(0), que calcula a diferença após uma ieração observando o esado fuuro s +1, para uma formulação mais geral, baseando-se nas descrições de Suon (1988), que considera a influência das diferenças emporais obidas n esados fuuros à frene, sendo n o número de ierações. A regra de aualização para calcular a esimaiva π Vˆ, mosrada na equação (2.6), é muio similar à regra da equação (2.3): V ˆ s Vˆ s + α δ (2.6) 1 π π + ( ) ( ) n

25 25 n No enano, a diferença emporal δ é definida para considerar os erros TD(0) dos esados fuuros, n ierações à frene, conforme a equação (2.7): γ δ γ δ = δ + n= 1 n 0 n δ = δ + γδ γ δ (2.7) n A parir da definição da diferença emporalδ, Suon (1988) apresenou uma formulação que descona a influência das diferenças emporais fuuras independene do faor γ, uilizando um faor λ, admiindo o inervalo 0 λ 1, originando o Méodo TD(λ). Enquano o faor γ represena o descono de recompensas fuuras, o faor λ represena o λ descono das diferenças emporais fuuras. Dessa forma, é possível definir o erro TD(λ) δ, com base nas descrições de Peng e Williams (1996) e Ribeiro (1999), de acordo com a equação (2.8): 0 + n δ λ 0 = δ + γλδ γ λ δ γ λ δ = δ + n= 1 n ( γλ) δ 0 + n (2.8) Peng e Williams (1996) demonsra, ainda, que é possível deerminar o erro TD(λ) recursivamene, conforme a equação (2.9): λ 0 λ δ = δ + γλδ + 1 (2.9) λ δ A regra de aualização da esimaiva π Vˆ que uiliza o erro TD(λ) λ δ, que por sua vez considera as recompensas fuuras e as diferenças emporais fuuras, desconadas ao longo do empo pelos faores γ e λ respecivamene, é definida, enão, conforme a equação (2.10): V ˆ ˆ + α δ (2.10) 1 π π + ( s ) V ( s ) λ Enreano, não é possível implemenar direamene a regra de aualização da equação 0 0 (2.10), pois ela é não causal, o que significa que as diferenças emporais fuuras δ +1, δ +2, 0 δ +3,..., 0 δ +n são uilizadas para aualizar a esimaiva ˆ π +1 V na ieração. Para que o cálculo das aualizações possa ser feio ieraivamene, uiliza-se o rasro de elegibilidade, discuido inicialmene por Wakins (1989). Esse rasro de elegibilidade é uma variável de memória associada a cada esado s S. O rasro de elegibilidade pode ser definido por acumulação (accumulaing race), conforme a equação (2.11), ou ainda, por subsiuição (replacing race), conforme a equação (2.12): γλe 1( s) e ( s) = γλe 1 ( s) + 1 se s s se s = s (2.11)

26 26 γλe 1 ( s) e ( s) = 1 se se s s s = s (2.12) Um esudo dealhado sobre rasros de elegibilidade é feio por Suon e Baro (1998), analisando as vanagens e desvanagens de cada uma das definições aneriores, mosrando que, em alguns casos, o rasro de elegibilidade por subsiuição apresena um desempenho significaivamene maior em relação ao rasro de elegibilidade por acumulação. O rasro de elegibilidade armazena a informação sobre quais esados foram visiados recenemene. Deermina-se o quão recene um esado s foi visiado aravés de sua elegibilidade e(s), que decai em γλ a cada ieração. Dessa forma, a aualização de calculada pelo erro TD(0) ˆ π +1 V, 0 δ, é propagada proporcionalmene aos esados recenemene visiados, conforme mosra a equação (2.13), aravés do rasro de elegibilidade e (s): V ˆ π s Vˆ π + ( ) ( s) α δ e ( s), s S (2.13) A prova maemáica do algorimo TD(λ) que calcula a esimaiva π Vˆ e converge para V *, pode ser verificada em Dayan (1992). O algorimo TD(λ) é apresenado na Figura 2.2. Para odo esado s, inicialize V π (s) e e(s) com zero Observe o esado aual s Repia infiniamene: (1) Selecione uma ação a de acordo com a políica π (2) Receba a recompensa imediaa r (3) Observe o novo esado s +1 (4) Compue o erro TD(0) conforme a equação (2.4) (5) Aualize o rasro de elegibilidade conforme uma das regras (2.11) ou (2.12) (6) Para odo esado s: (6.1) Aualize a esimaiva do valor acumulado V π (s) conforme a equação (2.13) (6.2) Compue o decaimeno do rasro e(s) γλe(s) (7) s s +1 Figura 2.2 Algorimo TD(λ) Q-learning Walkins (1989) propôs o algorimo Q-learning, que deermina uma função ação-valor Q, que considera as ransições ocorridas a cada ieração em ermos do par esado-ação, em conrase com o Méodo TD, que considera as ransições apenas no conjuno de esados. Dessa forma, o algorimo Q-learning é capaz de esimar direamene a função ação-valor óima Q *, simplesmene aprendendo a função ação-valor Q, independene da políica π que esá sendo seguida, diferenemene do Méodo TD, que calcula a esimaiva de valor acumulado π Vˆ para uma dada políica π.

27 27 Admiindo que V * (s) é o valor acumulado óimo de s, considerando que a ação a foi selecionada a parir de uma políica óima π, pode-se relacionar a função ação-valor óima Q * (s, a) e o valor acumulado óimo V * (s) conforme a equação (2.14): V ( s) = max Q a * ( s, a) (2.14) Onde Q * (s, a) represena o máximo valor acumulado de recompensas fuuras a ser recebido quando a ação a é selecionada por uma políica óima π no esado s. Pode-se, enão, definir a políica óima π reescrevendo a equação (2.2) em ermos de Q(s, a), de acordo com a equação (2.15): π ( s) = arg max Q( s, a), s S (2.15) Logo, é possível aproximar a esimaiva a Qˆ ieraivamene aé Q *, de maneira muio similar ao Méodo TD(0), reescrevendo as equações (2.3) e (2.4) em ermos da função açãovalor Q, como mosrado nas equações (2.16) e (2.17): Qˆ ˆ + + α δ (2.16) 1 ( s, a ) Q ( s, a ) 0 ˆ (, ) ˆ δ = r s, a ) + γ max Q s a Q ( s, a ) (2.17) ( + 1 a 0 Onde: a é a ação execuada na ieração ; Qˆ é a esimaiva aual do valor acumulado Q * na ieração ; Q ˆ +1 é a esimaiva fuura do valor acumulado Q * na ieração +1; α é a axa de aprendizado na ieração, sendo 0 < α 1, que decai conforme a regra da equação (2.5); 0 δ é o erro TD(0) na ieração, reescrio em ermos da função ação-valor Q; r (s, a ) é a recompensa recebida na ieração, quando uma ação a é execuada no esado s, aingindo o esado s +1; γ é um faor de descono que deermina o quano as recompensas fuuras serão consideradas, admiindo o inervalo 0 γ < 1. A maneira a qual as ações são selecionadas pode ser, por exemplo, aravés da uilização de uma esraégia de exploração aleaória gulosa, conhecida como ε Greedy,

28 28 muio uilizada em implemenações do algorimo Q-learning. Ações selecionadas de maneira aleaória favorecem a exploração do ambiene, enquano ações selecionadas de maneira gulosa iram proveio das experiências das ierações aneriores do algorimo, a exploação. A esraégia ε Greedy deermina uma políica π que define uma relação enre exploração e exploação do ambiene, aravés do parâmeroε, admiindo o inervalo 0 ε 1, selecionando ações conforme a equação (2.18): Onde: arg max Qˆ > ( s, a) se p ε ˆ π ( s ) = a (2.18) arandom se p ε p é um valor deerminado aleaoriamene, com disribuição de probabilidade uniforme sobre o inervalo [0, 1]; a random é uma ação perencene ao conjuno de ações A, selecionada de maneira aleaória; πˆ é a esimaiva da políica óima, derivada da esimaiva Qˆ da função açãovalor óima Q *, na ieração. Dessa forma, como a esimaiva Qˆ da função ação-valor óima converge para Q *, conforme a prova maemáica apresenada por Wakins e Dayan (1992), a políica óima π é aprendida ieraivamene, direamene aravés da função ação-valor Q. O algorimo Q-learning é mosrado na Figura 2.3. Para odo esado s e ação a, inicialize Q(s, a) com zero Observe o esado aual s Repia infiniamene: (1) Selecione uma ação a de acordo com a políica derivada de Q, (ex. (2.18)) (2) Receba a recompensa imediaa r (3) Observe o novo esado s +1 (4) Compue o erro TD(0) conforme a equação (2.17) (5) Aualize a esimaiva da função ação-valor Q * conforme a equação (2.16) (6) s s +1 Figura 2.3 Algorimo Q-learning Apesar de convergirem para uma políica óima, os algorimos de AR descrios nesse capíulo necessiam de um número de ierações muio elevado e, consequenemene, muio empo para convergir. O próximo capíulo apresena écnicas para aceleração do AR.

29 29 3 ACELERAÇÃO DO APRENDIZADO POR REFORÇO Os algorimos de AR apresenados no capíulo anerior exigem um número de ierações muio grande para convergência. O cuso compuacional aumena à medida que o ambiene se orna maior e mais complexo, em ermos do conjuno de esados e do conjuno de ações. O aumeno do conjuno de esados, do conjuno de ações, ou ainda, do número de agenes presenes no ambiene, ambém são faores que elevam o cuso compuacional dos algorimos de AR. Logo, para uma convergência mais rápida dos algorimos, é necessário o uso de écnicas de aceleração do AR. Suon e Baro (1998), Bianchi (2004) e Ribeiro (1999) apresenam uma ampla revisão bibliográfica sobre diversas écnicas de aceleração do AR. Esse capíulo descreve apenas as écnicas de aceleração do AR relacionadas ao algorimo Q-learning, que foram uilizadas no desenvolvimeno desse rabalho. 3.1 Aceleração por Absração É possível uilizar absrações para acelerar os algorimos de AR. A absração pode ocorrer de forma esruural, onde esados são agregados para formar regiões maiores, ou de forma emporal, definindo-se macro-ações que incorporam a arefa de várias ações, reduzindo significaivamene o amanho efeivo do conjuno de esados e do conjuno de ações, resulando em um menor cuso compuacional. Ese rabalho faz uso de absrações para reduzir o amanho do conjuno de esados e do conjuno de ações. Essas absrações são descrias em dealhes no capíulo 6, onde é definida a arquieura do sisema de AR uilizado nesse rabalho. 3.2 Aceleração por Generalizações A aceleração por generalizações ocorre quando a experiência de uma ieração é espalhada para ouros esados que não o da ieração aual. Esse espalhameno pode ser ano emporal, quando a experiência é propagada para os esados visiados recenemene, como espacial, quando a experiência é disribuída a ouros esados considerando alguma medida de similaridade.

30 Q(λ)-learning Um exemplo de generalização emporal é o algorimo Q(λ)-learning, uma exensão do algorimo Q-learning que uiliza a propagação emporal das aualizações exisene no algorimo TD(λ). As duas abordagens mais conhecidas, que combinam os algorimos Q- learning e TD(λ), são o algorimo Q(λ) de Wakins (1989) e o Q(λ) Peng e Williams (1996). Para que as diferenças emporais fuuras, desconadas de λ, sejam consideradas no 0 algorimo Q(λ), são uilizados o erro TD(0) δ do algorimo Q-learning, de acordo com a λ equação (2.17), assim como a definição do erro TD(λ) δ da equação (2.8). Enão, a regra de aualização do algorimo Q-learning da equação (2.16) é reescria, originando a regra de aualização do algorimo Q(λ), conforme a equação (3.1): Q ˆ ( s, a ) Qˆ ( s, a ) + α δ (3.1) + 1 Analogamene ao algorimo TD(λ), não se pode calcular a esimaiva ieraivamene e, em ambas as abordagens de Wakins (1989) e Peng e Williams (1996), é uilizado o rasro de elegibilidade do algorimo TD(λ). Porém, esse rasro é modificado para considerar o par esado-ação (s, a). Enão, as equações (2.11) e (2.12) são reescrias em ermos de (s, a), conforme as equações (3.2) e (3.3): γλe 1( s, a) e ( s, a) = γλe 1 ( s, a) + 1 λ se ( s, a) ( s, a ) se ( s, a) = ( s, a ) (3.2) Qˆ γλe 1 ( s, a) e ( s, a) = 1 se se ( s, a) ( s, a ) ( s, a) = ( s, a ) (3.3) Pela regra da equação (2.14), enende-se que a esimaiva de valor acumulado verdade, o valor acumulado V π que segue a esimaiva de políica óima Vˆ é, na πˆ, que pode não represenar uma políica gulosa. Por esse moivo, a abordagem de Wakins (1989) reinicializa o rasro de elegibilidade sempre que uma ação é selecionada aleaoriamene, enquano a variane de Peng e Williams (1996) não diferencia uma ação aleaória de uma ação selecionada seguindo uma políica, não reinicializando o rasro de elegibilidade, pois assume que a políica uilizada é uma políica gulosa, cujas ações são selecionadas aravés da esraégia ε Greedy. Como conseqüência, de acordo com Suon e Baro (1998), para uma políica fixa não gulosa, a esimaiva Qˆ do algorimo Q(λ) de Peng e Williams (1996) não converge nem para

31 31 Q π, ampouco para Q *, mas para algo híbrido enre as duas. No enano, Suon e Baro (1998) ainda afirma que, para uma políica que se orne gulosa ao longo do empo, o méodo de Peng e Williams (1996) pode convergir para Q *, além de apresenar um desempenho significaivamene melhor que o algorimo Q(λ) de Wakins (1989). equação (3.4): A regra de aualização para o algorimo Q(λ) de Wakins (1989) é apresenada na ˆ 0 ) + 1 δ Q ( s, a ) Qˆ ( s, a ) + α e ( s, a), ( s, a S (3.4) O algorimo Q(λ) de Wakins (1989) é mosrado na Figura 3.1. Para odo esado s e ação a, inicialize e(s, a) e Q(s, a) com zero Observe o esado aual s Repia infiniamene: (1) Selecione uma ação a de acordo com a políica derivada de Q, (ex. (2.18)) (2) Receba a recompensa imediaa r (3) Observe o novo esado s +1 (4) Compue o erro TD(0) conforme a equação (2.17) (5) Aualize o rasro e(s, a ) conforme uma das regras (3.2) ou (3.3) (6) Para odo par esado-ação (s, a): (6.1) Aualize a esimaiva da função ação-valor Q * conforme a equação (3.4) (6.2) Se a = a * : compue o decaimeno do rasro: e(s, a) γλe(s, a) (6.3) Senão: e(s, a) 0 (7) s s +1 Figura 3.1 Algorimo Q(λ) de Wakins (1989) Para o caso da abordagem de Peng e Williams (1996), é assumido que uma políica gulosa é uilizada para deerminar as ações e demonsrado que, a parir das equações (2.8), λ (2.9) e considerando a equação (2.14), pode-se definir o erro TD(λ) δ ieraivamene, como mosrado na equação (3.5): esimaiva δ λ ˆ (, ) ˆ = r ( s, a ) + γ max Q s+ 1 a V ( s ) a (3.5) Dessa forma, no algorimo Q(λ) de Peng e Wiiliams (1996), a aualização da Qˆ ocorre aravés de duas regras de aualização. Para odos os pares esado-ação λ (s, a), uma das regras de aualização uiliza o erro TD(λ) δ, deerminado ieraivamene pela equação (3.5), para aualizar as esimaivas Qˆ ( s, a), fazendo uso do rasro de elegibilidade e(s, a), conforme mosra a equação (3.6): Qˆ s a Qˆ λ, ) ( s, a ) + e ( s, a), ( s, a ) S + 1( α δ (3.6) A oura regra de aualização do algorimo Q(λ) de Peng e Wiiliams (1996), mosrada 0 na equação (3.7), uiliza o erro TD(0) δ para aualizar a esimaiva Qˆ ( s, a ) :

32 32 Qˆ ˆ + α δ 0 1 ( s, a ) Q + + 1( s, a ) (3.7) A Figura 3.2 apresena o algorimo Q(λ) de Peng e Williams (1996). Para odo esado s e ação a, inicialize e(s, a) e Q(s, a) com zero Observe o esado aual s Repia infiniamene: (1) Selecione uma ação a de acordo com a políica derivada de Q, (ex. (2.18)) (2) Receba a recompensa imediaa r (3) Observe o novo esado s +1 (4) Compue o erro TD(0) conforme a equação (2.17) (5) Compue o erro TD(λ) conforme a equação (3.5) (6) Para odo par esado-ação (s, a): (6.1) Compue o decaimeno do rasro: e(s, a) γλe(s, a) (6.2) Aualize a esimaiva da função Q * (s, a) conforme a equação (3.6) (7) Aualize a esimaiva da função Q * (s, a ) conforme a equação (3.7) (8) Aualize o rasro e(s, a ) conforme uma das regras (3.2) ou (3.3) (9) s s +1 Figura 3.2 Algorimo Q(λ) de Peng e Wiiliams (1996) QS-learning O algorimo QS-learning, proposo em Ribeiro e Szepervári (1996), é uma abordagem do algorimo Q-learning combinada com generalizações espaciais, que espalha a aualização da esimaiva Qˆ ( s, a) para ouros pares esado-ação (x, u) não envolvidos na ieração aual, de acordo com a similaridade enre pares esado-ação. Para al, a similaridade é deerminada aravés de uma função de espalhameno σ ( x, u, s, a), sendo 0 σ ( x, u, s, a) 1. Caso a similaridade ocorra apenas no conjuno de esados, a função σ ( x, u, s, a) é definida conforme a equação (3.8). Ainda, se a similaridade ocorrer apenas no conjuno de ações, a função σ ( x, u, s, a) é definida de acordo com a equação (3.9): σ ( x, u, s, a) = g x ( x, s) ( u, a) (3.8) σ ( x, u, s, a) = ( x, s) g ( u, a) (3.9) Onde (.,.) é o Dela de Kronecker, podendo assumir os valores ( i, j) = 1 se i = j, ou ( i, j) = 0 se i j. Por úlimo, quando a similaridade ocorre em ambos os conjunos, a função de espalhameno σ ( x, u, s, a) é definida de acordo com a equação (3.10): u σ x, u, s, a) = g (( x, s),( u, )) (3.10) ( ( x, u) a A função g x ( x, s) deermina o grau de similaridade enre esados, enquano a função g u ( u, a) deermina essa proporção enre ações e a função g ( x, u ) (( x, s),( u, a)) enre pares

33 33 esado-ação. Por simplificação, a parir desse momeno, será considerado que as similaridades ocorrem apenas no conjuno de esados, conforme a equação (3.8) e a função g x ( x, s) será descria apenas como g ( x, s). Dessa maneira, pode-se definir a função g ( x, s) de similaridade enre esados conforme a equação (3.11): Onde: s é o esado que esá sendo visiado; d g( x, s ) = τ, x S (3.11) x é qualquer esado perencene ao conjuno de esados, cuja proporção de similaridade com o esado aual s é verificada pela função g; d é um valor que quanifica a similaridade enre os esados x e s, considerando, por exemplo, a vizinhança enre esses esados; τ pode ser uma consane ou uma variável cujo valor decai ao longo do empo. Ribeiro, Pegoraro e Reali-Cosa (2002) apresena eses e comparações de uma variane do algorimo QS para um valor fixo para τ = 0. 7, assim como para um valor de τ = 0.7 que decai linearmene em relação ao número de ierações. A prova maemáica apresenada por Ribeiro e Szepesvári (1996) demonsra que o algorimo QS converge para valores óimos desde que o valor de τ decaia, no pior caso, à mesma velocidade que a axa de aprendizado α. 0 A regra de aualização e o erro TD(0) δ do algorimo QS podem, enão, ser definidos com base nas equações (2.16) e (2.17) do algorimo Q-learning, conforme é mosrado nas equações (3.12) e (3.13): Qˆ ˆ + + σ α δ (3.12) 1 ( x, u) Q ( x, u) ( x, u, s, a ) 0 ˆ (, ) ˆ δ = r s, a ) + γ max Q s a Q ( x, u) (3.13) ( + 1 a Pode-se observar que, caso a função g ( x, s) não considere nenhuma similaridade enre os esados, seu valor será zero para qualquer ouro esado x que não seja o próprio esado s, resulando em uma função de espalhameno σ ( x, u, s, a) ambém igual a zero. Nesse caso, o algorimo QS, descrio na Figura 3.3, orna-se idênico ao algorimo Q-learning. 0

34 34 Para odo esado s e ação a, inicialize Q(s, a) com zero Observe o esado aual s Repia infiniamene: (1) Selecione uma ação a de acordo com a políica derivada de Q, (ex. (2.18)) (2) Receba a recompensa imediaa r (3) Observe o novo esado s +1 (4) Para odo par esado-ação (x,u): (4.1) Compue o erro TD(0) conforme a equação (3.13) (4.2) Aualize a esimaiva da função ação-valor Q * conforme a equação (3.12) (5) s s +1 Figura 3.3 Algorimo QS 3.3 Uso de heurísicas para aceleração do aprendizado por reforço Oura forma de uilizar o conhecimeno sobre o domínio para acelerar os algorimos de AR é aravés do uso de heurísicas, como proposo por Bianchi (2004). As heurísicas podem ser definidas por um especialisa, a parir de conhecimeno a priori sobre o domínio. Oura possibilidade é a uilização de méodos de exração de conhecimeno sobre o domínio para definição da heurísica, inclusive durane o aprendizado, que Bianchi (2004) denominou de méodos de Heurísica a parir de X. Essa écnica pode ser definida como uma maneira de se resolver um PMD uilizando uma função heurísica H : S A R para influenciar a seleção das ações durane o aprendizado. Bianchi (2004) demonsra que uilização de heurísicas em algorimos de AR acelera o aprendizado quando a heurísica é capaz de direcionar a seleção das ações ao objeivo do agene. Do conrário, caso a heurísica não seja adequada, o resulado é um araso no aprendizado, que não impede os algorimos de convergir para uma políica óima A função heurísica H A função heurísica H s, a ) deermina o quão desejável é a seleção da ação a ( quando no esado s. Essa função modifica as esraégias de seleção das ações dos algorimos de AR, deerminando que, para cada esado s, a seleção da ação a sugerida pela heurísica pode direcionar o agene ao seu objeivo. Dessa forma, a função heurísica H represena uma H políica heurísica π ( s ) = a. Uilizando a esraégia de exploração Greedy, descria na equação (2.18), pode-se exemplificar a influência da função heurísica H na seleção das ações modificando essa esraégia Greedy, conforme a equação (3.14):

35 35 arg max ˆ π s = a ( ) β [ F ( s, a ) >< ξh ( s, a ) ] a random se se p > ε p ε (3.14) onde as mudanças em relação à esraégia Greedy da equação (2.18) são: F : S A R é uma esimaiva de qualquer função que represene o valor acumulado máximo de recompensa. Caso ˆ F s, a ) Q ( s, a ), por exemplo, em-se um algorimo similar ao Q-learning; ( H : S A R é a função heurísica propriamene dia; >< é uma função maemáica qualquer (adição, por exemplo), capaz de operar números reais e resular em um conjuno ordenado, que supore a operação de maximização; ξ e β são variáveis reais que ponderam a influência da função heurísica; Embora possa ser uilizada qualquer função que opere números reais em ><, viso que as funções F e H assumem valores reais, Bianchi (2004) diz que, para o caso da operação de adição, a análise dos valores de H que influenciam a seleção das ações pode ser feia de maneira similar à análise feia em algorimos de busca informada. Já para o caso da operação de muliplicação, se a função F for muliplicada por uma heurísica posiiva, não se pode afirmar se a ação aponada pela heurísica erá sua imporância reduzida ou aumenada, pois, caso o valor de F seja negaivo, a ação erá sua imporância diminuída. Bianchi (2004) demonsra que a convergência dessa formulação é garanida e as provas de convergência dos algorimos de AR exisenes coninuam válidas Definição da função heurísica H Embora a função heurísica H influencie apenas a seleção das ações, exisem alguns faores que resringem a definição dos valores dessa função heurísica, que pode ser nãoesacionária ou esacionária, para assegurar a convergência dos algorimos de AR. Para definir esses valores da função heurísica H, Bianchi (2004) definiu a regra mosrada na equação (3.15): H max F ( s, a) F ( s, a ) + η se a = π ( s ) H s a = a (, ) 0 caso conrário (3.15)

36 36 H Onde a = π s ) é a ação sugerida pela políica heurísica e η é um valor pequeno o ( suficiene para que a função heurísica coninue sugerindo a seleção da ação a. No enano, é necessário que limies máximos e mínimos dos valores da função heurísica H sejam esipulados, do conrário, o algorimo pode não convergir caso a políica H heurísica π não coincida com a políica óima π. Bianchi (2004) define o erro L H, causado pelo uso de heurísicas em algorimos de AR na aproximação da função F para uma políica óima π, conforme a equação (3.16): L H H ( s ) = F ( s, π ( s )) F ( s, π ( s )), s S (3.16) Dessa forma, caso a políica heurísica L H é igual a zero e o algorimo converge para H π coincida com a políica óima π, o erro π. No enano, caso a políica heurísica não coincida com a políica óima π, haverá algum erro de aproximação. Resringindo os valores de heurísica enre r min r s, a ) max h min H s, a ) ( h max H π, os valores de recompensa enre ( r, o faor de descono γ enre 0 γ < 1 e definindo a função >< como adição, Bianchi (2004) prova que o erro na aproximação de F é limiado superiormene conforme a equação (3.17): L β β [ h h ] s S s ) ξ, (3.17) H ( max min Bianchi (2004) prova que os valores máximo e mínimo que esimaiva são os valores mosrados nas equações (3.18) e (3.19): r max Qˆ pode aingir max Qˆ ( s, a ) = (3.18) 1 γ r min min Qˆ ( s, a ) = (3.19) 1 γ Considerando ˆ F s, a ) Q ( s, a ), a parir da equação (3.15) é possível deerminar ( os valores h min e h max conforme as equações (3.20) e (3.21), respecivamene: h min = 0 (3.20) h max = max Qˆ a ( s, a ) Qˆ H ( s, π ( s )) +η (3.21) A heurísica erá seu valor máximo quando max Qˆ ( s, a ) e min Qˆ ( s, a ) enconrarem no mesmo esado s. Dessa forma, Bianchi (2004) define h max em função dos se

37 37 valores de recompensa r min e r max, conforme a equação (3.22) e redefine o erro de aproximação de acordo com a equação (3.23): rmax rmin h max = + η (3.22) 1 γ 1 γ r ( ) = ξ max r L min H s + η (3.23) 1 γ Aé o momeno, foi considerada uma função heurísica H não-esacionária, cujos valores H s, a ) são aualizados a cada ieração do algorimo de AR. Enreano, uma ( função heurísica esacionária H s, a ) ambém pode ser definida. De acordo com Bianchi ( (2004), para que o algorimo de AR seja capaz de convergir, os valores da função heurísica H ( s, a ) devem ser anulados ou superados pelos valores da esimaiva Qˆ ( s, a ). É considerado o pior caso aquele em que a políica heurísica sugere ações que resulem sempre nas menores recompensas r min. Bianchi (2004) define o valor máximo de heurísica h max com base na equação (3.19), que deermina o menor valor de recompensa acumulada possível, conforme a equação (3.24). Caso min max rmin h max (3.24) 1 γ r > r, enão h max ambém deve obedecer à equação (3.25) para que o valor H ( s, a ) seja, no mínimo, anulado pelo valor da esimaiva Qˆ ( s, a ). rmax h max (3.25) 1 γ Bianchi (2004) propôs alguns algorimos de AR combinados com a aceleração por heurísicas, denre eles, uma variane do algorimo Q-learning, uilizada nesse rabalho e descria a seguir Q-learning Acelerado por Heurísicas - HAQL Bianchi (2004) propôs uma exensão do algorimo Q-learning, capaz de irar proveio de conhecimeno sobre o domínio para acelerar a convergência desse algorimo, denominada Q-learning Acelerado por Heurísicas (Heurisically Acceleraed Q-learning HAQL). Nesse algorimo, a função F represena a esimaiva de função valor óimo Qˆ e a função maemáica >< represena a operação de adição, enquano as variáveis ξ e β assumem

38 38 valor igual a 1. A esraégia de exploração é uma modificação da esraégia Greedy uilizada no Q-learning, que passa a considerar o valor da função heurísica H na seleção das ações aravés de uma somaória simples, conforme mosra a equação (3.26): [ Qˆ ( s, a ) + H ( s, a )] arg max se p > ε ˆ π ( s ) = a (3.26) arandom se p ε A regra de aualização do algorimo HAQL coninua idênica à regra de aualização do 0 algorimo Q-learning, assim como o cálculo do erro TD(0) δ. A Figura 3.4 apresena o algorimo HAQL, proposo por Bianchi (2004), muio similar ao algorimo Q-learning da Figura 2.3. Para odo esado s e ação a, inicialize Q(s, a) com zero Observe o esado aual s Repia infiniamene: (1) Selecione uma ação a de acordo com a políica heurísica derivada de Q, (eq. (3.26)) (2) Receba a recompensa imediaa r (3) Observe o novo esado s +1 (4) Compue o erro TD(0) conforme a equação (2.17) (5) Aualize a esimaiva da função ação-valor Q * conforme a equação (2.16) (6) Aualize o valor da heurísica H (s, a ), caso H seja não-esacionária (7) s s +1 Figura 3.4 Algorimo HAQL Em comparação com o algorimo Q-learning, o algorimo HAQL difere apenas na esraégia uilizada para a seleção das ações e na aualização dos valores da função heurísica H a cada ieração, caso essa função seja não-esacionária. Esse capíulo apresenou algumas das écnicas exisenes que visam acelerar a convergência dos algorimos de AR, assim como os algorimos de AR que uilizam ais écnicas de aceleração, que foram uilizadas no desenvolvimeno dese rabalho.

39 39 4 FUTEBOL DE ROBÔS O domínio do Fuebol de Robôs apresena um ambiene real, dinâmico e nãodeerminísico. No enano, é um ambiene de horizone finio, onde as omadas de decisão devem aconecer o quano anes, caracerizando a imporância em se uilizar écnicas que aceleram a convergência dos algorimos de AR. Esse ambiene é compleamene observável, mas com incereza, viso que ruídos dos sensores são inerenes ao sisema. 4.1 Arquieura de um sisema simulado Caegoria Simuroso O objeivo da caegoria de simulação Simuroso é permiir que pesquisadores desenvolvam algorimos de conrole e esraégias de sisemas muli-agenes sem a necessidade de um complexo e cusoso sisema real de Fuebol de Robôs. Os pesquisadores são encorajados a desenvolver e esar seus algorimos nessa plaaforma de simulação para, evenualmene, pariciparem da caegoria Miroso, na qual o sisema é exposo às condições de um ambiene real. A caegoria Simuroso oferece duas configurações de ambiene para simulação, o ambiene Simuroso Large League, que simula a caegoria Miroso Large League e o ambiene Simuroso Middle League, que simula a caegoria Miroso Middle League. Esse rabalho apresena as caracerísicas da caegoria Simuroso Middle League sob a qual o sisema de AR foi desenvolvido. A Figura 4.1 apresena a ela do programa servidor do simulador Simuroso. Figura 4.1 O simulador Simuroso

40 40 O programa servidor da caegoria Simuro Middle League simula o campo de jogo, que mede de 220 x 180 cm, a bola (de golfe e de cor laranja) e os cinco robôs de cada ime, em forma de cubos com amanho máximo de 7,5 cm de aresa, conforme as regras da caegoria Miroso Middle League. O servidor do simulador Simuroso disponibiliza as informações de posição e orienação dos robôs e da bola, assim como as exremidades do campo, as delimiações dos gols e das áreas, aravés de variáveis de programação. As informações conidas nessas variáveis são uilizadas pela esraégia de jogo e o algorimo que conrola a movimenação dos cinco robôs do ime. A movimenação dos robôs aconece aravés da aribuição de valores às variáveis de velocidade dos moores de cada robô. Cada equipe desenvolve o próprio código de esraégia e algorimo de conrole, gerando um arquivo de biblioeca dinâmica (dynamiclink library DLL) que é carregado pelo programa servidor. Com as esraégias carregadas no Simuroso, é iniciado um jogo, quem em a duração de dois empos de cinco minuos cada. Segundo a FIRA (2007), a plaaforma de simulação Simuroso foi desenvolvida para reproduzir, o mais fielmene possível, os aspecos e comporamenos físicos de um robô real da caegoria Miroso. Os robôs YSR_A, fabricados pela Yujin Roboics (2007), foram uilizados para a modelagem dinâmica e cinemáica dos robôs viruais. Os robôs YSR_A são doados de duas rodas, cada qual com um moor para acioná-la, simericamene posicionadas perpendicularmene ao eixo cenral do robô. Essa configuração física das rodas dos robôs YSR_A resula em um modelo cinemáico conhecido como diferencial. Embora o simulador Simuroso uilize o modelo físico de um robô real, os moores dos robôs viruais são idênicos e respondem igualmene e de forma linear às variações de velocidade. Não há incereza inerene ao sisema, como por exemplo, ario e escorregameno das rodas em relação ao campo, ruído e imprecisão de posição e orienação dos robôs e da bola. O campo é plano, uniforme e sem imperfeições. No enano, o simulador Simuroso reproduz um ambiene com os problemas ípicos de conrole de robôs móveis. É fornecido um algorimo de conrole simples para a movimenação e posicionameno dos robôs, que calcula as velocidades de cada roda conforme mosram as equações (4.1) e (4.2): 1 vr = vc K θ 3 d a (4.1) 1+ e

41 41 1 vl = vc 0. 3 K θ 3 d a (4.2) 1+ e Onde: v r e v l são, respecivamene, as velocidades das rodas direia e esquerda, cujos valores são limiados enre 0 e 127 pelo algorimo de conrole; v c é um valor fixo que define a velocidade média de deslocameno do robô; d é a disância euclidiana enre a posição do robô e a posição desejada; K a é uma consane que influencia direamene a velocidade angular do robô; θ é a diferença enre o ângulo de direção do robô e o ângulo do robô em relação à posição desejada. Apesar de apresenar oscilação no posicionameno dos robôs, as equações de conrole (4.1) e (4.2) oferecem as condições básicas para pesquisadores que queiram focar os esudos apenas na esraégia do ime, sem que seja necessário desenvolver um algorimo de conrole para a movimenação e posicionameno dos robôs. 4.2 Arquieura de um sisema real Caegoria Miroso A caegoria Miroso propõe aos pesquisadores o desafio de se desenvolver uma arquieura complea de um ime de Fuebol de Robôs para auar em um ambiene real. Essa caegoria possui rês configurações de ambiene, Miroso Large League, Miroso Middle League, e Miroso Small League. As caegorias diferem apenas nas dimensões do campo e no número de robôs por ime. Esse rabalho foi desenvolvido sob a arquieura e as regras da caegoria Miroso Small League. A arquieura proposa pela FIRA para a caegoria Miroso Small League pode ser visa na Figura 4.2. O campo mede 150 x 130 cm e, como já descrio na seção anerior, os robôs êm o amanho limiado por um cubo com aresas de amanho máximo de 7,5 cm. O sisema de cada ime é composo por uma câmera posicionada acima do campo para capurar a imagem, um sisema de visão compuacional para o reconhecimeno dos objeos, um sisema de esraégia do ime, um sisema de navegação e conrole e rês robôs, que recebem informações provindas do compuador, por radiofreqüência, aravés de um proocolo de comunicação.

42 42 Figura 4.2 Arquieura proposa pela FIRA para a caegoria Miroso Small League A seguir, são apresenados alguns módulos desenvolvidos para resolver os problemas de visão compuacional, esraégia, navegação e conrole, além de alguns rabalhos que descrevem caracerísicas de projeo de robôs para a caegoria Miroso Small League Sisemas de visão compuacional O sisema de visão compuacional de um ime de fuebol de robôs da caegoria Miroso deve ser capaz de, a parir da imagem do campo ineiro capurada pela câmera, reconhecer odos os objeos perencenes ao domínio do Fuebol de Robôs. Esses objeos são: a bola, que na imagem aparece represenada pela figura geomérica de um círculo preenchido pela cor laranja, e os robôs, do próprio ime e do ime adversário. Cada robô deve ser doado de uma eiquea colorida para que possa ser feia a disinção enre os imes. De acordo com as regras da caegoria Miroso, cada robô deve possuir uma área mínima de 12,25 cm 2, independene da forma geomérica, preenchida por uma cor, azul ou amarela, para represenar o ime. A Figura 4.3 exemplifica um modelo de eiquea que pode ser uilizado para a disinção dos imes da caegoria Miroso. Figura 4.3 Eiquea de um robô da caegoria Miroso Pode-se uilizar uma cor secundária para diferenciar robôs do mesmo ime, desde que essa cor secundária não seja a cor que represena o ime adversário, a cor da bola, a cor branca ou a cor prea.

43 43 Dadas as resrições imposas pela regra da caegoria Miroso, para paricipar das compeições cada equipe desenvolve seu próprio algorimo para resolver o problema de reconhecimeno dos objeos. Esse algorimo deve ser rápido o suficiene para não compromeer o desempenho do sisema em empo real e olerane a ruídos e variação de inensidade luminosa. Sisemas de visão compuacional para o Fuebol de Robôs podem considerar apenas informações de cor. Bianchi e Reali-Cosa (2000) propuseram um algorimo que percorre a imagem e, ao deecar um pixel de cor especificada, raça um segmeno de rea inerno para os pixels de mesma cor no senido horizonal. A parir do pono médio desse segmeno horizonal é raçado, novamene, um segmeno inerno de rea para os pixels dessa mesma cor especificada, mas no senido verical. O pono médio desse segmeno verical é, enão, considerado o cenro do objeo da cor especificada. Esse algorimo foi desenvolvido visando o reconhecimeno de objeos em forma de círculo. A proposa de Bianchi e Reali-Cosa (2000) foi esendida no rabalho de Marins, Tonidandel e Bianchi (2006a). A varredura da imagem é feia por amosragem, onde, a cada linha, são analisados os pixels disanes em um número configurável um do ouro, ao invés de analisar odos os pixels de uma linha. Essa amosragem diminui consideravelmene o empo de processameno. Também é feio um processameno em cruz onde os segmenos de rea horizonal e verical são raçados várias vezes, de acordo com um número de vezes configurável. Dessa forma, não apenas objeos represenados por círculos podem er seus cenros deerminados, mas odo e qualquer objeo, independene da forma geomérica pela qual ele é represenado na imagem. O rabalho de Griani, Gallinelli e Ramírez (2000) ambém se baseia apenas em informações de cor, assim como o rabalho de Weiss e Hildebrand (2004), que uiliza essas informações de cor para reduzir a quanidade de informações conida em cada quadro de imagem aravés de um filro de ponos de relevância. Ouros sisemas consideram a forma geomérica dos objeos para deecá-los na imagem, écnica geralmene uilizada em sisemas de visão local. O rabalho de Gonner, Rous e Kraiss (2000), por exemplo, deeca a bola aravés de sua forma geomérica projeada na imagem, um círculo, mas ainda uiliza as informações de cor para reconhecer os robôs.

44 44 Independene da écnica uilizada para resolver o problema, o sisema de visão compuacional deve ser capaz de deerminar posição e orienação dos robôs e posição da bola com a máxima precisão e mínimo empo de processameno possível, pois o sucesso do sisema de esraégia nas omadas de decisão depende direamene das informações vindas do sisema de visão compuacional Sisemas de esraégia Responsável pelo comporameno do ime, o sisema de esraégia deermina as ações de movimenação dos robôs de um ime baseando-se na observação de posicionameno aual dos robôs e da bola, fornecido pelo sisema de visão compuacional. O sisema de esraégia deve ser capaz de omar as decisões por odos os robôs de um ime em poucos milissegundos para que o sisema possa funcionar em empo real. Diversas écnicas de IA são aplicadas no desenvolvimeno de um sisema de esraégia para o Fuebol de Robôs, écnicas as quais deerminam a complexidade da esraégia. Essas écnicas podem ser desde omadas de decisões simples, aé écnicas de aprendizado de máquina, onde o sisema aprende a ineragir com o ambiene, seja por experimenação, por observação ou ainda recebendo exemplos de como auar nesse ambiene. As abordagens mais comuns na lieraura são sisemas de esraégia inegrados a sisemas de navegação e conrole, responsáveis pela deerminação das rajeórias dos robôs e correção do erro na execução dessas rajeórias. Faria, Teizen e Romero (2004) desenvolveram uma esraégia baseada em campos poenciais para deerminar as ações de movimenação dos robôs uilizando o ambiene de simulação SimuroSo. Dessa forma os robôs são capazes de alcançar um pono final desejado, que geram um campo poencial de aração, desviando de obsáculos, que geram campos poencias de repulsão. Han e al. (2002) apresenam uma esraégia hierárquica de quaro camadas. A camada de mais baixo nível esá dividida em comporamenos, programados manualmene com funções específicas de aacane, defensor, goleiro e uma função que represena o comporameno de deslocar-se para uma área livre para receber um passe. A camada inermediária acima da camada de mais baixo nível é responsável por selecionar o comporameno de cada robô, considerando algumas percepções do esado aual, como posição aual do robô e da bola, por exemplo. A camada inermediária mais acima, por sua

45 45 vez, modifica a prioridade de cada robô para servir de referência na próxima escolha dos comporamenos dos robôs. Por úlimo, a camada de mais alo nível fornece informações de possíveis problemas mecânicos e siuacionais para a camada de mudança de prioridade. A esraégia ainda cona com quaro diferenes formações de posicionameno dos robôs em relação ao campo. A abordagem de Egly, Novak e Weber (2004) uiliza lógica fuzzy como a base de um sisema hierárquico de rês camadas para a omada de decisões. Dessa maneira é possível dividir o objeivo global, vencer o jogo, em arefas mais simples. A camada mais acima, chamada Sraegy, define o comporameno principal (ofensivo ou defensivo) para o ime, visando aingir o objeivo global. A camada inermediária, chamada Task Disribuion, aribui o papel de cada robô baseada no comporameno principal definido pela camada Sraegy. A camada mais abaixo, chamada Acion, depende do papel de cada robô. As ações possíveis represenam comporamenos como, por exemplo, Chuar no gol. Esse sisema funciona como uma máquina de esados onde as ransições de esado são baseadas nas regras do sisema fuzzy. Whieson e al. (2005) apresenam uma comparação de algumas écnicas para evolução de robôs que jogam fuebol. Uma das écnicas, por exemplo, é composo por uma árvore de decisão onde cada nó represena uma rede neural responsável por uma arefa, como passe ou inercepação, por exemplo. Oura écnica comparada por Whieson e al. (2005) uiliza o conceio de Aprendizado em Camadas inroduzido por Sone (1998). As esraégias descrias, invariavelmene, uilizam absração de informações de observação do ambiene e de ações de comporameno, faciliando a inserção de conhecimeno sobre o domínio. Tais absrações ambém ornam o sisema mais rápido e eficiene, pois o sisema de omada de decisão uiliza informações de mais alo nível sobre o ambiene e em o número de comporamenos possíveis reduzido. Enão, os sisemas de esraégia visam selecionar as melhores movimenações para os robôs de um ime. Enreano, o sucesso dessa omada de decisões depende ano da precisão das informações do sisema de visão compuacional, como de um sisema de navegação e conrole.

46 Sisemas de navegação e conrole Sisemas de navegação e conrole devem ser capazes de guiar os robôs por caminhos que resulem em posição e orienação finais definidas pelo sisema de esraégia, com o mínimo de erro, além de eviar colisões com os robôs do ime adversário. Novak e Seyr (2004) propuseram um sisema de planejameno de rajeória baseado no modelo cinemáico diferencial de um robô da caegoria Miroso. O sisema é dividido em camadas. A camada de alo nível calcula a rajeória, a qual é composa por ponos de inersecção. São calculadas, enão, as velocidades linear e angular do robô. A camada de baixo nível conrola a velocidade dos moores, garanindo que a rajeória desejada seja seguida. Dois algorimos são uilizados para deerminar a rajeória. O primeiro algorimo gera uma rajeória aé deerminada posição sem preocupar-se com a orienação do robô ao aingir a posição desejada. O segundo algorimo uiliza o primeiro algorimo para calcular um pono de inersecção e, em seguida, raça um arco circular aé a posição final desejada. Dessa forma pode-se alcançar a posição final com a orienação desejada. Segundo Novak e Seyr (2004), o sisema em um cuso compuacional baixo e é simples de ser implemenado. O rabalho de Kim, Park e Kim (2001) propõe um méodo de navegação que uiliza funções não-lineares de segunda ordem. O ajuse do raio da circunferência que o robô deve seguir e a direção do obsáculo a ser desviado resula em um sisema que evia colisões com obsáculos, mesmo móveis, e alcança a posição final desejada. Seyr e Jakubek (2005) abordam o problema de seguir uma rajeória definida com um sisema de conrole prediivo não-linear baseado no algorimo de Gauss-Newon, combinado com um sisema de conrole linear modelado em espaço de esados para o modelo cinemáico diferencial, demonsrando a imporância de um sisema de conrole capaz de considerar as esimaivas de posição fuuras. Em Seyr, Jakubek e Novak (2005) o mesmo problema de conrole foi abordado uilizando-se redes neurais para o sisema de conrole prediivo nãolinear Robôs da caegoria Miroso Sisemas de navegação e conrole são geralmene desenvolvidos considerando o modelo cinemáico e/ou dinâmico dos robôs uilizados por cada equipe. O modelo cinemáico mais uilizado pelas equipes é o modelo diferencial, considerando-se a resrição de amanho imposa pela regra da caegoria Miroso e dada a sua facilidade de implemenação, cujo

47 47 modelo maemáico facilia o desenvolvimeno do algorimo de conrole. Esse modelo cinemáico define um robô simérico, com duas rodas, cada qual com seu moor de acionameno, capaz de aacar a bola uilizando ano sua pare fronal quano a pare raseira. Caracerísicas mecânicas desejáveis para robôs volados às compeições de fuebol são baixo peso e baixo cenro de gravidade, além de alo orque e bom ario com a superfície para eviar derrapagens e er aceleração e velocidade suficienes para acompanhar o dinamismo de uma parida. A pare elerônica de um robô deve ser capaz de receber dados do compuador via radiofreqüência, inerprear esses dados, acionar os moores e conrolar a velocidade dos mesmos. A recepção dos dados deve ser rápida e robusa o suficiene para não ornar-se o gargalo de empo do sisema, além de ser imune a ruídos. Todo o circuio deve ser projeado minimizando o consumo oal de energia, viso que a baeria deve fornecer a energia consumida pela pare elerônica e respeiar as dimensões máximas imposas pela regra. Novak (2004) descreve um robô, denominado Roby-Go, desenvolvido para a caegoria Miroso. São ciadas algumas caracerísicas desejáveis imporanes, como um único eságio de engrenagens de redução e moores com encoders de ala resolução. O robô é modular e em a pare elerônica responsável pela eapa de poência dos moores separada da unidade de conrole para possibiliar modificações fuuras em sua arquieura. A unidade de conrole é composa por um microconrolador operando a 20 MHz e recebe os dados do compuador aravés de um módulo de radiofreqüência que opera em uma freqüência de 433 MHz. Essa unidade de conrole gera sinais PWM (Pulse Widh Modulaion) para o conrole de roação dos moores e recebe as informações dos encoders inernos dos moores para efeuar o conrole de velocidade, cujas equações da malha de conrole são desenvolvidas com base no modelo cinemáico diferencial do robô. A inegração dos módulos é feia aravés de uma rede CAN (Conroller Area Nework). O robô Tinyphoon, desenvolvido por Novak e Mahlknech (2005), é baseado na arquieura do robô Roby-Go, uilizando, inclusive, a mesma malha de conrole dos moores. A principal diferença se enconra na pare elerônica, a qual possui um módulo de visão local, composo por uma câmera de vídeo e um DSP (Digial Signal Processor) para ornar o robô compleamene auônomo, sem depender de um compuador exerno para enviar informações. Além do módulo de visão local, ouras melhorias foram feias, como a comunicação de dados

48 48 com o compuador, que é realizada a uma freqüência de 2,4 GHz e a uma axa de 1 Mbps. A unidade de conrole uiliza um microconrolador operando a 40 MHz. Os robôs desenvolvidos para paridas de fuebol são os auadores de um sisema auônomo de conrole com objeivo definido (vencer uma parida de fuebol). O projeo desses auadores pode envolver as mais variadas ecnologias e uilizar qualquer solução de hardware e sofware, desde que sejam respeiadas as regras imposas pela caegoria Miroso. Esse capíulo descreveu o domínio do Fuebol de Robôs e apresenou uma breve revisão bibliográfica sobre algumas abordagens para solucionar os problemas de visão compuacional, esraégia, navegação, conrole e projeo de robôs móveis para uma arquieura real de Fuebol de Robôs da caegoria Miroso. Com base nessas informações, o próximo capíulo descreve os sisemas de visão compuacional, navegação e robôs, desenvolvidos para que os algorimos de AR pudessem ser aplicados no domínio do Fuebol de Robôs real.

49 49 5 O TIME DE FUTEBOL DE ROBÔS DESENVOLVIDO Para que o objeivo desse rabalho fosse aingido, foi necessário o desenvolvimeno de um ime compleo de Fuebol de Robôs da caegoria Miroso. A seguir, são descrios os sisemas de visão compuacional, navegação, conrole, os robôs móveis e o proocolo de comunicação enre robôs e compuador. 5.1 O sisema de visão compuacional desenvolvido Feias as considerações iniciais sobre sisemas de visão compuacional para a caegoria Miroso no capíulo anerior, o sisema de visão compuacional desenvolvido, descrio em Marins, Tonidandel e Bianchi (2006b), segue as resrições imposas pela regra da caegoria Miroso e resolve os problemas de deecção e reconhecimeno dos objeos A Transformada de Hough A Transformada de Hough (TH), segundo McLaughLin e Alder (1998), é uma écnica de segmenação de imagens muio conhecida, uilizada para a deecção de objeos a parir do ajuse de modelos de uma classe de objeos. Essa écnica exige que uma classe de objeos seja deerminada, a qual deve ser capaz de descrever odas as possíveis combinações de valores dos parâmeros que definem o objeo referido. Enreano, imagens capuradas em empo real, como as uilizadas no domínio do Fuebol de Robôs, apresenam ruídos, os quais não são modelados, nem olerados pela paramerização da classe de deerminado objeo. A paramerização de uma classe de objeos define a forma desse objeo, porano, variações de cor na imagem, ou aé mesmo nos objeos não afeam o desempenho e a eficiência da TH. As informações relevanes para a TH, para que seja possível deecar objeos em uma imagem, são as bordas desses objeos enconradas nessa imagem. Logo, a TH exige um préprocessameno da imagem, o qual deve ser capaz de exrair as bordas dos objeos conidos nessa imagem. Para esse rabalho o círculo foi escolhido como a forma geomérica a ser paramerizada. A moivação em reconhecer círculos se dá pelo fao que são uma esruura geomérica muio comum no domínio do Fuebol de Robôs, onde odos os objeos perencenes a esse domínio podem ser represenados por círculos. Por exemplo, a bola é uma esfera, cuja projeção na imagem capurada será represenada por um círculo. Para a disinção

50 50 enre imes são uilizadas eiqueas com as cores pré-deerminadas pela regra, como descrio aneriormene. O modelo de eiquea uilizado nesse rabalho segue o padrão mosrado na Figura 4.3, onde os círculos possuem o mesmo diâmero da bola uilizada em um jogo de fuebol de robôs, disposos a 45 graus, endo como referência o eixo x, que é a direção da frene do robô. Círculos são paramerizados pela ripla (x c, y c, r), a qual define um conjuno de ponos eqüidisanes em r do pono cenral represenado pela coordenada caresiana (x c, y c ). Essa relação de disância é expressa pelo Teorema de Piágoras, em coordenadas caresianas, conforme a equação (5.1): xc ) + ( y yc ) = (5.1) ( x r Enreano, segundo Hearn e Baker (1997), esse não é o melhor méodo para paramerizar um círculo. Pode-se paramerizar um círculo uilizando o plano de coordenadas polares, resulando nas equações (5.2) e (5.3): x = xc + r cosθ (5.2) y = y + c r senθ (5.3) Dessa maneira, com valores conhecidos para a ripla (x c, y c, r), variando-se o ângulo θ por odo inervalo de 0 a 360 graus, pode-se raçar a circunferência complea. Mas o objeivo da TH é jusamene o conrário do que as equações (5.2) e (5.3) mosram, é deerminar os parâmeros da ripla (x c, y c, r) a parir de um círculo, pois a única informação provinda da imagem são os ponos de borda, que podem ou não fazer pare da borda desse círculo. O espaço de parâmeros, ou hisograma da imagem, ambém chamado de espaço de Hough, é ridimensional. A necessidade de efeuar uma busca pelos valores dos parâmeros da ripla (x c, y c, r) em um espaço ridimensional orna a écnica da TH compuacionalmene complexa. Para resolver esse problema e aumenar a robusez do méodo original, várias écnicas foram proposas, como TH com segmenação e análise de regiões de ineresse, TH Probabilísica e TH com busca exausiva combinada com regras de parada, de acordo com Sricker e Leonardis (1995). Como o foco da análise do problema é a aplicação da TH no domínio do Fuebol de Robôs, onde os objeos esão consanemene se movimenando, mas apenas em duas dimensões, não exisirá variação de profundidade dos objeos na imagem, o que possibilia

51 51 deerminar um valor fixo para o raio r. Logo, o espaço de parâmeros orna-se bidimensional e compuacionalmene viável para uma aplicação em empo real, pois o espaço de busca ornase bidimensional. Esse espaço de parâmeros, com raio r fixo é, enão, represenado pela upla (x c, y c ). Deecar círculos de raio fixo em uma imagem que coném apenas ponos de borda de coordenadas (x, y) uilizando a TH consise em deerminar quais desses ponos perencem à borda do círculo com cenro em (x c,y c ) e raio r. O algorimo da TH deermina para cada pono de borda (x, y) da imagem um conjuno de possíveis cenros (x c, y c ) no espaço de Hough, conjuno o qual será definido ieraivamene pela variação do ângulo θ, modificando as equações (5.2) e (5.3), resulando nas equações (5.4) e (5.5): x c y c = x r cosθ (5.4) = y r senθ (5.5) A Figura 5.1 demonsra a execução do algorimo descrio por Pisori, Pisori e Cosa (2005) para rês ponos da borda de um círculo da imagem à esquerda, enquano o respecivo espaço de Hough gerado é mosrado à direia. Os rês círculos de raio r desenhados no espaço de Hough, a parir de rês ponos (x, y) de borda do círculo de cenro (x c, y c ) da imagem, se inersecam em apenas um pono, jusamene o pono cenral de mesmas coordenadas (x c, y c ) do círculo presene na imagem. Figura 5.1 Exemplo de geração de ponos no espaço de Hough Cada pono de borda da imagem gera um círculo no espaço de Hough e cada pono de borda desse círculo no espaço de Hough recebe um voo, o que significa que esse pono em seu valor incremenado. Quano maior o número de voos recebidos por um pono, maior a probabilidade de esse pono represenar o cenro de um círculo. Esses ponos de maior probabilidade, ou com maior número de voos, são os máximos relaivos do espaço de Hough. O sisema de visão compuacional implemenado possui basicamene see eapas de processameno, que são elas: aquisição da imagem, subração de fundo, conversão de cores

52 52 para escala de cinza, aplicação do filro de bordas proposo por Canny (1986), geração do espaço de Hough, deerminação de ponos com ala probabilidade de serem cenros de círculos na imagem e reconhecimeno dos objeos (robôs e bola) Sisema de aquisição de imagens O sisema de aquisição de imagens consise em uma câmera analógica com saída de vídeo composo e uma placa de aquisição de vídeo capaz de adquirir aé 30 quadros por segundo a uma resolução máxima de 640 x 480 ponos e profundidade de 24 bis de cores Subração de fundo Como ciado aneriormene, apenas as bordas da imagem são relevanes para TH. Cada pono de borda represena uma ieração do algorimo da TH. Para oimizar o empo desse algorimo uilizou-se um méodo simples de subração de fundo, descrio por Piccardi (2004), que calcula a diferença enre a imagem capurada e uma imagem do fundo, sem os objeos móveis. A imagem de fundo é aualizada ao longo do empo, segundo o méodo conhecido como Running Average. Essa aualização aconece de acordo com a equação (5.6): B = F + (1 ) B i+ 1 α i α i (5.6) A imagem de fundo é represenada por B, enquano a imagem capurada é represenada por F. Uma axa de aprendizado α é uilizada para deerminar o quão rápido objeos esáicos se ornam pare da imagem de fundo. Apesar de simples, esse méodo é eficaz para essa aplicação, porque o fundo não sofre alerações significaivas. O resulado é uma imagem que coném apenas os objeos móveis, que irá resular apenas em bordas relevanes, as bordas dos objeos, para a TH. O resulado da subração de fundo pode ser viso na figura 5.2. Figura 5.2 Exemplo de subração de fundo

53 Conversão de cores para escala de cinza Imagens coloridas demandam um maior empo de processameno, pelo fao de possuírem rês canais de informação de cor. Como a TH não necessia de informações de cor, para oimizar o empo de processameno do sisema a imagem é converida para escala de cinza. A imagem resulane coném apenas um canal de informação referene à variação de iluminação, a qual é suficiene para a deerminação das bordas na imagem O filro de bordas Canny Exisem diversas écnicas capazes de exrair informações de bordas em uma imagem, como as descrias por Forsyh e Ponce (2003, p.165) e por Ziou e Tabbone (1998). O presene rabalho uiliza uma écnica muio conhecida para deecção de bordas, o filro Canny, proposo por Canny (1986), para a deecção de bordas da imagem, resulando em uma imagem binária. Esse filro foi escolhido por se raar de um filro óimo linear. A Figura 5.3 demonsra o resulado da deecção de bordas com o filro Canny a parir de uma imagem resulane da subração do fundo, converida para escala de cinza. Figura 5.3 Resulado da aplicação do filro Canny Geração do espaço de Hough A parir da imagem binária resulane do filro Canny pode-se gerar o espaço de Hough. A geração do espaço de Hough a parir do algorimo descrio por Pisori, Pisori e Cosa (2005) é eficaz, mas não é eficiene. Apesar de gerar o espaço de Hough correamene, esse algorimo efeua diversas ierações redundanes para gerar os ponos de possíveis cenros de círculos. Essa redundância aconece no laço referene à variação do ângulo θ. O algorimo gera ponos com precisão de várias casas decimais, além de gerar 360 ponos de possíveis cenros para cada pono de borda enconrado. Enreano, as imagens digiais são quadriculares (conhecidas como raser images), ou seja, sua precisão de ponos (resolução) é

54 54 represenada por números ineiros, onde cada pono é conhecido como pixel. Logo, a precisão de casas decimais é algo irrelevane para a deerminação de coordenadas de ponos. Ao desconsiderar a precisão de casas decimais, noa-se que deerminados inervalos de valores de θ irão resular em valores iguais de ponos de coordenadas (x, y), ou seja, um mesmo pixel, caracerizando a redundância. Para resolver o problema de redundância observado, uilizou-se um algorimo de desenho de círculos proposo por Bresenham (1965), ambém descrio em Hearn e Baker (1997). Esse algorimo ira vanagem da simeria de ponos em um círculo. Basicamene o algorimo deermina os ponos de apenas um ocane e, por simeria, em empo consane, deermina os ponos dos ouros see ocanes, não havendo repeição de ponos já desenhados. Dessa maneira é possível er um algorimo de geração do espaço de Hough funcional, para que possa ser uilizado em aplicações em empo real, oimizando o empo de processameno necessário. Com o espaço de Hough gerado, deecar possíveis cenros (x c, y c ) de círculos de raio fixo r em uma imagem se resume a enconrar os ponos de máximos relaivos, os mais voados, nesse espaço de Hough. Segundo McLaughLin e Alder (1998), exisem diversas écnicas que foram desenvolvidas com o propósio de resolver o problema de inerpreação do espaço de Hough. Essa eapa é a que apresena maiores problemas na deecção de círculos, pois como odo e qualquer pono de borda gera um conjuno de ponos (círculo) que são voados no espaço de Hough, pode haver voos falsos, ocasionando em máximos relaivos falsos. Um pono recebe um voo quando alguma circunferência gerada por um pono de borda passa por ele. Podem ocorrer, ainda, máximos relaivos cuja proximidade de suas coordenadas seja de poucos pixels. Pelo fao de se rabalhar com imagens quadriculares, essa proximidade pode represenar ponos com ala probabilidade de serem cenros de um mesmo círculo. Ouro problema é deerminar dinamicamene o número de voos mínimo para que se possa considerar al pono como sendo o cenro de um círculo. Ao mesmo empo em que o espaço de Hough é gerado, ou seja, a cada ieração do algorimo, é verificado se o pono voado ulrapassou um deerminado número de voos mínimo, definido previamene. Se al pono ulrapassou esse limiar, ele é armazenado, inserido em um veor, uma única vez. Ao final da geração do espaço de Hough, o parâmero de número de voos de cada pono armazenado no veor é aualizado, pois esse pono pode er recebido mais voos após er ulrapassado o limiar de número de voos mínimo.

55 Deerminação de círculos a parir do espaço de Hough Para garanir que odos os ponos que represenam cenros reais de círculos na imagem sejam inseridos no veor, é definido um baixo número de voos mínimo. A aplicação da subração de fundo resula em uma saída do filro Canny com poucas bordas além daquelas dos objeos que se preende reconhecer. Mas, pelo fao de se er um baixo número de voos mínimo, haverá ponos referenes a falsos máximos relaivos presenes nesse veor. O espaço de Hough gerado para uma imagem de ese pode ser obesrvado na Figura 5.4, na qual pode ser verificada, ambém, a imporância da subração de fundo para eviar que falsos máximos relaivos sejam gerados. Figura 5.4 O espaço de Hough O primeiro passo para separar os falsos máximos relaivos de ponos de cenros de círculo reais é a ordenação dos ponos pelo número de voos recebidos com o algorimo quicksor. Após a ordenação, o pono máximo global, presene na primeira posição do veor, é considerado um cenro de círculo. O pono que possui o segundo valor máximo é comparado com o pono anerior. Para al comparação é calculada a disância euclidiana enre os ponos. Um ouro parâmero manual deermina se pode haver sobreposição de círculos ou não. Caso possa haver sobreposição, enão a disância euclidiana deve ser maior ou igual ao valor do raio r. Caso a sobreposição não seja uma caracerísica desejável, enão a disância euclidiana deve ser maior ou igual a 2r. Caso essas resrições sejam saisfeias, enconrou-se um novo pono de cenro de círculo. O algorimo coninua suas ierações aé que seja enconrado o número máximo de círculos deerminado, ou caso odos os ponos do veor sejam verificados. Dessa forma, é feia uma busca exausiva apenas pelos ponos que excederam o número de voos mínimo, endo

56 56 como criério de parada o número máximo de círculos a serem enconrados, resulando em um veor com ponos disanes o suficiene para poderem represenar círculos disinos. Cada pono que represena um cenro de círculo é inserido em um novo veor, o veor de cenros. Apesar de aumenar a cereza sobre a possibilidade de um pono desse veor de cenros represenar um cenro de círculo real na imagem, um número de voos mínimo muio baixo ainda pode resular em falsos máximos relaivos no veor. O imporane é er um número de voos mínimo capaz de garanir que odo pono que represena um círculo real eseja presene no veor de cenros e que cada círculo seja represenado por um e somene um pono presene nesse veor Reconhecimeno dos objeos O veor de cenros é uilizado para reconhecer os objeos. Essa eapa é a única que considera informações de cor e iluminação da imagem, pois para reconhecer os objeos com sucesso é necessário disingui-los, o que pode ser feio somene a parir das cores principais, pré-deerminadas pela regra, diferenes para cada ime, assim como as cores secundárias, para diferenciar os robôs de um mesmo ime. Para a calibração das cores é uilizado o sisema já exisene da equipe de Fuebol de Robôs do Cenro Universiário da FEI, proposo por Bianchi e al. (2004). O problema pode ser descrio como uma árvore, onde a raiz é um pono do veor de cenros de cor primária, que represena um ime, endo como nós filhos os ouros ponos do veor de cenros. Um nó, ou seja, um pono do veor de cenros é filho da raiz caso a disância enre esse pono e o pono da raiz seja pequena o suficiene para considerar que não há espaço enre as duas circunferências. Ao percorrer o veor de cenros, é deerminada a primeira raiz para se resolver o problema, verificando se esse cenro é de um círculo cuja cor seja primária e ambém se esse cenro já perence a algum objeo reconhecido. Com a raiz deerminada, a árvore é consruída, deerminando seus filhos. Depois de consruída a árvore, é feia uma busca em largura (viso que a árvore em apenas um nível) para verificar se exisem nós filhos válidos, ou seja, com alguma cor secundária, que represena um dos robôs do ime. A resrição do problema esá no fao de que cada raiz pode er apenas um nó filho válido. Caso a resrição seja saisfeia, é reconhecido o robô de cor primária represenada pela raiz e cor secundária represenada por esse nó filho e

57 57 esses ponos passam a represenar um objeo já reconhecido. A Figura 5.5(a) exemplifica uma árvore com o pono presene na posição 0 do veor e seus nós filhos. Essa árvore irá resular no reconhecimeno de um robô com a cor primária represenada pela raiz e cor secundária do nó filho cuja posição no veor é cinco, pois os ouros nós filhos não represenam nenhuma oura cor secundária. Figura 5.5 Exemplo de árvores com raízes de cor primária e nós filhos (círculos próximos) Tendo as informações de cenro de cada círculo da eiquea e a disposição dos círculos conhecida, o algorimo deermina a posição global (x, y) do robô na imagem e seu ângulo de direção em relação ao eixo x. Enreano, pode aconecer de robôs esarem próximos, ou aé mesmo encosados, fazendo com que uma raiz enha mais de um nó filho com alguma cor secundária, como a árvore da Figura 5.5(b). Nesse caso nenhum robô é reconhecido e os ponos do veor de cenros ainda não represenam objeos reconhecidos. O algorimo coninua a percorrer o veor de cenros aé enconrar oura raiz. Ao deerminar uma nova raiz, oura árvore é consruída. Não há criério de parada do algorimo, ele percorre o veor de cenros por rês vezes consruindo árvores com raízes e nós filhos que não represenam um objeo já reconhecido. O moivo pelo qual o algorimo é execuado por rês vezes é para resolver os problemas em que alguma raiz possua mais de um nó filho de cor secundária. Pela disposição dos círculos nas eiqueas dos robôs, observou-se que o pior caso seria uma raiz com rês nós filhos válidos, como pode ser observado na Figura 5.6. Figura 5.6 Raiz com rês nós filhos válidos Na primeira ieração, raízes com mais de um nó filho não são reconhecidas como nenhum objeo. Na segunda ieração, as raízes que inham dois nós filhos válidos são

58 58 resolvidas, pois uma nova árvore é consruída e um dos nós filhos da ieração anerior não fará mais pare da nova árvore por er sido resolvido na primeira ieração e já represenar um objeo. Por fim, a erceira ieração do algorimo resolve o problema de uma raiz com rês nós filhos válidos. O reconhecimeno da bola é uma exceção. Como a bola é represenada por um círculo de cor laranja e essa cor não pode ser uilizada em nenhum ouro objeo, odo e qualquer círculo cuja cor seja laranja é considerado uma bola. Não há necessidade de se consruir uma árvore de busca de soluções para reconhecer bolas. Poderia ser implemenado um criério de parada quando odos os objeos fossem deecados, mas é desejável que o sisema seja capaz de reconhecer mais de uma bola, assim como um número maior ou menor de robôs presenes no campo. Ouro criério de parada possível seria quando odos os ponos do veor fossem reconhecidos como objeos, diminuindo, em algumas siuações, o número de ierações do algorimo para resolver as resrições. No enano, por exisirem falsos máximos relaivos no veor, não se pode reconhecer odo círculo presene no veor como um objeo. Essas duas eapas, de deerminação de cenros de círculos e reconhecimeno dos objeos, ornam a inerpreação do espaço de Hough olerane a ruídos, robusa a falsos máximos relaivos e eficaz no reconhecimeno de odos os objeos Resulados obidos A implemenação da TH foi feia em linguagem C++ e uilizou-se a biblioeca de visão compuacional OpenCV (INTEL, 2006). Os resulados apresenados foram obidos em um compuador equipado com um processador Inel Penium 4 Hyper Threading, com velocidade de processameno de 3,2 GHz. O programa foi execuado em sisema operacional Windows XP, configurado para prioridade em empo real. Como a inenção é uilizar a TH para uma aplicação em empo real, a avaliação de desempenho considera como sendo o empo máximo aceiável para a execução do algorimo o inervalo de empo de uma capura de imagem. Os sisemas de capura comumene uilizados no fuebol de robôs, como o descrio nesse rabalho, são capazes de adquirir imagens a 30 quadros por segundo. Logo, a janela de empo máxima disponível para processameno é de 33 milissegundos. Os empos descrios a seguir, na Tabela 5.1, foram obidos pela média dos

59 59 empos observados nas 30 imagens reais capuradas, nas duas resoluções uilizadas, 640 x 480 pixels e 320 x 240 pixels. O empo foi medido pela média da execução das eapas em um laço de 500 vezes para assegurar uma medição de empo mais precisa. Os parâmeros configuráveis, ais quais, limiares de hiserese do filro Canny, raio da circunferência e número de voos mínimo, foram fixados igualmene para odas as imagens esadas, salvo alerações para as diferenes resoluções. Tabela 5.1 Tempos de execução do sisema de visão Função Tempo de execução (ms) Tempo de execução (ms) Subração de fundo 0,8412 5,1667 Conversão de cor + filro Canny 1,6163 7,8435 Geração do espaço de Hough 1,4621 6,3683 Deerminação de cenros de círculo 0,0334 0,0267 Reconhecimeno dos objeos 0,0031 0,0023 Toal 4, ,4083 Todas as eapas, em ambas as resoluções, apresenaram desvio padrão da ordem de A diferença enre a soma das eapas e o empo oal é pequena. Pode-se considerar al diferença como erro de arredondameno. Qualquer que seja a resolução, o sisema implemenado é capaz de reconhecer os objeos, não apenas em empo real, mas disponibilizando, no mínimo, 13 milissegundos da janela de empo máxima disponível para ouros processamenos, como esraégia e conrole dos robôs. Como já ciado aneriormene, para efeuar os eses, odos os parâmeros ajusáveis do sisema foram fixados e uilizados igualmene em odas as imagens. Para imagens com resolução de 640 x 480, o raio r foi fixado em 8 pixels, enquano o número de voos mínimo fixado em 16. Já para imagens com resolução de 320 x 240, o raio r foi fixado em 4 pixels e o número de voos mínimo em 10. Os limiares de hiserese do filro Canny foram manidos fixos para odas as imagens, nas duas resoluções, em valores de 75 para o limiar baixo e 150 para o limiar alo. Tais valores foram esipulados empiricamene, após algumas observações. A inenção foi deerminar os limiares do filro Canny e o número de voos mínimo baixos o suficiene para que odos os ponos que represenassem cenros reais na imagem fossem deecados. A Figura 5.4 mosra que muios ouros ponos, referenes a falsos máximos relaivos são gerados no espaço de Hough. Mesmo assim, o sisema mosrou-se robuso,

60 60 deecando odos os objeos (seis robôs, rês de cada ime, e uma bola) presenes nas 30 imagens uilizadas nos eses, em ambas as resoluções. No enano, após os eses observou-se que exise um caso muio específico, praicamene impossível de ocorrer em uma parida de Fuebol de Robôs, em que o sisema pode vir a falhar. A disposição dos robôs na imagem é al que aé mesmo a visão humana é incapaz de disingui-los com absolua cereza. A seqüência de imagens da Figura 5.7 exemplifica duas siuações em que o sisema pode vir a falhar, não deecando os robôs na imagem. Cada linha represena um caso com imagem real, seguida do filro Canny, o espaço de Hough, os círculos deecados e, por fim, os objeos reconhecidos. Figura 5.7 Caso especial em que o sisema pode não deecar os robôs No primeiro caso especial os robôs não podem ser reconhecidos, pois oda circunferência de cor primária em dois nós filhos de cor secundária próximos o suficiene para que não seja possível resolver o problema. No segundo caso um dos robôs foi ligeiramene deslocado, resulando em uma circunferência de cor primária com apenas um nó filho de cor secundária próximo, obendo êxio no reconhecimeno. A uilização da TH mosrou-se eficiene e funcional na deecção de odos os círculos presenes nas imagens do domínio do Fuebol de Robôs esadas. O sisema implemenado mosrou-se robuso e olerane a ruídos, além de olerane a variação de cor, pois apenas considera a forma dos objeos, uilizando informações de cor apenas para disinguir os mesmos. Assim, as cores podem ser calibradas em um inervalo de valores muio mais abero, em relação a sisemas de reconhecimeno baseados em cores. O méodo uilizado para a inerpreação do espaço de Hough é capaz de diferenciar falsos máximos relaivos de ponos de cenro de círculos reais da imagem. Os empos medidos, junamene com os eses de reconhecimeno dos objeos, demonsram que é possível uilizar o sisema descrio em empo real, porque supera as

61 61 necessidades de empo, precisão e robusez exigidas de um sisema de visão compuacional para o reconhecimeno dos objeos em um ambiene de Fuebol de Robôs. 5.2 Sisema de navegação e conrole uilizado O sisema de navegação uilizado nesse rabalho é o mesmo sisema que compõe o ime de Fuebol de Robôs do Cenro Universiário da FEI, desenvolvido pelo aluno José Ângelo Gurzoni Jr., inegrane da equipe de Fuebol de Robôs do Cenro Universiário da FEI. O sisema de navegação deve deerminar os ponos pelos quais o algorimo de conrole deve deslocar os robôs. São definidas zonas de desvio em orno de cada obsáculo, definidas por um quadriláero cujo cenro coincide com o cenro do obsáculo, para que os ponos gerados resulem em uma rajeória capaz de aingir o pono final desejado eviando colisões com ouros robôs. É verificado se não há inersecção enre a rea de rajeória e as reas dos quadriláeros das zonas de desvio. Caso haja inersecção, é calculada a curva de Bezier de grau cúbico. Curvas de Bezier de grau cúbico, descrias em dealhes por Azevedo e Conci (2003), são curvas polinomiais que requerem quaro ponos de referência, conforme mosrado na equação (5.7), sendo que a curva gerada passa apenas pelo primeiro e pelo quaro ponos: 3 2 p ) = a + b + c + p, para 0 < < 1 (5.7) ( 0 Onde: p é um pono de coordenadas caresianas (x, y) c = p 1 p ) ( 0 b = ( p p ) c a p p b c = 3 0 = 0 em p 0 e = 1 em p 3 As curvas de Bezier podem represenar polinômios de maior grau, com o número n de ponos de conrole. No enano, o polinômio seria de grau n 1, exigindo um cuso compuacional muio alo. O cálculo de curvas de Bezier de grau cúbico em um cuso compuacional baixo, moivo pelo qual são uilizadas nesse rabalho.

62 62 Considerando que os ponos p 0 e p 3 são, respecivamene, os ponos inicial e final da rajeória, os ponos de conrole p 1 e p 2 são definidos pelas exremidades das zonas de desvio. O pono p 1 é definido pela exremidade da zona de desvio da primeira inersecção. A parir de p 1 uma nova rea é raçada aé o pono final da rajeória. Caso haja oura inersecção com uma segunda zona de desvio, enão o pono p 2 é definido pela exremidade dessa segunda zona de desvio. Com os quaro ponos definidos, é calculada a curva de Bezier de grau cúbico, conforme mosra a Figura 5.8. Figura 5.8 Curva de Bezier de grau cúbico No enano, apenas dois ponos de conrole podem não ser suficienes para o desvio dos obsáculos. Para esse problema, a rajeória a ser definida é segmenada em curvas parciais, onde o pono final p 3 de uma curva coincide com o pono inicial q 0 da curva seguine. Mas a composição de curvas parciais pode apresenar desconinuidade enre as curvas, exigindo movimenos bruscos do robô para seguir a rajeória, o que não é possível na práica, pois o robô não responde a variações bruscas de velocidade dada a sua inércia. A Figura 5.9 exemplifica um caso onde duas curvas parciais compõem uma rajeória com desconinuidade. Figura 5.9 Trajeória com desconinuidade enre as curvas de Bezier Para criar coninuidade enre as curvas é necessário que a inclinação enre os dois úlimos ponos p 2 e p 3 de uma curva e os dois primeiros ponos q 0 e q 1 seja consane. Isso

63 63 significa que a primeira derivada deve ser consane. Dessa forma, as equações (5.8) e (5.9) garanem que haja coninuidade enre as curvas de Bezier. A equação (5.8) define que a primeira derivada seja consane enre as reas, enquano a equação (5.9) faz o mesmo, mas de forma simplificada, uilizando as coordenadas dos ponos das curvas: p( 1) = q(0) (5.8) p = (5.9) 3 p2 q1 q0 A Figura 5.10 demonsra um caso onde há coninuidade enre as curvas de Bezier. Figura 5.10 Trajeória com coninuidade enre as curvas de Bezier Enão, as curvas são calculadas e, caso haja desconinuidade, é calculada a primeira derivada, a parir da equação (5.9), para definir os ponos final p 3 e inicial q 0 das curvas para que a rajeória seja conínua. Dessa forma, são gerados os ponos que são uilizados pelo algorimo de conrole para a movimenação dos robôs aravés dos ponos definidos pela rajeória, que considera ano os obsáculos para eviar colisão, como a orienação desejada do robô ao chegar à posição final da rajeória. O algorimo de conrole, que segue a rajeória definida pelo sisema de navegação, uilizado para os robôs reais é o mesmo algorimo disponibilizado pelo simulador Simuroso, descrio aneriormene. No enano, o inervalo das velocidades v r e v l foi redefinido para que a menor velocidade aribuída a um moor seja capaz de vencer a inércia do robô. Os valores de velocidade calculados pelas equações (4.1) e (4.2) são inerpolados com o inervalo de velocidades válidas para os robôs reais, enre 40 e 127. Com as velocidades v r e v l redefinidas para odos os robôs, o compuador envia um pacoe de dados conendo essas velocidades.

64 Proocolo de comunicação O pacoe de dados enviado pelo compuador aos robôs segue uma formaação conforme o proocolo proposo por Marins, Tonidandel e Bianchi (2005). Esse proocolo uiliza o conceio de broadcas, onde odos os robôs recebem odos os dados e cada robô inerprea o bloco de dados referene ao seu endereço. A Figura 5.11 exemplifica o pacoe de dados uilizado nesse rabalho, ajusado para encapsular informações de velocidade dos moores de cinco robôs. O pacoe em amanho de 12 byes, composo por 10 byes de dados, encapsulados por um bye de início, para indicar o começo do pacoe e um bye de finalização, para indicar o fim do pacoe de dados. Figura 5.11 Pacoe de dados do proocolo proposo Os 10 byes de dados recebidos pelo robô são armazenados e, de acordo com o endereço aribuído ao robô, os 2 byes referenes a esse endereço são inerpreados. Na Figura 5.11, por exemplo, o robô cujo endereço é 3 inerprea o quino e sexo byes de dados do pacoe recebido. Cada um desses byes represena um valor de velocidade enre 40 e 127, sendo o bi mais significaivo referene ao senido de roação do moor, 0 indica senido horário, enquano 1 indica senido ani-horário. O bye 1 do robô de endereço 3 (quino bye de dados do pacoe) coném as informações referenes ao moor esquerdo, enquano o bye 2 (sexo bye do pacoe de dados) coném as informações do moor direio. 5.4 Cube 3 O robô desenvolvido Os robôs desenvolvidos para esse rabalho são baseados no projeo de Marins (2004). Foram feias algumas mudanças para adequar os novos modelos de moores, baeria e módulo de radiofreqüência, originando a erceira versão de hardware e sofware. A seguir, uma breve descrição sobre os aspecos principais do robô é apresenada. O robô Cube 3 em a pare elerônica separada em duas placas, a placa de conrole e a placa de alimenação e eapa de poência dos moores. A separação do circuio elérico é

65 65 fundamenal para o aproveiameno do espaço disponível e para diminuir a incidência de ruído na pare do circuio que uiliza sinais digiais. A seguir, é descrio, em dealhes, cada módulo do robô Cube Placa de conrole do robô Cube 3 O circuio responsável pela comunicação com o compuador, processameno das informações de velocidade recebidas, aribuição e conrole dessas velocidades, compõe a placa de conrole do robô. É uilizado um microconrolador de 8 bis que opera a uma freqüência de 10 MHz, modelo PIC 16F876A da fabricane Microchip (2007), como o núcleo de processameno do robô Cube 3. Para a comunicação com o compuador, o microconrolador uiliza um módulo de radiofreqüência que opera na faixa de freqüência enre 2,4 GHz e 2,5 GHz e é capaz de ransmiir e receber dados à axa de 1 Mbps modulados em GFSK e com checagem de erro CRC de 16 bis, modelo TRW-24G, da fabricane Wenshing (2007). A placa de conrole ainda é composa por uma chave de rese do microconrolador e 4 chaves do ipo DIP-Swich, sendo uma chave para a seleção enre dois canais de freqüência de operação e rês chaves para deerminação do endereço de cada robô, possibiliando aé 7 endereços diferenes, viso que o endereço zero execua uma roina de auo-ese do robô. No enano, como o pacoe de dados foi ajusado para cinco robôs, os endereços 6 e 7 não são uilizados. Dois leds indicadores mosram o esado de funcionameno do robô. Um led pisca inermienemene para indicar que o sofware do microconrolador esá sendo execuado, enquano o ouro led acende quando um pacoe de dados, enviado pelo compuador, é recebido pelo robô. A conexão com a placa de poência é feia aravés de um conecor de 10 pinos. Dois desses pinos são uilizados para alimenar a placa de conrole com uma ensão de 3,3 V, enquano quaro pinos levam os sinais de conrole do senido de roação dos dois moores. Ouros dois pinos ransmiem o sinal de freqüência fixa de 10 KHz e largura de pulso variável PWM (pulse widh modulaion), gerado pelo microconrolador para conrolar a velocidade dos moores. Por fim, dois pinos razem a informação de sensores de correne elérica dos moores.

66 66 Um circuio inegrado de poras lógicas inversoras schmi-rigger 7414 é uilizado pelo microconrolador como filro para os sinais provindos dos sensores de correne dos moores e para os sensores de odomeria. Esses sensores de odomeria capuram 128 pulsos por revolução aravés de um disco encoder esampado na roda. Ao receber, aravés do módulo de radiofreqüência, um pacoe de dados enviado pelo compuador, o microconrolador verifica quais são as velocidades dos moores de acordo com o endereço configurado nas chaves correspondenes. Após a inerpreação dos byes de dados, é calculada a largura de pulso do sinal PWM a ser enviada aos moores para que as velocidades sejam aingidas. Os sinais PWM são ransmiidos para os moores, assim como o sinal de senido de roação. O conrole de velocidade que uiliza a malha de realimenação dos sensores de odomeria não foi implemenado para esse rabalho. A Figura 5.12 apresena o esquema elérico da placa de conrole do robô Cube 3. Figura 5.12 Esquema elérico da placa de conrole do robô Cube Placa de poência do robô Cube 3 A placa de poência do robô Cube 3 é responsável por alimenar a placa de conrole, servir de inerface enre o microconrolador e os moores, além de fornecer a poência elérica exigida pelos mesmos.

67 67 A baeria de lihium-polímero uilizada fornece 7,4 V de ensão. Essa ensão é reduzida em duas eapas, aravés dos reguladores de ensão LM7805 e LM117T3.3, para que a ensão de 3,3 V da placa de conrole seja obida. Um led indica quando a ensão de 3,3 V esá disponível e uma chave inerrompe o fornecimeno de energia da baeria para odo o circuio do robô, desligando-o. Um circuio inegrado L298N é uilizado como inerface enre os sinais digiais vindos do microconrolador da placa de conrole e os moores. Esse circuio inegrado é composo por duas pones H compleas, capazes de acionar os moores aplicando direamene a ensão nominal de 7,4 V fornecida pela baeria. O circuio inegrado L298N eleva a ensão do sinal PWM de 3,3 V, proveniene do microconrolador, para 7,4 V e é capaz de inverer o fluxo de correne elérica nos moores conforme os sinais digiais de senido de roação enviados pelo microconrolador. Diodos Schoky de chaveameno rápido BYV27200 são uilizados para proeger o circuio inegrado L298N conra a correne elérica inversa geradas pelos moores. Os moores uilizados são modelos SR, da fabricane FTB (2007). Têm ensão nominal de 6 V e caixa de engrenagens de redução embuida com relação de 8:1. O robô é capaz de aingir uma velocidade de aé 1,5 m/s. A Figura 5.13 apresena o esquema elérico da placa de poência do robô Cube 3. Figura 5.13 Esquema elérico da placa de poência do robô Cube 3 A esruura mecânica e as rodas, confeccionadas em alumínio, foram projeadas pelo aluno de iniciação cienífica Fernando Perez Tavarez, esudane de engenharia mecânica e inegrane da equipe de Fuebol de Robôs do Cenro Universiário da FEI.

68 68 A Figura 5.14 apresena as placas de poência e conrole descrias aneriormene, enquano a Figura 5.15 apresena os rês robôs Cube 3 consruídos para esse rabalho. Figura 5.14 Placas de poência (à esquerda) e conrole (à direia) dos robôs Cube 3 Figura 5.15 Os robôs Cube 3 Esse capíulo apresenou o sisema de visão e os robôs desenvolvidos para esse rabalho, assim como o sisema de navegação uilizado. Esses módulos compõem o ime de Fuebol de Robôs da caegoria Miroso uilizado em conjuno com o sisema de AR descrio no próximo capíulo para a realização dos experimenos.

69 69 6 APRENDIZADO POR REFORÇO NO DOMÍNIO DE FUTEBOL DE ROBÔS Nos capíulos aneriores foi feia uma revisão bibliográfica sobre AR e algumas écnicas de aceleração do AR. Também foi apresenado o domínio do Fuebol de Robôs, conexo no qual esá inserido o sisema de AR. O presene capíulo apresena a proposa dessa disseração, definindo o sisema de AR uilizado no domínio do Fuebol de Robôs. 6.1 Inrodução Liman (1994) propôs um jogo de Markov (jogo modelado por um PMD) inserido em um ambiene de Fuebol de Robôs muio simplificado, onde apenas dois jogadores, denominados A e O, compeem enre si em um campo de fuebol represenado por uma grade de 5 x 4 regiões, conforme pode ser viso na Figura 6.1. Nesse ambiene, uma célula da grade pode ser ocupada por apenas um agene e a bola, represenada por um círculo, esá sempre de posse de um dos dois agenes. Na Figura 6.1, por exemplo, o jogador O esá com a posse de bola. Figura 6.1 Ambiene proposo por Liman (1994) O conjuno de esados é definido pela posição dos jogadores A e O, enquano o conjuno de ações é composo por cinco ações. Cada ação indica uma direção de deslocameno do agene que a execuou, podendo ser Nore, Sul, Lese e Oese. Exise, ainda, uma ação que maném o agene parado. Quando um jogador execua uma ação cujo deslocameno seria para fora da grade, ele permanece na posição em que esava anes de execuar a ação. Caso o jogador eseja com a posse da bola, a mesma se desloca juno com esse jogador e a posse da bola só é perdida quando for execuada uma ação cujo deslocameno seria para denro da célula onde se enconra o jogador adversário. Cada jogador marca um pono quando esá com a posse de bola e execua uma ação que o desloca para denro do gol adversário.

70 70 Bianchi (2004) uilizou esse ambiene simplificado de Fuebol de Robôs, proposo por Liman (1994), para efeuar experimenos comparaivos de algorimos de AR com e sem a uilização de heurísicas para acelerar o aprendizado. Porém, não foram feios experimenos em um ambiene simulado de Fuebol de Robôs mais complexo, ampouco em um ambiene real. A proposa de pesquisa dessa disseração é uma exensão do rabalho de Bianchi (2004). Essa proposa em o objeivo comparar os algorimos Q-learning, Q(λ) e QS, com e sem a uilização de heurísicas para a aceleração do aprendizado, em um ambiene simulado de Fuebol de Robôs mais complexo, o simulador Simuroso, além de analisar a influência do uso de heurísicas em um ambiene real da caegoria Miroso. 6.2 Arquieura do sisema de Aprendizado por Reforço A abordagem do problema de aprendizado foi feia com o inuio de maner o mesmo nível de absração do conjuno de esados e conjuno de ações do ambiene proposo por Liman (1994). No enano, foram feias algumas adapações na definição do conjuno de esados, conjuno de ações e da grade de regiões que represena o campo (absrações ciadas na seção 3.1). Essas adapações se jusificam pelo fao de que os ambienes da caegoria Simuroso e Miroso são mais complexos, dinâmicos e não-deerminísicos. No decorrer do exo, o agene represena o jogador A, que deve aprender aravés dos algorimos de AR, enquano o oponene represena o jogador O, que, para esse rabalho, é um agene robóico que seleciona as ações de modo aleaório Conjuno de esados A primeira consideração a ser feia sobre o ambiene de Fuebol de Robôs das caegorias Simuroso e Miroso em relação ao ambiene proposo por Liman (1994) é que ambos os jogadores e a bola podem ocupar qualquer região disina um do ouro, ou ainda, odos podem esar em uma mesma região. Oura observação é que a bola é livre durane odo o jogo, pois nenhum agene pode prender a bola a si mesmo. Isso implica em um aumeno do número de variáveis que deerminam o esado do ambiene, pois é necessário considerar as posições de ambos os jogadores e da bola, resulando na upla x, y, x, y, x, y, represenando as coordenadas (x, y) da região onde a a b b o esão, respecivamene, o agene (x a, y a ), a bola (x b, y b ) e o oponene (x o, y o ). o

71 71 A represenação do campo em regiões, que pode ser visa na Figura 6.2, é definida por uma grade de 7 x 5 regiões. O aumeno do número de colunas se deu pelo fao de que os jogadores podem deslocar-se para denro dos gols mesmo sem a bola, sendo que as regiões dos gols são esados erminais apenas quando a bola enra em um dos dois gols. Em relação ao número de linhas, foi adicionada uma linha que considera os limies inferior e superior dos gols como sendo os limies vericais das regiões dessa linha. Exceuando as regiões da linha ciada, as ouras áreas foram divididas simericamene. Figura 6.2 Campo de jogo dividido em 7 x 5 regiões Como as dimensões do campo são conhecidas, as froneiras de cada região da grade são definidas virualmene. Um jogador, ou a bola, esá posicionado em uma região discrea quando sua posição em relação ao campo esiver denro das froneiras dessa região. Apesar de o campo ser dividido em 7 x 5 regiões, as 8 regiões ponilhadas, mosradas na Figura 6.2, não fazem pare do conjuno de esados porque esão fora do campo e nenhum jogador ou a bola podem alcançar essas posições. Enão, jogadores e bola podem ocupar 27 regiões disinas, resulando em um conjuno de esados, endo como esados erminais odos aqueles onde a bola esiver nas regiões que represenam os gols Conjuno de ações Oura consideração a ser feia sobre os ambienes das caegorias Simuroso e Miroso em relação ao ambiene proposo por Liman (1994) é que a bola desloca-se livremene pelo campo. Enão, o conjuno de ações do ambiene de Liman (1994) foi esendido para que os agenes possam manipular a bola. As see ações que compõem esse conjuno de ações são, na verdade, macro-ações programadas manualmene, que consideram ano as informações das regiões de posição, como as informações de posição e orienação dos agenes e da bola denro dessas regiões.

72 72 Todas essas ações uilizam o sisema de navegação e conrole para deerminação da rajeória, desvio de obsáculos e conrole de velocidade e posicionameno dos agenes em ambos os ambienes simulado (Simuroso) e real (Miroso). A seguir, as ações são apresenadas. A ação Sop. Quando a ação Sop é execuada, o agene simplesmene pára na posição em que ele se enconra. Não é feio nenhum cálculo de rajeória e o algorimo de conrole apenas aribui velocidade zero aos moores das rodas dos robôs. A ação Move Up. O pono cenral da região imediaamene acima à qual o jogador se enconra é calculado aravés das froneiras viruais dessa região e é definido como o pono final da rajeória. O algorimo de conrole, enão, calcula as velocidades dos moores de cada roda do robô, para que o mesmo chegue a esse pono final. Caso a região imediaamene acima seja fora do campo de jogo, o movimeno do jogador é inerrompido e ele permanece parado aé a execução da próxima ação. A ação Move Down. Analogamene à ação Move Up, é calculado o pono cenral da região imediaamene abaixo àquela em que o jogador se enconra e esse pono é definido como o final da rajeória. Da mesma maneira, caso a região imediaamene abaixo seja fora do campo de jogo, o movimeno do jogador é inerrompido, permanecendo parado aé que a próxima ação seja execuada. A ação Move Forward. Essa ação considera o lado para o qual o jogador deve fazer os gols. A região horizonal imediaamene mais próxima ao gol adversário, em relação à região na qual o jogador se enconra, em seu pono cenral calculado e definido como o pono final da rajeória. Caso essa região seja para fora do campo de jogo, o jogador em seu movimeno inerrompido e assim permanece aé que a próxima ação seja execuada. A ação Move Backward. Análoga à ação Move Forward, essa ação calcula o pono cenral da região horizonal imediaamene mais próxima ao gol do próprio jogador, em relação à região em que o mesmo se enconra, definindo esse pono cenral como sendo o final da rajeória. Novamene, caso a região de desino seja para fora do campo de jogo, o jogador em o movimeno inerrompido e coninua parado aé que a próxima ação seja execuada. A ação Ge Ball é uma das duas ações que foram inseridas no conjuno de ações para que os jogadores possam manipular a bola. Essa ação considera ano a posição dos jogadores e da bola na grade de regiões, como a posição e orienação em relação ao campo.

73 73 Figura 6.3 Exemplo de execução da ação Ge Ball São considerados o lado para onde o jogador deve fazer os gols e as posições, em relação ao campo, da bola e do jogador que esá execuando essa ação. É definido como pono final da rajeória o pono imediaamene arás da bola. O resulado dessa ação é que o jogador que a execua vai em direção à bola e posiciona-se na linha horizonal enre a bola e seu próprio gol, sendo que a rajeória é calculada pelo sisema de navegação e o deslocameno para os ponos da rajeória é feio pelo algorimo de conrole. A Figura 6.3 exemplifica a execução da ação Ge Ball, onde o agene (robô de cores amarelo e rosa), que deve fazer gols para a direia, esá posicionado imediaamene arás da bola, na linha horizonal enre a bola e seu próprio gol. A possibilidade de execução da ação Ge Ball foi resringida às siuações em que o jogador se enconra na mesma região da bola ou em alguma região verical, horizonal ou diagonalmene vizinha à região em que a bola se enconra. Caso o jogador eseja em alguma das demais regiões, seus movimenos são inerrompidos e ele permanece parado aé que uma nova ação seja execuada. A oura ação inserida no conjuno de ações para que os jogadores possam manipular a bola é a ação Kick o Goal. Essa ação ambém considera ano a posição dos jogadores e da bola na grade de regiões, como a posição e orienação em relação ao campo. Muio similar à ação Ge Ball, a ação Kick o Goal define que o jogador que a execua deve empurrar a bola em direção ao gol adversário. No enano, por se raar de uma ação que exige uma proximidade da bola, a possibilidade de execução dessa ação foi resringida às siuações em que o jogador que a execua esá na mesma região em que se

5.1. Filtragem dos Estados de um Sistema Não-Linear Unidimensional. Considere-se o seguinte MEE [20] expresso por: t t

5.1. Filtragem dos Estados de um Sistema Não-Linear Unidimensional. Considere-se o seguinte MEE [20] expresso por: t t 5 Esudo de Casos Para a avaliação dos algorimos online/bach evolucionários proposos nese rabalho, foram desenvolvidas aplicações em problemas de filragem dos esados de um sisema não-linear unidimensional,

Leia mais

3 Modelos de Markov Ocultos

3 Modelos de Markov Ocultos 23 3 Modelos de Markov Oculos 3.. Processos Esocásicos Um processo esocásico é definido como uma família de variáveis aleaórias X(), sendo geralmene a variável empo. X() represena uma caracerísica mensurável

Leia mais

AMANDA OLIVEIRA, G. Depto. Engenharia de Computação e Automação - UFRN

AMANDA OLIVEIRA, G. Depto. Engenharia de Computação e Automação - UFRN ANÁLISE COMPARATIVA DE ALGUMAS TÉCNICAS PARA O ESTABELECIMENTO DE TRAJETÓRIAS EM AMBIENTES COM OBSTÁCULOS USANDO APRENDIZAGEM POR REFORÇO AMANDA OLIVEIRA, G. Depo. Engenharia de Compuação e Auomação -

Leia mais

Séries temporais Modelos de suavização exponencial. Séries de temporais Modelos de suavização exponencial

Séries temporais Modelos de suavização exponencial. Séries de temporais Modelos de suavização exponencial Programa de Pós-graduação em Engenharia de Produção Análise de séries de empo: modelos de suavização exponencial Profa. Dra. Liane Werner Séries emporais A maioria dos méodos de previsão se baseiam na

Leia mais

4 Metodologia Proposta para o Cálculo do Valor de Opções Reais por Simulação Monte Carlo com Aproximação por Números Fuzzy e Algoritmos Genéticos.

4 Metodologia Proposta para o Cálculo do Valor de Opções Reais por Simulação Monte Carlo com Aproximação por Números Fuzzy e Algoritmos Genéticos. 4 Meodologia Proposa para o Cálculo do Valor de Opções Reais por Simulação Mone Carlo com Aproximação por Números Fuzzy e Algorimos Genéicos. 4.1. Inrodução Nese capíulo descreve-se em duas pares a meodologia

Leia mais

4 Filtro de Kalman. 4.1 Introdução

4 Filtro de Kalman. 4.1 Introdução 4 Filro de Kalman Ese capíulo raa da apresenação resumida do filro de Kalman. O filro de Kalman em sua origem na década de sessena, denro da área da engenharia elérica relacionado à eoria do conrole de

Leia mais

Modelos Não-Lineares

Modelos Não-Lineares Modelos ão-lineares O modelo malhusiano prevê que o crescimeno populacional é exponencial. Enreano, essa predição não pode ser válida por um empo muio longo. As funções exponenciais crescem muio rapidamene

Leia mais

Universidade Federal do Rio de Janeiro

Universidade Federal do Rio de Janeiro Universidade Federal do Rio de Janeiro Circuios Eléricos I EEL42 Coneúdo 8 - Inrodução aos Circuios Lineares e Invarianes...1 8.1 - Algumas definições e propriedades gerais...1 8.2 - Relação enre exciação

Leia mais

Capítulo 2: Proposta de um Novo Retificador Trifásico

Capítulo 2: Proposta de um Novo Retificador Trifásico 30 Capíulo 2: Proposa de um Novo Reificador Trifásico O mecanismo do descobrimeno não é lógico e inelecual. É uma iluminação suberrânea, quase um êxase. Em seguida, é cero, a ineligência analisa e a experiência

Leia mais

4 Análise de Sensibilidade

4 Análise de Sensibilidade 4 Análise de Sensibilidade 4.1 Considerações Gerais Conforme viso no Capíulo 2, os algorimos uilizados nese rabalho necessiam das derivadas da função objeivo e das resrições em relação às variáveis de

Leia mais

Problema de controle ótimo com equações de estado P-fuzzy: Programação dinâmica

Problema de controle ótimo com equações de estado P-fuzzy: Programação dinâmica Problema de conrole óimo com equações de esado P-fuzzy: Programação dinâmica Michael Macedo Diniz, Rodney Carlos Bassanezi, Depo de Maemáica Aplicada, IMECC, UNICAMP, 1383-859, Campinas, SP diniz@ime.unicamp.br,

Leia mais

MÉTODOS PARAMÉTRICOS PARA A ANÁLISE DE DADOS DE SOBREVIVÊNCIA

MÉTODOS PARAMÉTRICOS PARA A ANÁLISE DE DADOS DE SOBREVIVÊNCIA MÉTODOS PARAMÉTRICOS PARA A ANÁLISE DE DADOS DE SOBREVIVÊNCIA Nesa abordagem paramérica, para esimar as funções básicas da análise de sobrevida, assume-se que o empo de falha T segue uma disribuição conhecida

Leia mais

Exercícios sobre o Modelo Logístico Discreto

Exercícios sobre o Modelo Logístico Discreto Exercícios sobre o Modelo Logísico Discreo 1. Faça uma abela e o gráfico do modelo logísico discreo descrio pela equação abaixo para = 0, 1,..., 10, N N = 1,3 N 1, N 0 = 1. 10 Solução. Usando o Excel,

Leia mais

MATEMÁTICA APLICADA AO PLANEJAMENTO DA PRODUÇÃO E LOGÍSTICA. Silvio A. de Araujo Socorro Rangel

MATEMÁTICA APLICADA AO PLANEJAMENTO DA PRODUÇÃO E LOGÍSTICA. Silvio A. de Araujo Socorro Rangel MAEMÁICA APLICADA AO PLANEJAMENO DA PRODUÇÃO E LOGÍSICA Silvio A. de Araujo Socorro Rangel saraujo@ibilce.unesp.br, socorro@ibilce.unesp.br Apoio Financeiro: PROGRAMA Inrodução 1. Modelagem maemáica: conceios

Leia mais

Aplicações à Teoria da Confiabilidade

Aplicações à Teoria da Confiabilidade Aplicações à Teoria da ESQUEMA DO CAPÍTULO 11.1 CONCEITOS FUNDAMENTAIS 11.2 A LEI DE FALHA NORMAL 11.3 A LEI DE FALHA EXPONENCIAL 11.4 A LEI DE FALHA EXPONENCIAL E A DISTRIBUIÇÃO DE POISSON 11.5 A LEI

Leia mais

Considere uma economia habitada por um agente representativo que busca maximizar:

Considere uma economia habitada por um agente representativo que busca maximizar: 2 Modelo da economia Uilizaram-se como base os modelos de Campos e Nakane 23 e Galí e Monacelli 22 que esendem o modelo dinâmico de equilíbrio geral de Woodford 21 para uma economia abera Exisem dois países:

Leia mais

5 Erro de Apreçamento: Custo de Transação versus Convenience Yield

5 Erro de Apreçamento: Custo de Transação versus Convenience Yield 5 Erro de Apreçameno: Cuso de Transação versus Convenience Yield A presene seção em como objeivo documenar os erros de apreçameno implício nos preços eóricos que eviam oporunidades de arbiragem nos conraos

Leia mais

3 Retorno, Marcação a Mercado e Estimadores de Volatilidade

3 Retorno, Marcação a Mercado e Estimadores de Volatilidade eorno, Marcação a Mercado e Esimadores de Volailidade 3 3 eorno, Marcação a Mercado e Esimadores de Volailidade 3.. eorno de um Aivo Grande pare dos esudos envolve reorno ao invés de preços. Denre as principais

Leia mais

AULA 22 PROCESSO DE TORNEAMENTO: CONDIÇÕES ECONÔMICAS DE USINAGEM

AULA 22 PROCESSO DE TORNEAMENTO: CONDIÇÕES ECONÔMICAS DE USINAGEM AULA 22 PROCESSO DE TORNEAMENTO: CONDIÇÕES ECONÔMICAS DE USINAGEM 163 22. PROCESSO DE TORNEAMENTO: CONDIÇÕES ECONÔMICAS DE USINAGEM 22.1. Inrodução Na Seção 9.2 foi falado sobre os Parâmeros de Core e

Leia mais

Motivação. Prof. Lorí Viali, Dr.

Motivação. Prof. Lorí Viali, Dr. Moivação rof. Lorí Viali, Dr. vialli@ma.ufrgs.br hp://www.ma.ufrgs.br/~vialli/ Na práica, não exise muio ineresse na comparação de preços e quanidades de um único arigo, como é o caso dos relaivos, mas

Leia mais

4 Método de geração de cenários em árvore

4 Método de geração de cenários em árvore Méodo de geração de cenários em árvore 4 4 Méodo de geração de cenários em árvore 4.. Conceios básicos Uma das aividades mais comuns no mercado financeiro é considerar os possíveis esados fuuros da economia.

Leia mais

ANÁLISE DE SÉRIES TEMPORAIS NA PREVISÃO DA RECEITA DE UMA MERCEARIA LOCALIZADA EM BELÉM-PA USANDO O MODELO HOLT- WINTERS PADRÃO

ANÁLISE DE SÉRIES TEMPORAIS NA PREVISÃO DA RECEITA DE UMA MERCEARIA LOCALIZADA EM BELÉM-PA USANDO O MODELO HOLT- WINTERS PADRÃO XXIX ENCONTRO NACIONAL DE ENGENHARIA DE PRODUÇÃO. ANÁLISE DE SÉRIES TEMPORAIS NA PREVISÃO DA RECEITA DE UMA MERCEARIA LOCALIZADA EM BELÉM-PA USANDO O MODELO HOLT- WINTERS PADRÃO Breno Richard Brasil Sanos

Leia mais

Cálculo do valor em risco dos ativos financeiros da Petrobrás e da Vale via modelos ARMA-GARCH

Cálculo do valor em risco dos ativos financeiros da Petrobrás e da Vale via modelos ARMA-GARCH Cálculo do valor em risco dos aivos financeiros da Perobrás e da Vale via modelos ARMA-GARCH Bruno Dias de Casro 1 Thiago R. dos Sanos 23 1 Inrodução Os aivos financeiros das companhias Perobrás e Vale

Leia mais

TRANSFORMADA DE FOURIER NOTAS DE AULA (CAP. 18 LIVRO DO NILSON)

TRANSFORMADA DE FOURIER NOTAS DE AULA (CAP. 18 LIVRO DO NILSON) TRANSFORMADA DE FOURIER NOTAS DE AULA (CAP. 8 LIVRO DO NILSON). CONSIDERAÇÕES INICIAIS SÉRIES DE FOURIER: descrevem funções periódicas no domínio da freqüência (ampliude e fase). TRANSFORMADA DE FOURIER:

Leia mais

Circuitos Elétricos I EEL420

Circuitos Elétricos I EEL420 Universidade Federal do Rio de Janeiro Circuios Eléricos I EEL420 Coneúdo 1 - Circuios de primeira ordem...1 1.1 - Equação diferencial ordinária de primeira ordem...1 1.1.1 - Caso linear, homogênea, com

Leia mais

Rodolfo Santos Nunes Rodrigues

Rodolfo Santos Nunes Rodrigues Universidade Federal de Minas Gerais - UFMG Insiuo de Ciências Exaas - ICEx Programa de Pós-Graduação em Esaísica - PPGEST Rodolfo Sanos Nunes Rodrigues Influência do número de parículas na esimação de

Leia mais

4 O Fenômeno da Estabilidade de Tensão [6]

4 O Fenômeno da Estabilidade de Tensão [6] 4 O Fenômeno da Esabilidade de Tensão [6] 4.1. Inrodução Esabilidade de ensão é a capacidade de um sisema elérico em maner ensões aceiáveis em odas as barras da rede sob condições normais e após ser submeido

Leia mais

III Congresso da Sociedade Portuguesa de Estatística Guimarães, 26 a 28 Junho 1995

III Congresso da Sociedade Portuguesa de Estatística Guimarães, 26 a 28 Junho 1995 1 III Congresso da Sociedade Poruguesa de Esaísica Guimarães, 26 a 28 Junho 1995 Políicas Ópimas e Quase-Ópimas de Inspecção de um Sisema Sujeio a Falhas Cláudia Nunes, João Amaral Deparameno de Maemáica,

Leia mais

3 LTC Load Tap Change

3 LTC Load Tap Change 54 3 LTC Load Tap Change 3. Inrodução Taps ou apes (ermo em poruguês) de ransformadores são recursos largamene uilizados na operação do sisema elérico, sejam eles de ransmissão, subransmissão e disribuição.

Leia mais

Introdução ao Controle Ótimo: Otimização de funções e funcionais. Otimização paramétrica. Problema de controle ótimo com tempo final fixo.

Introdução ao Controle Ótimo: Otimização de funções e funcionais. Otimização paramétrica. Problema de controle ótimo com tempo final fixo. Inrodução ao Conrole Óimo: Oimização de funções e funcionais. Oimização paramérica. Problema de conrole óimo com empo final fio. Oimização Deerminação de uma ação que proporciona um máimo de benefício,

Leia mais

Instituto de Física USP. Física V - Aula 26. Professora: Mazé Bechara

Instituto de Física USP. Física V - Aula 26. Professora: Mazé Bechara Insiuo de Física USP Física V - Aula 6 Professora: Mazé Bechara Aula 6 Bases da Mecânica quânica e equações de Schroedinger. Aplicação e inerpreações. 1. Ouros posulados da inerpreação de Max-Born para

Leia mais

3 Modelo Teórico e Especificação Econométrica

3 Modelo Teórico e Especificação Econométrica 3 Modelo Teórico e Especificação Economérica A base eórica do experimeno será a Teoria Neoclássica do Invesimeno, apresenada por Jorgensen (1963). Aneriormene ao arigo de Jorgensen, não havia um arcabouço

Leia mais

Incertezas na Robótica Móvel Filtros Bibliografia Recomendada. EESC-USP M. Becker /78

Incertezas na Robótica Móvel Filtros Bibliografia Recomendada. EESC-USP M. Becker /78 Aula 5 Inrodução à Robóica Móvel Lidando com Incerezas Prof. Dr. Marcelo Becker EESC - USP Sumário da Aula Inrodução às Incerezas Incerezas na Robóica Móvel Filros Bibliografia Recomendada EESC-USP M.

Leia mais

DISCIPLINA SÉRIE CAMPO CONCEITO

DISCIPLINA SÉRIE CAMPO CONCEITO Log Soluções Reforço escolar M ae máica Dinâmica 4 2ª Série 1º Bimesre DISCIPLINA SÉRIE CAMPO CONCEITO Maemáica 2ª do Ensino Médio Algébrico simbólico Função Logarímica Primeira Eapa Comparilhar Ideias

Leia mais

5 Método dos Mínimos Quadrados de Monte Carlo (LSM)

5 Método dos Mínimos Quadrados de Monte Carlo (LSM) Méodo dos Mínimos Quadrados de Mone Carlo (LSM) 57 5 Méodo dos Mínimos Quadrados de Mone Carlo (LSM) O méodo LSM revela-se uma alernaiva promissora frene às radicionais écnicas de diferenças finias e árvores

Leia mais

Utilização de modelos de holt-winters para a previsão de séries temporais de consumo de refrigerantes no Brasil

Utilização de modelos de holt-winters para a previsão de séries temporais de consumo de refrigerantes no Brasil XXVI ENEGEP - Foraleza, CE, Brasil, 9 a 11 de Ouubro de 2006 Uilização de modelos de hol-winers para a previsão de séries emporais de consumo de refrigeranes no Brasil Jean Carlos da ilva Albuquerque (UEPA)

Leia mais

CINÉTICA QUÍMICA LEI DE VELOCIDADE - TEORIA

CINÉTICA QUÍMICA LEI DE VELOCIDADE - TEORIA CINÉTICA QUÍMICA LEI DE VELOCIDADE - TEORIA Inrodução Ese arigo raa de um dos assunos mais recorrenes nas provas do IME e do ITA nos úlimos anos, que é a Cinéica Química. Aqui raamos principalmene dos

Leia mais

Teoremas Básicos de Equações a Diferenças Lineares

Teoremas Básicos de Equações a Diferenças Lineares Teoremas Básicos de Equações a Diferenças Lineares (Chiang e Wainwrigh Capíulos 17 e 18) Caracerização Geral de Equações a diferenças Lineares: Seja a seguine especificação geral de uma equação a diferença

Leia mais

Conceito. Exemplos. Os exemplos de (a) a (d) mostram séries discretas, enquanto que os de (e) a (g) ilustram séries contínuas.

Conceito. Exemplos. Os exemplos de (a) a (d) mostram séries discretas, enquanto que os de (e) a (g) ilustram séries contínuas. Conceio Na Esaísica exisem siuações onde os dados de ineresse são obidos em insanes sucessivos de empo (minuo, hora, dia, mês ou ano), ou ainda num período conínuo de empo, como aconece num elerocardiograma

Leia mais

Curvas e Superfícies Paramétricas

Curvas e Superfícies Paramétricas Curvas e Superfícies araméricas Eemplo de superfícies NURBS Curvas e Superfícies ara aplicações de CG normalmene é mais conveniene adoar a forma paramérica Independene do sisema de coordenadas Represenação

Leia mais

4 O modelo econométrico

4 O modelo econométrico 4 O modelo economérico O objeivo desse capíulo é o de apresenar um modelo economérico para as variáveis financeiras que servem de enrada para o modelo esocásico de fluxo de caixa que será apresenado no

Leia mais

5 Solução por Regressão Simbólica 5.1. Introdução

5 Solução por Regressão Simbólica 5.1. Introdução 5 Solução por Regressão Simbólica 5.. Inrodução ese capíulo é descrio um esudo de caso uilizando-se o modelo proposo no capíulo 4. reende-se com esse esudo de caso, mosrar a viabilidade do modelo, suas

Leia mais

*UiILFRGH&RQWUROH(:0$

*UiILFRGH&RQWUROH(:0$ *UiILFRGH&RQWUROH(:$ A EWMA (de ([SRQHQWLDOO\:HLJKWHGRYLQJ$YHUDJH) é uma esaísica usada para vários fins: é largamene usada em méodos de esimação e previsão de séries emporais, e é uilizada em gráficos

Leia mais

INFLUÊNCIA DO FLUIDO NA CALIBRAÇÃO DE UMA BALANÇA DE PRESSÃO

INFLUÊNCIA DO FLUIDO NA CALIBRAÇÃO DE UMA BALANÇA DE PRESSÃO INFLUÊNCIA DO FLUIDO NA CALIBRAÇÃO DE UMA BALANÇA DE PRESSÃO Luiz Henrique Paraguassú de Oliveira 1, Paulo Robero Guimarães Couo 1, Jackson da Silva Oliveira 1, Walmir Sérgio da Silva 1, Paulo Lyra Simões

Leia mais

3 Avaliação de Opções Americanas

3 Avaliação de Opções Americanas Avaliação de Opções Americanas 26 3 Avaliação de Opções Americanas Derivaivos com caracerísicas de exercício americano, em especial opções, são enconrados na maioria dos mercados financeiros. A avaliação

Leia mais

Características dos Processos ARMA

Características dos Processos ARMA Caracerísicas dos Processos ARMA Aula 0 Bueno, 0, Capíulos e 3 Enders, 009, Capíulo. a.6 Morein e Toloi, 006, Capíulo 5. Inrodução A expressão geral de uma série emporal, para o caso univariado, é dada

Leia mais

3 Estudo da Barra de Geração [1]

3 Estudo da Barra de Geração [1] 3 Esudo da Barra de eração [1] 31 Inrodução No apíulo 2, raou-se do máximo fluxo de poência aiva e reaiva que pode chear à barra de cara, limiando a máxima cara que pode ser alimenada, e do possível efeio

Leia mais

3 O Modelo SAGA de Gestão de Estoques

3 O Modelo SAGA de Gestão de Estoques 3 O Modelo SG de Gesão de Esoques O Sisema SG, Sisema uomaizado de Gerência e poio, consise de um sofware conendo um modelo maemáico que permie fazer a previsão de iens no fuuro com base nos consumos regisrados

Leia mais

5 Metodologia Probabilística de Estimativa de Reservas Considerando o Efeito-Preço

5 Metodologia Probabilística de Estimativa de Reservas Considerando o Efeito-Preço 5 Meodologia Probabilísica de Esimaiva de Reservas Considerando o Efeio-Preço O principal objeivo desa pesquisa é propor uma meodologia de esimaiva de reservas que siga uma abordagem probabilísica e que

Leia mais

Prof. Lorí Viali, Dr. UFRGS Instituto de Matemática - Departamento de Estatística

Prof. Lorí Viali, Dr. UFRGS Instituto de Matemática - Departamento de Estatística Conceio Na Esaísica exisem siuações onde os dados de ineresse são obidos em insanes sucessivos de empo (minuo, hora, dia, mês ou ano), ou ainda num período conínuo de empo, como aconece num elerocardiograma

Leia mais

Lista de exercícios 3. September 15, 2016

Lista de exercícios 3. September 15, 2016 ELE-3 Inrodução a Comunicações Lisa de exercícios 3 Sepember 5, 6. Enconre a ransformada de Hilber x() da onda quadrada abaixo. Esboce o especro de x() j x(). [ ] x() = Π ( n). n=. Um sinal em banda passane

Leia mais

Uma comparação entre métodos de segmentação automática de tomadas em vídeos

Uma comparação entre métodos de segmentação automática de tomadas em vídeos Uma comparação enre méodos de segmenação auomáica de omadas em vídeos elingon de Jesus Lisboa, Carlos A. F. Pimenel Filho Celso A. Saibel Sanos # Resumo. se arigo em como foco cenral a segmenação emporal

Leia mais

Aplicação. Uma famosa consultoria foi contratada por uma empresa. que, entre outras coisas, gostaria de entender o processo

Aplicação. Uma famosa consultoria foi contratada por uma empresa. que, entre outras coisas, gostaria de entender o processo Aplicação Uma famosa consuloria foi conraada por uma empresa que, enre ouras coisas, gosaria de enender o processo gerador relacionado às vendas de deerminado produo, Ainda, o conraane gosaria que a empresa

Leia mais

Confiabilidade e Taxa de Falhas

Confiabilidade e Taxa de Falhas Prof. Lorí Viali, Dr. hp://www.pucrs.br/fama/viali/ viali@pucrs.br Definição A confiabilidade é a probabilidade de que de um sisema, equipameno ou componene desempenhe a função para o qual foi projeado

Leia mais

Agenda. Modelamento da Imprecisão Temporal da Observação em Sistemas de Diagnóstico de Ambientes Distribuídos. Motivação. Motivação e Objetivo

Agenda. Modelamento da Imprecisão Temporal da Observação em Sistemas de Diagnóstico de Ambientes Distribuídos. Motivação. Motivação e Objetivo 2 Modelameno da Imprecisão emporal da em Sisemas de Diagnósico de mbienes Disribuídos Volnys Borges Bernal ese de douorado Depo. de ngenharia de Sisemas lerônicos scola oliécnica da US Orienador: rof.

Leia mais

I INVESTIGAÇÃO DE MÉTODOS DE SELEÇÃO AUTOMÁTICA DE CIRCUITOS USANDO A TEORIA DOS GRAFOS PARA A ANÁLISE DE REDES HIDRÁULICAS

I INVESTIGAÇÃO DE MÉTODOS DE SELEÇÃO AUTOMÁTICA DE CIRCUITOS USANDO A TEORIA DOS GRAFOS PARA A ANÁLISE DE REDES HIDRÁULICAS º Congresso Brasileiro de Engenharia Saniária e Ambienal I- - INVESTIGAÇÃO DE MÉTODOS DE SELEÇÃO AUTOMÁTICA DE CIRCUITOS USANDO A TEORIA DOS GRAFOS PARA A ANÁLISE DE REDES HIDRÁULICAS Rober Schiaveo de

Leia mais

Contabilometria. Séries Temporais

Contabilometria. Séries Temporais Conabilomeria Séries Temporais Fone: Corrar, L. J.; Theóphilo, C. R. Pesquisa Operacional para Decisão em Conabilidade e Adminisração, Ediora Alas, São Paulo, 2010 Cap. 4 Séries Temporais O que é? Um conjuno

Leia mais

2 Formulação do Problema

2 Formulação do Problema 30 Formulação do roblema.1. Dedução da Equação de Movimeno de uma iga sobre Fundação Elásica. Seja a porção de viga infinia de seção ransversal consane mosrada na Figura.1 apoiada sobre uma base elásica

Leia mais

Processos de Markov. Processos de Markov com tempo discreto Processos de Markov com tempo contínuo. com tempo discreto. com tempo contínuo

Processos de Markov. Processos de Markov com tempo discreto Processos de Markov com tempo contínuo. com tempo discreto. com tempo contínuo Processos de Markov Processos sem memória : probabilidade de X assumir um valor fuuro depende apenas do esado aual (desconsidera esados passados). P(X n =x n X =x,x 2 =x 2,...,X n- =x n- ) = P(X n =x n

Leia mais

UNIVERSIDADE DE SÃO PAULO FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E CONTABILIDADE DEPARTAMENTO DE ECONOMIA

UNIVERSIDADE DE SÃO PAULO FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E CONTABILIDADE DEPARTAMENTO DE ECONOMIA UNIVERSIDADE DE SÃO PAULO FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E CONTABILIDADE DEPARTAMENTO DE ECONOMIA EAE 206 Macroeconomia I 1º Semesre de 2017 Professor Fernando Rugisky Lisa de Exercícios 3 [1] Considere

Leia mais

Lista de Exercícios nº 3 - Parte IV

Lista de Exercícios nº 3 - Parte IV DISCIPLINA: SE503 TEORIA MACROECONOMIA 01/09/011 Prof. João Basilio Pereima Neo E-mail: joaobasilio@ufpr.com.br Lisa de Exercícios nº 3 - Pare IV 1ª Quesão (...) ª Quesão Considere um modelo algébrico

Leia mais

Introdução aos Sinais

Introdução aos Sinais UNIVASF Análise de Sinais e Sisemas Inrodução aos Sinais Prof. Rodrigo Ramos godoga@gmail.com Classificação de Sinais Sinais Sinais geralmene ransporam informações a respeio do esado ou do comporameno

Leia mais

3 Metodologia do Estudo 3.1. Tipo de Pesquisa

3 Metodologia do Estudo 3.1. Tipo de Pesquisa 42 3 Meodologia do Esudo 3.1. Tipo de Pesquisa A pesquisa nese rabalho pode ser classificada de acordo com 3 visões diferenes. Sob o pono de visa de seus objeivos, sob o pono de visa de abordagem do problema

Leia mais

Universidade Federal do Rio Grande do Sul Escola de Engenharia de Porto Alegre Departamento de Engenharia Elétrica ANÁLISE DE CIRCUITOS II - ENG04031

Universidade Federal do Rio Grande do Sul Escola de Engenharia de Porto Alegre Departamento de Engenharia Elétrica ANÁLISE DE CIRCUITOS II - ENG04031 Universidade Federal do io Grande do Sul Escola de Engenharia de Poro Alegre Deparameno de Engenharia Elérica ANÁLISE DE CICUITOS II - ENG43 Aula 5 - Condições Iniciais e Finais de Carga e Descarga em

Leia mais

UNIVERSIDADE DA BEIRA INTERIOR FACULDADE DE CIÊNCIAS SOCIAIS E HUMANAS DEPARTAMENTO DE GESTÃO E ECONOMIA MACROECONOMIA III

UNIVERSIDADE DA BEIRA INTERIOR FACULDADE DE CIÊNCIAS SOCIAIS E HUMANAS DEPARTAMENTO DE GESTÃO E ECONOMIA MACROECONOMIA III UNIVERSIDADE DA BEIRA INTERIOR FACUDADE DE CIÊNCIAS SOCIAIS E HUMANAS DEPARTAMENTO DE GESTÃO E ECONOMIA MACROECONOMIA III icenciaura de Economia (ºAno/1ºS) Ano ecivo 007/008 Caderno de Exercícios Nº 1

Leia mais

Análise e Processamento de BioSinais

Análise e Processamento de BioSinais Análise e Processameno de BioSinais Mesrado Inegrado em Engenaria Biomédica Faculdade de Ciências e Tecnologia Slide Análise e Processameno de BioSinais MIEB Adapado dos slides S&S de Jorge Dias Tópicos:

Leia mais

4 Modelo de fatores para classes de ativos

4 Modelo de fatores para classes de ativos 4 Modelo de aores para classes de aivos 4.. Análise de esilo baseado no reorno: versão original (esáica A análise de esilo baseada no reorno é um procedimeno esaísico que visa a ideniicar as ones de riscos

Leia mais

Calcule a área e o perímetro da superfície S. Calcule o volume do tronco de cone indicado na figura 1.

Calcule a área e o perímetro da superfície S. Calcule o volume do tronco de cone indicado na figura 1. 1. (Unesp 017) Um cone circular reo de gerariz medindo 1 cm e raio da base medindo 4 cm foi seccionado por um plano paralelo à sua base, gerando um ronco de cone, como mosra a figura 1. A figura mosra

Leia mais

4 CER Compensador Estático de Potência Reativa

4 CER Compensador Estático de Potência Reativa 68 4 ompensador Esáico de Poência Reaiva 4.1 Inrodução ompensadores esáicos de poência reaiva (s ou Saic var ompensaors (Ss são equipamenos de conrole de ensão cuja freqüência de uso em aumenado no sisema

Leia mais

Função de risco, h(t) 3. Função de risco ou taxa de falha. Como obter a função de risco. Condições para uma função ser função de risco

Função de risco, h(t) 3. Função de risco ou taxa de falha. Como obter a função de risco. Condições para uma função ser função de risco Função de risco, h() 3. Função de risco ou axa de falha Manuenção e Confiabilidade Prof. Flavio Fogliao Mais imporane das medidas de confiabilidade Traa-se da quanidade de risco associada a uma unidade

Leia mais

A entropia de uma tabela de vida em previdência social *

A entropia de uma tabela de vida em previdência social * A enropia de uma abela de vida em previdência social Renao Marins Assunção Leícia Gonijo Diniz Vicorino Palavras-chave: Enropia; Curva de sobrevivência; Anuidades; Previdência Resumo A enropia de uma abela

Leia mais

Séries de Tempo. José Fajardo. Agosto EBAPE- Fundação Getulio Vargas

Séries de Tempo. José Fajardo. Agosto EBAPE- Fundação Getulio Vargas Séries de Tempo Inrodução José Faardo EBAPE- Fundação Geulio Vargas Agoso 0 José Faardo Séries de Tempo . Por quê o esudo de séries de empo é imporane? Primeiro, porque muios dados econômicos e financeiros

Leia mais

3 Uma metodologia para validação estatística da análise técnica: a busca pela homogeneidade

3 Uma metodologia para validação estatística da análise técnica: a busca pela homogeneidade 3 Uma meodologia para validação esaísica da análise écnica: a busca pela homogeneidade Ese capíulo em como objeivo apresenar uma solução para as falhas observadas na meodologia uilizada por Lo e al. (2000)

Leia mais

Voo Nivelado - Avião a Hélice

Voo Nivelado - Avião a Hélice - Avião a Hélice 763 º Ano da icenciaura em ngenharia Aeronáuica edro. Gamboa - 008. oo de ruzeiro De modo a prosseguir o esudo analíico do desempenho, é conveniene separar as aeronaves por ipo de moor

Leia mais

EXAME DE ESTATÍSTICA AMBIENTAL 2ª Época (V1)

EXAME DE ESTATÍSTICA AMBIENTAL 2ª Época (V1) Nome: Aluno nº: Duração: horas LICENCIATURA EM CIÊNCIAS DE ENGENHARIA - ENGENHARIA DO AMBIENTE EXAME DE ESTATÍSTICA AMBIENTAL ª Época (V) I (7 valores) Na abela seguine apresena-se os valores das coordenadas

Leia mais

4 O Papel das Reservas no Custo da Crise

4 O Papel das Reservas no Custo da Crise 4 O Papel das Reservas no Cuso da Crise Nese capíulo buscamos analisar empiricamene o papel das reservas em miigar o cuso da crise uma vez que esa ocorre. Acrediamos que o produo seja a variável ideal

Leia mais

2 Reforma Previdenciária e Impactos sobre a Poupança dos Funcionários Públicos

2 Reforma Previdenciária e Impactos sobre a Poupança dos Funcionários Públicos Reforma Previdenciária e Impacos sobre a Poupança dos Funcionários Públicos Em dezembro de 998 foi sancionada a Emenda Consiucional número 0, que modificou as regras exisenes no sisema de Previdência Social.

Leia mais

IA368-W Métodos Estocásticos em Robótica Móvel

IA368-W Métodos Estocásticos em Robótica Móvel IA368-W Méodos Esocásicos em Robóica Móvel Prof. Eleri Cardozo Prof. Eric Rohmer Colaboradores: Leonardo R. Olivi Paulo G. Pinheiro Ricardo S. Souza Fernando C.A. Pinho LOCALIZAÇÃO E MAPEAMENTO SIMULTÂNEOS

Leia mais

EXAME DE ESTATÍSTICA AMBIENTAL 1ª Época (v1)

EXAME DE ESTATÍSTICA AMBIENTAL 1ª Época (v1) Nome: Aluno nº: Duração: horas LICENCIATURA EM CIÊNCIAS DE ENGENHARIA - ENGENHARIA DO AMBIENTE EXAME DE ESTATÍSTICA AMBIENTAL ª Época (v) I (7 valores) Na abela seguine apresena-se os valores das coordenadas

Leia mais

4 Modelagem e metodologia de pesquisa

4 Modelagem e metodologia de pesquisa 4 Modelagem e meodologia de pesquisa Nese capíulo será apresenada a meodologia adoada nese rabalho para a aplicação e desenvolvimeno de um modelo de programação maemáica linear misa, onde a função-objeivo,

Leia mais

Exercícios Sobre Oscilações, Bifurcações e Caos

Exercícios Sobre Oscilações, Bifurcações e Caos Exercícios Sobre Oscilações, Bifurcações e Caos Os ponos de equilíbrio de um modelo esão localizados onde o gráfico de + versus cora a rea definida pela equação +, cuja inclinação é (pois forma um ângulo

Leia mais

3 Processos Estocásticos

3 Processos Estocásticos 3 Processos Esocásicos Um processo esocásico pode ser definido como uma seqüência de variáveis aleaórias indexadas ao empo e ambém a evenos. É uma variável que se desenvolve no empo de maneira parcialmene

Leia mais

Detecção e Correcção de Erros Instituto Superior de Engenharia do Porto. 2003/2004 Redes de Computadores I Filipe Costa

Detecção e Correcção de Erros Instituto Superior de Engenharia do Porto. 2003/2004 Redes de Computadores I Filipe Costa Deecção e Correcção de Erros Insiuo Superior de Engenharia do Poro 2003/2004 Redes de Compuadores I Filipe Cosa - 1020525 Deecção de Erros Nas linhas de comunicação menos consisenes, a probabilidade de

Leia mais

MODELAGEM, OTIMIZAÇÃO E SIMULAÇÃO DE POLÍTICAS OPERATIVAS BASEADAS EM PROGRAMAÇÃO DINÂMICA NO PLANEJAMENTO DA OPERAÇÃO ENERGÉTICA

MODELAGEM, OTIMIZAÇÃO E SIMULAÇÃO DE POLÍTICAS OPERATIVAS BASEADAS EM PROGRAMAÇÃO DINÂMICA NO PLANEJAMENTO DA OPERAÇÃO ENERGÉTICA UNIVERSIDADE ESTADUAL DE CAMPINAS FACULDADE DE ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO DEPARTAMENTO DE SISTEMAS E ENERGIA MODELAGEM, OTIMIZAÇÃO E SIMULAÇÃO DE POLÍTICAS OPERATIVAS BASEADAS EM PROGRAMAÇÃO DINÂMICA

Leia mais

Instituto de Física USP. Física Moderna. Aula 23. Professora: Mazé Bechara

Instituto de Física USP. Física Moderna. Aula 23. Professora: Mazé Bechara Insiuo de Física USP Física Moderna Aula 3 Professora: Mazé Bechara Aula 3 Bases da Mecânica quânica e equações de Schroedinger: para odos os esados e para esados esacionários. Aplicação e inerpreações.

Leia mais

5.3 Escalonamento FCFS (First-Come, First Served)

5.3 Escalonamento FCFS (First-Come, First Served) c prof. Carlos Maziero Escalonameno FCFS (Firs-Come, Firs Served) 26 5.3 Escalonameno FCFS (Firs-Come, Firs Served) A forma de escalonameno mais elemenar consise em simplesmene aender as arefas em sequência,

Leia mais

DEMOGRAFIA. Assim, no processo de planeamento é muito importante conhecer a POPULAÇÃO porque:

DEMOGRAFIA. Assim, no processo de planeamento é muito importante conhecer a POPULAÇÃO porque: DEMOGRAFIA Fone: Ferreira, J. Anunes Demografia, CESUR, Lisboa Inrodução A imporância da demografia no planeameno regional e urbano O processo de planeameno em como fim úlimo fomenar uma organização das

Leia mais

Expectativas, consumo e investimento CAPÍTULO 16. Olivier Blanchard Pearson Education Pearson Education Macroeconomia, 4/e Olivier Blanchard

Expectativas, consumo e investimento CAPÍTULO 16. Olivier Blanchard Pearson Education Pearson Education Macroeconomia, 4/e Olivier Blanchard Expecaivas, consumo e Olivier Blanchard Pearson Educaion CAPÍTULO 16 16.1 Consumo A eoria do consumo foi desenvolvida na década de 1950 por Milon Friedman, que a chamou de eoria do consumo da renda permanene,

Leia mais

Função Exponencial 2013

Função Exponencial 2013 Função Exponencial 1 1. (Uerj 1) Um imóvel perde 6% do valor de venda a cada dois anos. O valor V() desse imóvel em anos pode ser obido por meio da fórmula a seguir, na qual V corresponde ao seu valor

Leia mais

Otimização da Curva de Gatilho de uma Opção Americana de Compra através de Algoritmos Genéticos

Otimização da Curva de Gatilho de uma Opção Americana de Compra através de Algoritmos Genéticos > REVISTA DE INTELIGÊNCIA COMPUTACIONAL APLICADA (ISSN: XXXXXXX), Vol. X, No. Y, pp. 1-10 1 Oimização da Curva de Gailho de uma Opção Americana de Compra aravés de Algorimos Genéicos Rafael de Sequeira

Leia mais

Tabela: Variáveis reais e nominais

Tabela: Variáveis reais e nominais Capíulo 1 Soluções: Inrodução à Macroeconomia Exercício 12 (Variáveis reais e nominais) Na abela seguine enconram se os dados iniciais do exercício (colunas 1, 2, 3) bem como as soluções relaivas a odas

Leia mais

O cliente é a razão do nosso trabalho, a fim de inseri-lo em um novo contexto social de competitividade e empregabilidade.

O cliente é a razão do nosso trabalho, a fim de inseri-lo em um novo contexto social de competitividade e empregabilidade. Sumário nrodução 5 O circuio série em correne alernada 6 A correne em circuios série 6 Gráficos senoidais do circuio série 7 Gráficos fasoriais do circuio série 10 mpedância do circuio série 1 A correne

Leia mais

di L Ri v V dt + + = (1) dv dt

di L Ri v V dt + + = (1) dv dt Experiência Circuio RLC érie Regime DC Aluno: Daa: / /. Objeivos de Aprendizagem dese Experimeno A experiência raa de circuios ransiórios de segunda ordem. O objeivo dese experimeno é: Analisar as diferenes

Leia mais

2 Distribuições de Probabilidade

2 Distribuições de Probabilidade Disribuições de Probabilidade.1 Disribuição Gaussiana Para uma caracerização complea do processo esocásico seguido por uma variável aleaória é necessário deerminar algumas de suas propriedades, como sua

Leia mais

MATEMÁTICA. Prof. Favalessa REVISÃO GERAL

MATEMÁTICA. Prof. Favalessa REVISÃO GERAL MATEMÁTICA Prof. Favalessa REVISÃO GERAL. Em um cero grupo de pessoas, 40 falam inglês, 3 falam espanhol, 0 falam francês, falam inglês e espanhol, 8 falam inglês e francês, 6 falam espanhol e francês,

Leia mais

Cap. 5 - Tiristores 1

Cap. 5 - Tiristores 1 Cap. 5 - Tirisores 1 Tirisor é a designação genérica para disposiivos que êm a caracerísica esacionária ensão- -correne com duas zonas no 1º quadrane. Numa primeira zona (zona 1) as correnes são baixas,

Leia mais

ENGF93 Análise de Processos e Sistemas I

ENGF93 Análise de Processos e Sistemas I ENGF93 Análise de Processos e Sisemas I Prof a. Karen Pones Revisão: 3 de agoso 4 Sinais e Sisemas Tamanho do sinal Ampliude do sinal varia com o empo, logo a medida de seu amanho deve considerar ampliude

Leia mais

UM MÉTODO RÁPIDO PARA ANÁLISE DO COMPORTAMENTO TÉRMICO DO ENROLAMENTO DO ESTATOR DE MOTORES DE INDUÇÃO TRIFÁSICOS DO TIPO GAIOLA

UM MÉTODO RÁPIDO PARA ANÁLISE DO COMPORTAMENTO TÉRMICO DO ENROLAMENTO DO ESTATOR DE MOTORES DE INDUÇÃO TRIFÁSICOS DO TIPO GAIOLA ART643-07 - CD 262-07 - PÁG.: 1 UM MÉTD RÁPID PARA ANÁLISE D CMPRTAMENT TÉRMIC D ENRLAMENT D ESTATR DE MTRES DE INDUÇÃ TRIFÁSICS D TIP GAILA 1 - RESUM Jocélio de Sá; João Robero Cogo; Hécor Arango. objeivo

Leia mais

3 Metodologia. 3.1 Modelos em Espaço de Estado Lineares Gaussianos

3 Metodologia. 3.1 Modelos em Espaço de Estado Lineares Gaussianos 3 Meodologia 3.1 Modelos em Espaço de Esado Lineares Gaussianos 3.1.1 Esruura Básica A forma em Espaço de Esado Linear Gaussiana (forma em EE daqui por diane) consise em duas equações. A primeira delas

Leia mais

Problemas das Aulas Práticas

Problemas das Aulas Práticas Mesrado Inegrado em Engenharia Elecroécnica e de Compuadores Conrolo em Espaço de Esados Problemas das Aulas Práicas J. Miranda Lemos Fevereiro de 3 J. M. Lemos, IST P. Consrução do modelo de esado a parir

Leia mais