Aprendizado por Reforço
|
|
- João Victor Fagundes Camarinho
- 6 Há anos
- Visualizações:
Transcrição
1 Aprendizado por Reforço SCC5865-Robótica Roseli A F Romero
2 Introdução O modelo padrão de aprendizado por reforço
3 Aprendizado por Reforço Formalmente, o modelo consiste de: Um conjunto discreto de estados do ambiente, S; Um conjunto discreto de ações do agente, A; Um conjunto de sinais de reforço, normalmente {0,1}, ou um número real.
4 Aprendizado por Reforço AMBIENTE NON DETERMINISTICO Exemplo: Ambiente: Você está no estado 65. Você possui 4 possíveis ações. Agente: Eu realizo a ação 2. Ambiente: Você recebeu um reforço de 7 unidades. Você agora está no estado 15. Você possui 2 possíveis ações. Agente: Eu realizo a ação 1. Ambiente: Você recebeu um reforço de -4 unidades. Você agora está no estado 65. Você possui 4 possíveis ações. Agente: Eu realizo a ação 2. Ambiente: Você recebeu um reforço de 5 unidades. Você agora está no estado 44. Você possui 5 possíveis ações....
5 Modelos de Comportamento Ótimo 1- Finite-horizon model E h t= 0 em que, r t : recompensa escalar recebida no passo t 2 Infinite-horizont discounted model r t Otimizar sua recompensa esperada para os prox. h passos E t= 0 t γ r t em que, γ: fator de desconto (0 <= γ < 1) - taxa de interesse, probabilidade de vida ou limitador da soma infinita.
6 Modelos de Comportamento Ótimo 3) Average-reward model lim h E 1 h h t= 0 r t Otimizar a recompensa média de longo termo Tal política é conhecida como política de ganho ótima. Pode ser vista como caso limite do 2o. Modelo quando o fator de desconto se aproxima de 1 (Bertsekas, 1995).
7 Modelos de Comportamento Ótimo Comparando modelos H=5, as três ações produzirão recompensas: a. Ação é escolhida
8 Medidas de Desempenho do Aprendizado Convergência para o ótimo; Velocidade de convergência para o ótimo; Regret; Aprendizado por reforço e controle adaptativo.
9 Programação Dinâmica Exemplo 1 Considere o problema de programação linear: max sujeito a f = 8x + 10x 1 2 4x + 2x x, x Resolvendo o problema acima (método simplex), obtém-se: x = 0; x = 6; f =
10 Programação Dinâmica Uma proposta alternativa é determinar a variável gradativamente, através de decomposição do problema em uma série de estágios. A decomposição do problema (1) é ilustrada na Figura 1 abaixo. Figura 1 Diagrama de Fluxo
11 Programação Dinâmica maxx 1 f = 10x 1 2 sujeito a 2x 12 4x x 2 * Solução: x = 6 2 x ; f = 60 20x * *
12 Programação Dinâmica maxx 1 f = 8x + f = 60 12x sujeito a 4x 12 x x Solução: = 0; f = x = 6 2
13 Programação Dinâmica O estágio de entrada do estágio no. n,y n-1, é transformado em um estado de saída y n através da mudança provocada pela variável de decisão x n. As mudanças sucessivas do estado do sistema pode ser formalmente descrita pelas equações de tranformação da forma y t ( y, x ) = n= 1, 2,..., n n n 1 n N No exemplo elas tem a forma y = y 4x y = y 2x 2 1 2
14 Programação Dinâmica Juntas com as restrições de não negatividade x 1,x 2,y 1,y 2 0, elas são equivalentes as restrições do problema original (1), y 0 sendo igual a 12 e y 2 representando a variável de folga (slack variable). O retorno de cada estágio será dependente, em geral, do estado de entrada e das variáveis de decisão: r r ( y, x ) = n= 1, 2,..., N n n n 1 n No exemplo em questão as funções de retorno são da forma simples r = 10x 1 = 8x1 2 2 r
15 Programação Dinâmica Introduzindo estes símbolos na Figura 1, o diagrama de fluxo do problema de dois estágios é ilustrado segundo a Figura 2. Figura 2 Diagrama de Fluxo
16 Programação Dinâmica maxx 2 sujeito a f = r ( x ) = 10x 2x y x Solução: x ( y ) = 0.5y F( y ) = 5y em que, F 1 denota o valor máximo da função de decisão do estágio, F = max x f
17 Programação Dinâmica max x f = r( x ) + F( y ) = 8x + 5y = = 8x + 5( y 4 x ) = 5y 12x em que, sujeito a F = 4x x max x 1 y f 2 2 Solução: x ( y ) = F ( y ) = 5y 2 0 0
18 Programação Dinâmica F y 1( 1) = maxx 10x x 2 2 y x (0 0.5 ) F ( y ) = max (8 x + F( y )) = max [8 x + F( y 4 x )] x1 y0 x ( ) em que, f = F 2 (y 0 ) max f = max [ r( y, x ) + r ( y, x )] x, x
19 Programação Dinâmica F( y ) = max [ r ( y, x )] 1 1 x F ( y ) = max [ r( y, x ) + F( t ( y, x ))] 2 0 x O diagrama de fluxo para um sistema de N-estágios é apresentado na Figura 3 (próximo slide).
20 Programação Dinâmica Figura 3 Diagrama de Fluxo
21 Programação Dinâmica As funções de decisão dos estágios são respectivamente f = r ( y, x ) 1 N N 1 N N, N 1,...,2,1 f = r ( y, x ) + F( y ); y = t ( y, x )... 2 N 1 N 2 N 1 1 N 1 N 1 N 1 N 2 N 1 f = r ( y, x ) + F ( y ); y = t ( y, x )... i N ( i 1) N i N ( i 1) i 1 N ( i 1) N ( i 1) N ( i 1) N i N ( i 1) f = r( y, x ) + F ( y ) N N 1 1 em que, y 1 = t 1 (y 0,x 1 ) e F j é o máximo de f j, j= 1,2,...,N.
22 Programação Dinâmica Maximizando a função de decisão de cada estágio em relação a sua variável de decisão e tratando o estado de entrada como um parâmetro, obtêm-se as soluções de estágio paramétricas xn xn( yn 1) = n= N, N 1,..., 2,1
23 Programação Dinâmica Caso de Otimização Discreta Suponha um exemplo no qual r 1 e r 2 são definidas apenas para os intervalos x 1 3 e x 2 6:
24 Programação Dinâmica Caso de Otimização Discreta
25 Programação Dinâmica Caso de Otimização Discreta
26 Programação Dinâmica Referência ROMERO, R. A. F. ; GOMIDE, F A C. A Neural Network to Solve Discrete Dynamic Programming Problems. Campinas-SP: Relatório Técnico no 16/92, DCA/FEE/UNICAMP, 1992 (Relatório Técnico)
27 Técnicas Justificadas Formalmente Programação dinâmica * V ( n1, w1,..., nk, wk) maxi E = Future payoff if agent takes action i, then acts optimally for remaining pulls ρ V ( n, w,..., n + 1, w + 1,..., n, w ) + (,,...,, ) = max (1 ) (,,..., 1,,...,, ) * * i 1 i i i k k V n1 w1 nk wk i * ρi V n1 wi ni + wi nk wk
28 Recompensa Atrasada Processos de Decisão de Markov (MDP) Um MDP consiste de: Um conjunto de estados S; Um conjunto de ações A; Uma função de recompensa R: SxA R;
29 Recompensa Atrasada Processos de Decisão de Markov (MDP) T : SxA ( S) Uma função de transferência de estado, em que um membro de ( S) é uma distribuição de probabilidade sobre o conjunto S. Dessa maneira, T(s,a,s ) éa probabilidade de realizar a transição do estado s para o estado s através da ação a.
30 Recompensa Atrasada Definindo uma política de um modelo = * t V () s maxe γ rt π t= 0 = + * * V () s max (, ) (,, ') ('), a R s a γ T s a s V s s S s' S (1)
31 Recompensa Atrasada Definindo uma política de um modelo * * π () s = arg max Rsa (, ) γ TsasV (,, ') ( s') a + s' S
32 Algoritmo Value Iteration Definindo uma política de um modelo initialize V(s) arbitrarily loop until policy good enough loop for s S loop for a A Qsa (, ): = Rsa (, ) + γ Tsas (,, ') Vs (') V(): s = max Q(, s a) end loop end loop a s' S Complexidade: quadratica no no. de estados e linear no no. de ações
33 Recompensa Atrasada Definindo uma política de um modelo baseada na eq. 1 ( γ ) Qsa (, ): = Qsa (, ) + α r+ max Qs (', a') Qsa (, ) a' r é uma amostra com média R(S,a) e variancia limitada e s é amostrado da distr. T(s,a,s )
34 Algoritmo de Policy Iteration Definindo uma política de um modelo choose an arbitrary policy π loop until π : = π ' compute the value function of policy π: solve the linear equations V () s R(, s π ()) s γ T(, s π (), s s') V (') s π = + s' S improve the policy at each state: ( ) π π '( s) : = arg max R( s, a) + γ T( s, a, s') V ( s') π = π ' a s ' S π
35 Métodos Livres de Modelos Q-Learning * * Q s a R s a γ T s a s Q s a a' s' S (, ) = (, ) + (,, ')max ( ', ') ( γ ) Qsa (, ): = Qsa (, ) + α r+ max Qs (', a') Qsa (, ) a'
36 Q-Learning [Watkins, 1989] No tempo t, o agente: observa estado s t e reforço R t, seleciona ação a t ; No tempo t+1, o agente: observa estado s t+1 ; atualiza o valor de ação Q t (s t,a t ) de acordo com Q t (s t,a t )=α t [R t + γ max a Q t (s t+1,a) - Q t (s t,a t )]
37 Características do Q-Learning Convergência garantida Ações de treino podem ser escolhidas livremente Convergência extremamente lenta
38 Q-Learning Exploração X Exploitação O algoritmo pode ser tendioso se a escolha for sempre para a melhor ação (exploração). Então deve-se colocar uma taxa de exploitação (ainda que pequena) para que uma ação seja escolhida de forma aleatória.
39 R-learning [Schwartz, 1993] Semelhante ao Q-learning, mas: Maximiza a recompensa média para cada passo. Não utiliza descontos (γ). Atualiza o valor de ação R t (s t,a t ) de acordo com R t (s t,a t )=α t [r t - ρ + max a R t (s t +1,a) - R t (s t,a t )] ρ só é atualizado quando a não for aleatório: ρ t = ρ t + β [r t + max a R t (s t +1,a) - max a R t (s t,a) ρ t ]
40 Referências Kaelbling, L. P.; Littman, M. L. ; Moore, A. W. (1996). Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, vol. 4, pg
Aprendizado por Reforço
Aprendizado por Reforço Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Aprendizado por Reforço 2. Q-Learning 3. SARSA 4. Outras ideias 1 Aprendizado por Reforço Problemas de decisão
Leia maisCES Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov
CES -161 - Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov Prof. Paulo André Castro www.comp.ita.br/~pauloac pauloac@ita.br Sala 110, IEC-ITA Aprendizado - paradigmas Aprendizado
Leia maislnteligência Artificial Introdução ao Processo Decisório de Markov
lnteligência Artificial Introdução ao Processo Decisório de Markov Aprendizado - paradigmas Aprendizado supervisionado O crítico comunica a EA o erro relativo entre a ação que deve ser tomada idealmente
Leia maisCES Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov
CES -161 - Modelos Probabilísticos em Grafos Introdução a Modelo Decisório de Markov Prof. Paulo André Castro www.comp.ita.br/~pauloac pauloac@ita.br Sala 110, IEC-ITA Aprendizado - paradigmas Aprendizado
Leia maisControle Ótimo - Aula 2 (Exemplos 2, 3 e 4)
Controle Ótimo - Aula 2 (Exemplos 2, 3 e 4) Adriano A. G. Siqueira e Marco H. Terra Departamento de Engenharia Elétrica Universidade de São Paulo - São Carlos Sistemas dinâmicos discretos no tempo O Problema
Leia maisAprendizagem por Reforço
Aprendizagem por Reforço Motivação! Como um agente aprende a escolher ações apenas interagindo com o ambiente? n n Muitas vezes, é impraticável o uso de aprendizagem supervisionada w Como obter exemplos
Leia mais3 Aprendizado por reforço
3 Aprendizado por reforço Aprendizado por reforço é um ramo estudado em estatística, psicologia, neurociência e ciência da computação. Atraiu o interesse de pesquisadores ligados a aprendizado de máquina
Leia maisUSO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO
USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO DANILO H. PERICO, REINALDO A. C. BIANCHI Centro Universitário da FEI, Av. Humberto de Alencar Castelo Branco,
Leia maisCEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra Lista de exercícios 04
. CEFET/RJ Inteligência Artificial (2018.1) Prof. Eduardo Bezerra (ebezerra@cefet-rj.br) Lista de exercícios 04 Créditos: essa lista de exercícios contém a tradução dos exercícios disponibilizados na disciplina
Leia maislnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning)
lnteligência Artificial Introdução ao Aprendizado por Reforço (Reinforcement Learning) Processo Decisório de Markov e Aprendizado por Reforço Quando falamos sobre Processo decisório de Markov e formalizamos
Leia maisReinforcement Learning
Reinforcement Learning (Aprendizado por Reforço) Karla Figueiredo DEE/PUC-Rio 1 Sumário Introdução Motivação Histórico Conceitos básicos Fundamentos Teóricos Processos de Decisão de Markov Propriedade
Leia maisAprendizado por Reforço para um Sistema Tutor Inteligente sem Modelo
Aprendizado por Reforço para um Sistema Tutor Inteligente sem Modelo Explícito do Aprendiz Marcus Vinícius Carvalho Guelpeli Divisão de Ciência da Computação Instituto Tecnológico de Aeronáutica São José
Leia maisINF 1771 Inteligência Artificial
Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 24 Aprendizado Por Reforço Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor (KNN).
Leia maisUso de Heurísticas para a Aceleração do Aprendizado por Reforço
Proceedings of the International Joint Conference IBERAMIA/SBIA/SBRN 2006-5th Best MSc dissertation/phd thesis contest (CTDIA 2006), Ribeirão Preto, Brazil, October 23 28, 2006. CD-ROM. ISBN 85-87837-11-7
Leia maisUso de Heurísticas para a Aceleração do Aprendizado por
Uso de Heurísticas para a Aceleração do Aprendizado por Reforço Reinaldo A. C. Bianchi 1,2, Anna H. R. Costa 1 1 Laboratório de Técnicas Inteligentes Escola Politécnica da Universidade de São Paulo Av.
Leia maisAprendizado por reforço em lote para o problema de tomada de decisão em processos de venda
Aprendizado por reforço em lote para o problema de tomada de decisão em processos de venda Denis Antonio Lacerda e Leliane Nunes de Barros Departamento de Ciência da Computação, IME/USP denis@ime.usp.br,
Leia maisCEFET/RJ Inteligência Artificial (2017.2) Professor: Eduardo Bezerra Lista de exercícios 03
. CEFET/RJ Inteligência Artificial (2017.2) Professor: Eduardo Bezerra (ebezerra@cefet-rj.br) Lista de exercícios 03 Créditos: essa lista de exercícios contém a tradução dos exercícios disponibilizados
Leia mais15 29, , , , , , , , , ,55
2 Conceitos Básicos Neste capítulo, introduzimos alguns conceitos relevantes para o nosso trabalho. Inicialmente, na seção 2.1, detalhamos o funcionamento do mercado financeiro, definindo alguns termos
Leia maisCENTRO UNIVERSITÁRIO DA FEI DANILO HERNANI PERICO USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO
CENTRO UNIVERSITÁRIO DA FEI DANILO HERNANI PERICO USO DE HEURÍSTICAS OBTIDAS POR MEIO DE DEMONSTRAÇÕES PARA ACELERAÇÃO DO APRENDIZADO POR REFORÇO São Bernardo do Campo 2012 DANILO HERNANI PERICO Uso de
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 18 Aprendizado Por Reforço Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor (KNN).
Leia maisPrograma: Ciência da Computação Orientadora: Prof ạ Dr ạ Leliane Nunes de Barros
Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda Denis Antonio Lacerda Dissertação apresentada ao Instituto de Matemática e Estatística da Universidade
Leia mais2 Aprendizado de Máquina
2 Aprendizado de Máquina Desde que os computadores foram inventados, sempre nos perguntamos se eles poderiam ser feitos para aprender. Se pudéssemos compreender como programá-los para aprender e melhorar
Leia mais3 Otimização Aplicada a Reconstituição de Acidentes
27 3 Otimização Aplicada a Reconstituição de Acidentes 3.1. Otimização A otimização é uma metodologia empregada para minimizar ou maximizar uma função e geralmente são utilizados em problemas onde existam
Leia maisFísica Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação
Física Geral - Laboratório Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação 1 Física Geral - Objetivos Ao final do período, o aluno deverá ser capaz de compreender as principais
Leia maisUm Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid
1 Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid Luciana Conceição Dias Campos Resumo Este trabalho consiste da aplicação de um algoritmo genético ao método
Leia maisSinais e Sistemas. Sinais e Sistemas Fundamentos. Renato Dourado Maia. Universidade Estadual de Montes Claros. Engenharia de Sistemas
Sinais e Sistemas Sinais e Sistemas Fundamentos Renato Dourado Maia Universidade Estadual de Montes Claros Engenharia de Sistemas Classificação de Sinais Sinal de Tempo Contínuo: É definido para todo tempo
Leia mais3 Filtro de Kalman Discreto
3 Filtro de Kalman Discreto As medidas realizadas por sensores estão sujeitas a erros, como pode ser visto no Capítulo 2. Os filtros são aplicados aos sinais medidos pelos sensores para reduzir os erros,
Leia maisMáquinas de Vetores de Suporte
Máquinas de Vetores de Suporte Marcelo K. Albertini 14 de Setembro de 2015 2/22 Máquinas de Vetores de Suporte Support Vector Machines (SVM) O que é? Perceptron revisitado Kernels (núcleos) Otimização
Leia maisO método Simplex Aplicado ao Problema de Transporte (PT).
Prof. Geraldo Nunes Silva (Revisado por Socorro Rangel) Estas notas de aula são Baseadas no livro: Hillier, F. S. e G. J. Lieberman. Introdução à Pesquisa Operacional, Campus, a ed., 9 Agradeço a Professora
Leia maisSEMÁFORO INTELIGENTE UMA APLICAÇÃO DE APRENDIZAGEM POR REFORÇO
Anais do XIX Congresso Brasileiro de Automática, CBA 2012. SEMÁFORO INTELIGENTE UMA APLICAÇÃO DE APRENDIZAGEM POR REFORÇO GABRIEL M. COSTA, GUILHERME S. BASTOS Centro de Referência em Tecnologias da Informação,
Leia maisAPRENDIZAGEM POR REFORÇO PARA TIMES DE ROBÔS. Carlos Henrique Costa Ribeiro PQ Lucas Heitzmann Gabrielli IC
PRENDIZGEM POR REFORÇO PR TIMES DE ROÔS arlos Henrique osta Ribeiro PQ Lucas Heitzmann Gabrielli I Resumo: Times de robôs autônomos podem propiciar uma forma mais eficiente de solução de tarefas complexas
Leia maisOtimização de Sistemas Hidrotérmicos por Enxame de Partículas: Uma Abordagem Orientada a Objetos
Otimização de Sistemas Hidrotérmicos por Enxame de Partículas: Uma Abordagem Orientada a Objetos Gelson da Cruz JUNIOR 2, Cassio Dener Noronha VINHAL 3 Lauro Ramon GOMIDES 1, Gelson da Cruz JUNIOR 2, Cassio
Leia maisTransformada Rápida de Fourier (FFT)
Transformada Rápida de Fourier (FFT) A FFT é um algoritmo eficiente para calcular a DFT A DFT de uma sequência x n de comprimento finito N é definida como: N 1 N 1 X k = x n e j2π N kn = x n W N kn, 0
Leia maisIntrodução ao Processamento Estatístico de Sinais
Charles Casimiro Cavalcante charles@gtel.ufc.br Grupo de Pesquisa em Telecomunicações Sem Fio GTEL Departamento de Engenharia de Teleinformática Universidade Federal do Ceará UFC http://www.gtel.ufc.br/
Leia maisProcessos Estocásticos e Cadeias de Markov Discretas
Processos Estocásticos e Cadeias de Markov Discretas Processo Estocástico(I) Definição: Um processo estocástico é uma família de variáveis aleatórias {X(t) t T}, definidas em um espaço de probabilidades,
Leia maisUTILIZANDO TRANSFERÊNCIA DE CONHECIMENTO PARA ACELERAR O APRENDIZADO POR REFORÇO Luiz A. Celiberto Jr, Murilo F. Martins, Reinaldo A. C. Bianchi, Jackson P. Matsuura Departamento de Sistemas e Controle
Leia maisBCC465 - TÉCNICAS DE MULTI-OBJETIVO. Gladston Juliano Prates Moreira 22 de novembro de 2017
BCC465 - TÉCNICAS DE OTIMIZAÇÃO MULTI-OBJETIVO Aula 04 - Otimização Não-linear Gladston Juliano Prates Moreira email: gladston@iceb.ufop.br CSILab, Departamento de Computação Universidade Federal de Ouro
Leia mais2 - Modelos em Controlo por Computador
Controlo Óptimo e Adaptativo 2-Modelos em Controlo por Computador 2 - Modelos em Controlo por Computador Objectivo: Introduir a classe de modelos digitais que são empregues nesta disciplina para o projecto
Leia maisTeoria de dualidade. Marina Andretta ICMC-USP. 19 de outubro de 2016
Teoria de dualidade Marina Andretta ICMC-USP 19 de outubro de 2016 Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis. Marina Andretta (ICMC-USP) sme0211 - Otimização
Leia mais2. Redes Neurais Artificiais
Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.5. Support Vector Machines 2.5. Support Vector Machines (SVM) 2.5.2.
Leia maisMétodos de Pesquisa Operacional
Métodos de Pesquisa Operacional Programação Linear é a parte da Pesquisa Operacional que trata da modelagem e resolução de problemas formulados com funções lineares. Programação Linear } Métodos de Resolução
Leia maisRedes Neurais Artificiais
Redes Neurais Artificiais Marcelo K. Albertini 24 de Julho de 2014 2/34 Conteúdo Perceptron Gradiente descendente Redes multicamadas Retropropagação de erros 3/34 Modelos conexionistas Humanos Tempo de
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisFísica Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação
Física Geral - Laboratório Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação 1 Física Geral - Objetivos Ao final do período, o aluno deverá ser capaz de compreender as principais
Leia maisJogos de soma zero com dois jogadores
Jogos de soma zero com dois jogadores Problema: Dada uma matriz A m n, encontrar um equilíbrio de Nash (de estratégias mistas). Jogador 1 quer encontrar p que maximize v sujeito a i p i = 1 sujeito a (pa)
Leia maisPEA 2522 MÉTODOS DE OTIMIZAÇÃO. Otimização
PEA MÉTODOS DE OTIMIZAÇÃO Otimização Definir claramente o problema a ser resolvido Estabelecer os limites físicos (capacidades, restrições) Definir o modelo matemático adequado PEA 8 - PLANEJAMENTO DE
Leia maisControle Ótimo - Aula 6 Exemplos e Exercícios
Controle Ótimo - Aula 6 Exemplos e Exercícios Adriano A. G. Siqueira e Marco H. Terra Departamento de Engenharia Elétrica Universidade de São Paulo - São Carlos Probabilidades Probabilidade: número entre
Leia maisRedes Neurais e Sistemas Fuzzy
Redes Neurais e Sistemas Fuzzy O ADALINE e o algoritmo LMS O ADALINE No contexto de classificação, o ADALINE [B. Widrow 1960] pode ser visto como um perceptron com algoritmo de treinamento baseado em minimização
Leia maisAprendizado por Reforço Multiagente: Uma Avaliação de Diferentes Mecanismos de Recompensa para o Problema de Aprendizado de Rotas
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO RICARDO GRUNITZKI Aprendizado por Reforço Multiagente: Uma Avaliação de Diferentes Mecanismos
Leia maisP2 de Álgebra Linear I Data: 10 de outubro de Gabarito
P2 de Álgebra Linear I 2005.2 Data: 10 de outubro de 2005. Gabarito 1 Decida se cada afirmação a seguir é verdadeira ou falsa. Itens V F N 1.a F 1.b V 1.c V 1.d F 1.e V 1.a Considere duas bases β e γ de
Leia maisProva I - Pesquisa Operacional - 12/05/2011. nome:
nome: )[.0] Uma empresa recebeu um pedido para produzir 6000 peças. A empresa pode produzir a peça em máquinas que possuem capacidades e precisões diferentes. A empresa deve entregar o pedido em 8 dias
Leia mais)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD
)XQGDPHQWRVGHUREDELOLGDGHHHVWDWtVWLFD,QWURGXomR A história da estatística pode ser dividida em três fases. De acordo com PEANHA (00), a estatística inicialmente não mantinha nenhuma relação com a probabilidade,
Leia maisAPRENDIZADO POR REFORÇO MULTIAGENTE MULTIOBJETIVO ACELERADO POR HEURÍSTICAS APLICADO AO PROBLEMA DA PRESA E PREDADOR Leonardo A. Ferreira, Carlos H. C. Ribeiro, Reinaldo A. C. Bianchi Centro Universitário
Leia maisCadeias de Markov. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo
Cadeias de Markov Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Capitulos 3 e 4 Taylor & Karlin 1 / 71 Cadeias de Markov Seja X 0, X 1,...
Leia maisFísica Geral - Laboratório (2013/1) Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação
Física Geral - Laboratório (2013/1) Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação 1 Lembrando: Bibliografia Estimativas e Erros em Experimentos de Física (EdUERJ) 2 Resumo:
Leia maisAula - Equações de Chapman-Kolmogorov
Equações de Chapman-Kolmogorov Prof. Magnos Martinello Aula - Equações de Chapman-Kolmogorov Universidade Federal do Esprito Santo-UFES 2011 Equações de Chapman-Kolmogorov 1/17 Introdução As equações de
Leia maisModelagem para previsão/estimação: uma aplicação Neuro-Fuzzy
Proceeding Series of the Brazilian Society of pplied and Computational Mathematics, Vol., N., 0. Trabalho apresentado no XXXV CNMC, Natal-RN, 0. Modelagem para previsão/estimação: uma aplicação Neuro-Fuzzy
Leia maisControle Ótimo - Aula 8 Equação de Hamilton-Jacobi
Controle Ótimo - Aula 8 Equação de Hamilton-Jacobi Adriano A. G. Siqueira e Marco H. Terra Departamento de Engenharia Elétrica Universidade de São Paulo - São Carlos O problema de controle ótimo Considere
Leia mais5 Decisão Sob Incerteza
5 Decisão Sob Incerteza Os problemas de decisão sob incerteza são caracterizados pela necessidade de se definir valores de variáveis de decisão sem o conhecimento prévio da realização de parâmetros que,
Leia maisUtilização de Aprendizagem por Reforço para Modelagem Autônoma do Aprendiz em um Tutor Inteligente
Utilização de Aprendizagem por Reforço para Modelagem Autônoma do Aprendiz em um Tutor Inteligente Modalidade Artigo Completo Marcus V. C. Guelpeli 1, Carlos H. C. Ribeiro 1 e Nizam Omar 2 1 Divisão de
Leia maisProcesso de Decisão Markoviano com Transição Valorada por Conjunto modelado como um Jogo Alternado de Soma Zero
Processo de Decisão Markoviano com Transição Valorada por Conjunto modelado como um Jogo Alternado de Soma Zero Leliane Nunes de Barros 1, Fábio de Oliveira Franco 1 e Karina Valdivia Delgado 2 1 Instituto
Leia maisAprendizado por Reforço usando Aproximação
Aprendizado por Reforço usando Aproximação de Funções Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Aproximação de Funções 2. Do the evolution 1 Aproximação de Funções Função Utilidade
Leia maisProva Escrita de MATEMÁTICA A - 12o Ano a Fase
Prova Escrita de MATEMÁTICA A - o Ano 7 - a Fase Proposta de resolução GRUPO I. Como a área do retângulo é igual a 5, designado por x o comprimento de um dos lados e por y o comprimento de um lado adjacente,
Leia maisCONSTRUINDO CASOS A PARTIR DA ESTRUTURA DO AMBIENTE: UMA NOVA ABORDAGEM PARA A ACELERAÇÃO DO APRENDIZADO POR REFORÇO.
CONSTRUINDO CASOS A PARTIR DA ESTRUTURA DO AMBIENTE: UMA NOVA ABORDAGEM PARA A ACELERAÇÃO DO APRENDIZADO POR REFORÇO. Luiz Antonio Celiberto Junior, Jackson P. Matsuura, Reinaldo A. C. Bianchi Instituto
Leia maisUniversidade Federal do Rio Grande do Sul Escola de Engenharia Departamento de Engenharia Elétrica ENG04037 Sistemas de Controle Digitais
Universidade Federal do Rio Grande do Sul Escola de Engenharia Departamento de Engenharia Elétrica ENG04037 Sistemas de Controle Digitais 1 Introdução Identificação via Mínimos Quadrados Prof. Walter Fetter
Leia maisProcessos estocásticos
36341 - Introdução aos Processos Estocásticos Curso de Pós-Graduação em Engenharia Elétrica Departamento de Engenharia Elétrica Universidade de Brasília Processos estocásticos Geovany A. Borges gaborges@ene.unb.br
Leia maisFísica Geral - Laboratório. Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação
Física Geral - Laboratório Aula 2: Organização e descrição de dados e parâmetros de dispersão e correlação 1 Física Geral - Objetivos Ao final do período, o aluno deverá ser capaz de compreender as principais
Leia maisEconometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010
Aula - 6/8/010 Econometria Econometria 1. Hipóteses do Modelo de RLM O modelo de regressão linear múltipla Estudar a relação entre uma variável dependente e uma ou mais variáveis independentes. Forma genérica:
Leia maisSCC Capítulo 4 Perceptron de Camada Única
Perceptron LMS SCC-5809 - Capítulo 4 Perceptron de Camada Única João Luís Garcia Rosa 1 1 SCC-ICMC-USP - joaoluis@icmc.usp.br 2011 João Luís G. Rosa c 2011 - SCC-5809: Redes Neurais 1/45 Sumário Perceptron
Leia maisPesquisa Operacional Introdução. Profa. Alessandra Martins Coelho
Pesquisa Operacional Introdução Profa. Alessandra Martins Coelho julho/2014 Operational Research Pesquisa Operacional - (Investigação operacional, investigación operativa) Termo ligado à invenção do radar
Leia maisSUPPORT VECTOR MACHINE - SVM
SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento
Leia maisOtimização Linear. Profª : Adriana Departamento de Matemática. wwwp.fc.unesp.br/~adriana
Otimização Linear Profª : Adriana Departamento de Matemática adriana@fc.unesp.br wwwp.fc.unesp.br/~adriana Revisão Método Simplex Solução básica factível: xˆ xˆ, xˆ N em que xˆ N 0 1 xˆ b 0 Solução geral
Leia mais4.1. ESPERANÇA x =, x=1
4.1. ESPERANÇA 139 4.1 Esperança Certamente um dos conceitos mais conhecidos na teoria das probabilidade é a esperança de uma variável aleatória, mas não com esse nome e sim com os nomes de média ou valor
Leia maisAlgoritmos Genéticos e Evolucionários
Algoritmos Genéticos e Evolucionários Djalma M. Falcão COPPE/UFRJ PEE e NACAD falcao@nacad.ufrj.br http://www.nacad.ufrj.br/~falcao/ http://www.nacad.ufrj.br/~falcao/ag/ag.htm Resumo do Curso Introdução
Leia maisAprendizado por Reforço Multiagente: Uma Avaliação de Diferentes Mecanismos de Recompensa para o Problema de Aprendizado de Rotas
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO RICARDO GRUNITZKI Aprendizado por Reforço Multiagente: Uma Avaliação de Diferentes Mecanismos
Leia maisCLASSIFICAÇÃO DE PROBLEMAS SEQÜENCIAIS DE MÚLTIPLOS ESTÁGIOS
Encontro Internacional de Produção Científica Cesumar 23 a 26 de outubro de 2007 CLASSIFICAÇÃO DE PROBLEMAS SEQÜENCIAIS DE MÚLTIPLOS ESTÁGIOS João Candido Bracarense 1, Juliano Rodrigo Lamb 2 RESUMO: A
Leia maisCONTROLE REGIONAL DE TENSÃO UTILIZANDO LÓGICA FUZZY E APRENDIZADO POR REFORÇO. Alessandro Bulhões Marques
COPPE/UFRJ CONTROLE REGIONAL DE TENSÃO UTILIZANDO LÓGICA FUZZY E APRENDIZADO POR REFORÇO Alessandro Bulhões Marques Tese de Doutorado apresentada ao Programa de Pós-graduação em Engenharia Elétrica, COPPE,
Leia maisPESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR MÉTODO SIMPLEX. Prof. Angelo Augusto Frozza, M.Sc.
PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR MÉTODO SIMPLEX Prof. Angelo Augusto Frozza, M.Sc. ROTEIRO Esta aula tem por base o Capítulo 3 do livro de Taha (2008): Motivação Conceitos Matemáticos Iniciais
Leia maisO processo de filtragem de sinais pode ser realizado digitalmente, na forma esquematizada pelo diagrama apresentado a seguir:
Sistemas e Sinais O processo de filtragem de sinais pode ser realizado digitalmente, na forma esquematizada pelo diagrama apresentado a seguir: 1 Sistemas e Sinais O bloco conversor A/D converte o sinal
Leia maisSistemas Lineares e Invariantes de Tempo Discreto
Sistemas Lineares e Invariantes de Tempo Discreto 28 Sistemas Lineares de Tempo Discreto Um sistema linear satisfaz o teorema da superposição e implica que o sistema tem condições iniciais iguais a zero
Leia maisPROCESSO SELETIVO N 42/2019 PROVA 2 - CONHECIMENTOS ESPECÍFICOS
PROCESSO SELETIVO N 42/2019 PROVA 2 - CONHECIMENTOS ESPECÍFICOS LEIA ATENTAMENTE AS INSTRUÇÕES ABAIXO 1. Você recebeu do fiscal o seguinte material: (a) Este caderno, com o enunciado das 20 (vinte) questões
Leia maisOtimização Linear. Profª : Adriana Departamento de Matemática. wwwp.fc.unesp.br/~adriana
Otimização Linear Profª : Adriana Departamento de Matemática adriana@fc.unesp.br wwwp.fc.unesp.br/~adriana Forma geral de um problema Em vários problemas que formulamos, obtivemos: Um objetivo de otimização
Leia mais2. Redes Neurais Artificiais
Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.3. Perceptron Multicamadas - MLP 2.3.1. Introdução ao MLP 2.3.2. Treinamento
Leia maisComunicaçõ. ções Digitais II. Texto original por Prof. Dr. Ivan Roberto Santana Casella
PTC-43 Comunicaçõ ções Digitais II Texto original por Prof. Dr. Ivan Roberto Santana Casella Representaçã ção o Geométrica de Sinais A modulação digital envolve a escolha de um sinal específico s i (t)
Leia maisParte I O teste tem uma parte de resposta múltipla (Parte I) e uma parte de resolução livre (Parte II)
Instituto Superior Técnico Sinais e Sistemas o teste 4 de Novembro de 0 Nome: Número: Duração da prova: horas Parte I O teste tem uma parte de resposta múltipla (Parte I) e uma parte de resolução livre
Leia mais3 Planejamento da Operação de Médio Prazo
3 Planejamento da Operação de Médio Prazo 3.1. Considerações Iniciais Diversos métodos têm sido propostos para a solução do problema de planejamento energético de médio prazo de sistemas hidrotérmicos
Leia maisAula 19: Lifting e matrizes ideais
Aula 19: Lifting e matrizes ideais Otimização Linear e Inteira Túlio A. M. Toffolo http://www.toffolo.com.br BCC464/PCC174 2018/2 Departamento de Computação UFOP Previously... Branch-and-bound Formulações
Leia maisModelagem Computacional. Parte 8 2
Mestrado em Modelagem e Otimização - RC/UFG Modelagem Computacional Parte 8 2 Prof. Thiago Alves de Queiroz 2/2016 2 [Cap. 10 e 11] BURDEN, R. L.; FAIRES, J. D. Numerical Analysis (9th ed). Cengage Learning,
Leia maisVários modelos: um SAD pode incluir vários modelos, cada um representando uma parte diferente do problema de tomada de decisão Categorias de modelos
MODELAGEM E ANÁLISE Modelagem Questões atuais de modelagem Vários modelos: um SAD pode incluir vários modelos, cada um representando uma parte diferente do problema de tomada de decisão Categorias de modelos
Leia maisGeração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada.
Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada [alessandro@psr-inc.com] Conteúdo Introdução Estimação não paramétrica (Kernel density) Transformação
Leia maisTeoria de Filas Aula 10
Aula Passada Comentários sobre a prova Teoria de Filas Aula 10 Introdução a processos estocásticos Introdução a Cadeias de Markov Aula de Hoje Cadeias de Markov de tempo discreto (DTMC) 1 Recordando...
Leia maisCodificação das variáveis: binária Iniciação da população: aleatória Avaliação: função aptidão Operadores. Critério de parada: número de gerações
AG Simples/Canônico (AGS) AG introduzido por Holland Funciona bem para problemas de otimização simples e/ou de pequenas dimensões A maior parte da teoria dos AGs está baseada no AGS Utilidade didática
Leia maisAplicação. Controlo Óptimas. 23º Seminário de Engenharia Mecânica - 4 Junho de Nuno Manuel R. S. Órfão
Aplicação de Cadeias de Markov em Redes de Filas de Espera Políticas de Controlo Óptimas 23º Seminário de Engenharia Mecânica - 4 Junho de 2003 - Nuno Manuel R. S. Órfão nmorfao@estg.ipleiria.pt 1 Sumário
Leia mais3. VARIÁVEIS ALEATÓRIAS
3. VARIÁVEIS ALEATÓRIAS 011 Variável aleatória é o espaço amostral de um eperimento aleatório. Uma variável aleatória,, é uma função que atribui um número real a cada resultado em. Eemplo. Retira-, ao
Leia maisTransformada Discreta de Fourier (DFT)
Transformada Discreta de Fourier (DFT) A DFT de uma sequência x n de comprimento finito N é definida como: X k = x n e j2π N kn, 0 k N 1 A DFT mapeia uma sequência de comprimento N, x n, em outra sequência,
Leia maisPesquisa Operacional
Pesquisa Operacional Teoria da Dualidade Profa. Sheila Morais de Almeida DAINF-UTFPR-PG outubro - 2015 Problema Dual Cada problema de Programa de Programação Linear está associado a um outro problema de
Leia maisUNIVERSIDADE FEDERAL DO ABC
UNIVERSIDADE FEDERAL DO ABC BC49 Cálculo Numérico - LISTA - sistemas lineares de equações Profs André Camargo, Feodor Pisnitchenko, Marijana Brtka, Rodrigo Fresneda Métodos diretos Analise os sistemas
Leia maisQoS Control for Sensor Networks Ranjit Iyer Leonard Kleinrock. Aluno: Eduardo Hargreaves Professor: Luís Felipe M. de Moraes
QoS Control for Sensor Networks Ranjit Iyer Leonard Kleinrock Aluno: Eduardo Hargreaves Professor: Luís Felipe M. de Moraes Introdução As Redes de Sensores têm características bem particulares entre elas:
Leia mais1. Converta os seguintes números decimais para sua forma binária: (a) 22 (b) 255 (c) 256 (d) 0.11 (e) (f)
1 a Lista de Exercícios de Cálculo Numérico Prof a. Vanessa Rolnik 1. Converta os seguintes números decimais para sua forma binária: (a) 22 (b) 255 (c) 256 (d).11 (e).8125 (f) 4.69375 2. Converta os seguintes
Leia mais