BCC465 - TÉCNICAS DE MULTI-OBJETIVO. Gladston Juliano Prates Moreira 22 de novembro de 2017

BCC465 - TÉCNICAS DE OTIMIZAÇÃO MULTI-OBJETIVO Aula 04 - Otimização Não-linear Gladston Juliano Prates Moreira email: gladston@iceb.ufop.br CSILab, Departamento de Computação Universidade Federal de Ouro Preto 22 de novembro de 2017 1 / 64

Apresentação Otimização Não-Linear Definições gerais Condições de Otimalidade Método de Penalidade Métodos Determinísticos Métodos de direção de busca 2 / 64

Otimização Não-Linear 3 / 64

Problema de Otimização Um problema de otimização, pode descrito por um modelo geral como segue: min f (x) R sujeito a: g i (x) 0 i = 1,..., m h j (x) = 0 j = m + 1,..., l x X 4 / 64

Problema de Otimização A escolha da técnica de otimização depende da natureza das funções f (x), g(x), h(x). Não há uma técnica de otimização que seja universal. Como fazer a escolha certa? 5 / 64

Fundamentos Conjuntos Convexos Um conjunto X R n é dito convexo se, x 1, x 2 X e 0 λ 1, tem-se que λx 1 + (1 λ)x 2 X 1. C = { (x 1 ; x 2 ) : x 2 1 + x 2 2 4} R 2 2. C = {x : Ax b} 6 / 64

Fundamentos Conjuntos Conexos Seja o conjunto X R n. Esse conjunto é dito conexo se, dados quaisquer dois pontos x 1, x 2 X, existe uma curva contínua finita q tal que x 1 q, x 2 q, e q X. 7 / 64

Fundamentos Uma função é uma relação que associa a um elemento de um conjunto A a um único elemento de um conjunto B, ou seja, a A b = f (a) B Se f (.) : X R n R, dizemos que f (.) é um funcional. Uma função f (.) : X Y é dita uma função convexa sobre X R n se, x 1, x 2 X e 0 λ 1, tem-se que f (λx 1 + (1 λ)x 2 ) λf (x 1 ) + (1 λ)f (x 2 ) 8 / 64

Superfície de nível e região subnível Dada uma função f (.) : X R n R, o conjunto R(f, α) = {x X : f (x) α} é denominada região de subnível. Se f (.) é convexa então R(f, α) é um conjunto convexo. A superfície de nível (ou curva de nível) é definida como S(f, α) = {x X : f (x) = α} 9 / 64

Superfície de nível e região subnível 10 / 64

Modalidades de Funções Uma função f (.) : X R n R é dita unimodal, se R(f, α) é um conjunto conexo para todo α R. Uma função f (.) : X R n R é dita multimodal, se R(f, α) é um conjunto desconexo para algum α R. 11 / 64

Modalidades de Funções Um exemplo de multimodalidade. 12 / 64

Modalidades de Funções Note que uma função unimodal pode possuir múltiplos mínimos, desde que o conjunto destes forme um conjunto conexo (segundo esta definição). A função f (x) = [ ] [ ] [ ] 1 0 x1 x 1 x 2 0 0 os mínimos ocorrem sobre o eixo x 1 = 0. Bacias de atração Sejam f (.) : X R n R e x X um mínimo local de f (.). A bacia de atração de x, B(x ) é definida como a maior região conexa de subnível R(f, α) que contém x, sendo α o nível correspondente, tal que a função restrita a essa região: x 2 f (.) : R(f, α ) R é unimodal. 13 / 64

A convexidade de funções pode ser relacionada com as regiões de sub-nível, superfícies de nível e bacias de atração. 1. Todas as regiões de sub-nível de uma função convexa num domínio convexo são conjuntos convexos. 2. Uma função convexa em um domínio convexo possui uma única bacia de atração, a qual é um conjunto convexo. 14 / 64

Continuidade e Diferenciabilidade Uma função f (.) : X R n R é dita contínua se x 0 X : f (x 0 ) está definido; lim = f (x 0 ) x x0 Uma função contínua é aquela para a qual uma pequena variação no domínio gera uma pequena variação na imagem (no resultado da função). 15 / 64

Continuidade e Diferenciabilidade Uma função f (.) : X R n R é dita diferenciável em x X se existe o vetor gradiente: ( f f (x) =, f,..., f ), x 1 x 2 x n e além disso as derivadas parciais f x i, i = 1,..., n são contínuas. Uma função f (.) : X R n R é dita diferenciável de segunda ordem em x X se existe a matriz Hessiana: 2 f... 2 f x 1 2 x 1 x n H(x) =..... 2 f x n x 1... 2 f xn 2 16 / 64

Direções factíveis e direções minimizantes Diz-se que d R n é uma direção factível a partir de um ponto x 0 X, se existe um α > 0, tal que (x + αd) X, α [0, α]. Sejam f (.) : X R n R diferenciável e f (x) o gradiente de f (.) em x. Seja d R n, se d. f (x) < 0 então existe ɛ > 0 tal que f (x + ɛd) < f (x). Diz-se que d é uma direção minimizante de f(x) a partir de um ponto x. 17 / 64

Exemplos 18 / 64

Exemplos 19 / 64

Exemplos 20 / 64

Exemplos 21 / 64

Condições de Otimalidade (Condição necessária de 1 a Ordem) Seja x X um mínimo local da função f (.) : X R n R. O vetor gradiente em x é nulo. (Condição necessária de 2 a ordem) Seja x X um mínimo local da função f (.) : X R n R. A matriz Hessiana em x é semi-definida positiva. 22 / 64

Condições de Otimalidade (Condições suficientes) Seja f (.) : X R n R duas vezes diferenciável em x X. Se f (x ) = 0 e H(x ) > 0 (definida positiva), então x é um mínimo local de f (.) (Observação:) As condições necessárias devem ser verdadeiras para todo ótimo local. Entretanto, um ponto que satisfaça estas condições não precisa ser um ótimo. 23 / 64

De forma geral, uma matriz H é: positiva definida todos os autovalores são positivos positiva semi-definida todos os autovalores são não-negativos negativa definida todos os autovalores são negativos negativa semi-definida todos os autovalores são não-posititos indefinida possui autovalores positivos e negativos 24 / 64

Otimalidade para Problemas Restritos Seja o problema restrito a seguir: min f (x) = x 2 1 + x 2 2 sujeito a: h(x) = (x 1 4) 2 + x 2 2 4 = 0 Como determinar as condições de otimalidade? 25 / 64

Otimalidade para Problemas Restritos 26 / 64

Otimalidade para Problemas Restritos Graficamente: O mínimo global de f (x) sobre a curva h(x) = 0 é x = (2, 0). Os vetores f e h satisfazem: [f (x) + λ h(x)] x=x = 0 x L(x, λ ) = 0 Fazendo L(x, λ) = f (x) + λh(x). f (x ) = λ h(x ) 27 / 64

Otimalidade para Problemas Restritos A solução do problema restrito min f (x) sujeito a: h(x) = 0 é o ponto critico da função L(x, λ) = f (x) + λh(x) Implicando em: [ x L λ L ] = 0 28 / 64

Otimalidade para Problemas Restritos Com relação a uma restrição de desigualdade, podemos converter g(x) 0 em g(x) + z 2 = 0, sendo z uma variável de folga: min f (x) sujeito a: {g(x) 0 ou g(x) + z 2 = 0} A função Lagrangiana é dada por: O ponto crítico: x L z L = 0 µ L L(x, z, µ) = f (x) + µ[g(x) + z 2 ] f (x ) + µ g(x ) = 0 µ g(x ) = 0 g(x ) 0 29 / 64

Otimalidade Karush-Kuhn-Tucker Dado o problema de otimização: sujeito a: min f (x) R g i (x) 0 i = 1,..., m h j (x) = 0 j = m + 1,..., l x X x é ótimo se existem multiplicadores de Lagrange µ 0 e λ tais que: f (x ) + m i=1 µ i g i(x ) + l j=1 λ j h j(x ) = 0 µ i g i(x ) = 0 g i (x ) 0 h j (x ) = 0 30 / 64

Problema Exemplo Considere o problema: min f (x) = (x 1 3) 2 + 2(x 2 3) 2 sujeito a: h(x) : x 1 + x 2 5 = 0 g(x) : 3x 1 + 2x 2 12 0 x 1 6; 0 x 2 6 31 / 64

Problema Exemplo 32 / 64

Método de Penalidade Infelizmente, o Método de Lagrange não é muito prático, pelas seguintes razões: A construção do sistema de equações pressupõe acesso às expressões anaĺıticas de f (x), g i (x), h j (x); A resolução do problema de otimização não linear original requer a solução de um sistema de equações não lineares; 33 / 64

Método de Penalidade A abordagem dos Métodos de Penalidades consiste na transformação do problema restrito original num problema irrestrito equivalente (dois problemas são ditos equivalentes se possuem a mesma solução); Métodos indiretos para otimização restrita. 34 / 64

Métodos de Penalidade Nos métodos de Penalidade, penalidades são adicionadas à função-objetivo: Métodos de penalidade interior ou métodos Barreira: pontos gerados devem ser sempre viáveis e qualquer tentativa de sair da região factível é penalizada. Métodos de penalidade exterior ou métodos de Penalidade: qualquer violação de alguma restrição é penalizada no valor da função-objetivo. 35 / 64

Métodos de Penalidade Em geral, em problemas restritos a solução reside na fronteira da região factível: Nos métodos de penalidade interior, a solução ótima é aproximada internamente por uma sequência de soluções do problema irrestrito transformado; Nos métodos de penalidade exterior, a solução ótima é aproximada externamente por uma sequência de soluções do problema irrestrito transformado; 36 / 64

Método de Penalidade Exterior Função de Penalidade Uma função de penalidade deve atender as seguintes condições: { p(x) > 0, se x / X p(x) = 0, se x X 37 / 64

Método de Penalidade Exterior Função de Penalidade 1. No caso de um problema com uma restrição de igualdade: min f (x) s.a h(x) = 0 = min f (x) + u[h(x)] 2 2. No caso de um problema com uma restrição de desigualdade: min f (x) s.a g(x) 0 = min f (x) + u max[0, g(x)] 2 38 / 64

Método de Penalidade Exterior Função de Penalidade De forma geral temos:: p p(x, u) = u [h i (x)] 2 + i=1 q max[0, g j (x)] 2 j=1 39 / 64

Método de Penalidade Exterior 40 / 64

Método de Penalidade Exterior 41 / 64

Método de Penalidade Interior No método de barreira, deve-se construir uma função que penaliza tentativas de sair da região factível. Função de Barreira Uma função de barreira deve atender as seguintes condições: { b(x), se x X b(x) 0, se x X 42 / 64

Método de Penalidade Interior Função de Barreira 1. Uma possível função barreira é: min f (x) s.a g(x) 0 = min f (x) + ( u) log[ g(x)] 2. Outra opção: min f (x) s.a g(x) 0 = min f (x) + ( u) 1 [g(x)] 43 / 64

Método de Penalidade Interior b(x) é uma função barreira não negativa e contínua em F e tende a infinito à medida que aproximamos da fronteira. Formulando o problema como a minimização de f (x) + b(x, u), com u 0 +, gera-se uma sequência de soluções no interior de X que converge para x. 44 / 64

Método de Penalidade Interior Função de Barreira De forma geral temos:: q 1 b(x, u) = u g j (x) j=1 Observe que não é possível definir uma função barreira para restrições de igualdade. 45 / 64

Método de Penalidade Interior 46 / 64

Método de Penalidade Interior 47 / 64

Método de Penalidade Considerações A teoria prevê que a solução converge para a solução ótima quando u k (ou u k 0),porém: A Hessiana da função-objetivo penalizada depende de u k e pode apresentar ma-condicionamento numérico; A variação de u k deve ser gradual; A precisão final fica bastante limitada. Usar termos de penalidade distintos para cada restrição evitando problemas de escala; Penalizar apenas a restrição mais violada. 48 / 64

Métodos Determinísticos 49 / 64

Métodos Determinísticos Geram uma sequência determinística de possíveis soluções. Métodos baseados em derivadas: Método do Gradiente; Método de Newton; Métodos Quasi-Newton; Métodos de Gradientes Conjugados; Métodos sem derivadas: Método Nelder-Mead Simplex; Método Hooke-Jeeves. 50 / 64

Métodos de direção de busca Estrutura geral A estrutura geral de métodos baseados em direção de busca obedece a seguinte forma: x k+1 x k + α k d k Os métodos variam na forma como o passo α k e a direção d k são escolhidos. 51 / 64

Método do Gradiente O Método do Gradiente ou Método da Descida Mais Íngreme (Steepest Descent Method) é o método mais simples entre os métodos de direção de busca. d k = f (x k ) 52 / 64

Método do Gradiente O algoritmo gera uma sequência monotônica {x k, f (x k )} tal que f (x k ) 0 quando k. O passo α k é um escalar não negativo que minimiza f (x k + αd k ), ou seja, representa um passo dado na direção minimizante d k. 53 / 64

Método do Gradiente Na prática, α k é obtido com um método de minimização unidirecional. 54 / 64

Método do Gradiente Método de busca unidirecional Busca irrestrita; Busca exaustiva; Busca dicotômica; Método de Fibonacci; Método da Seção Áurea;... 55 / 64

Método de busca unidirecional Definição α = min θ(α) R, α [0, ] θ(α) = f (x k + αd), x k, d R n Exemplo Determinar z 1 que minimiza f (x) = 2x1 2 + x 2 2 z 0 = [1, 1] na direção d = f (x 0 ). partindo de 56 / 64

Método do Gradiente Avaliação numérica do gradiente Para avaliar o vetor gradiente numericamente, podemos usar a fórmula de diferenças finitas: f x i f (x + δ ie i ) f (x), i = 1,..., n x δ i Uma fórmula mais precisa é a diferença finita central: f x i f (x + δ ie i ) f (x δ i e i ), i = 1,..., n x 2δ i 57 / 64

Método de Newton Se f (x) é duas vezes diferenciável, usando a expansão em séries de Taylor em torno de x k, temos: f (x) = f (x k ) + f (x k ) (x x k ) + 1 2 (x x k) H(x k )(x x k ) + O Assumindo a aproximação de 2a ordem, derivando e igualando a zero, obtemos: f (x k ) + H(x k )(x k+1 x k ) = 0 x k+1 = x k H 1 (x k ) f (x k ) 58 / 64

Método de Newton Se f (.) for quadrática, o método de Newton determina a solução ótima em um passo. A matriz H 1 (x k ) pode ser interpretada como uma correção aplicada à direção f (x k ), levando em conta a curvatura da função. Para casos gerais, com funções não quadráticas, deve-se determinar o passo ótimo α k : x k+1 x k + α k d k, d k = H 1 (x k ) f (x k ) 59 / 64

Método de Newton 60 / 64

Método de Newton O método apresenta convergência quadrática; A convergência do método de Newton é atendida sob duas premissas: 1. que H(x k ) seja não singular, ou seja, possua inversa; 2. que H(x k ) seja definida positiva, para garantir que d k = H 1 (x k ) f (x k ) seja uma direção minimizante. 61 / 64

Método de Newton Dificuldades: Necessita do cálculo da matriz inversa; Mal-condicionamento numérico da matriz Hessiana dificulta o cálculo de sua inversa; Derivadas numéricas: maiores erros numéricos e muitas avaliações de função para a aproximação por diferenças finitas. 62 / 64

Métodos Determinísticos Métodos baseados em derivadas: Método do Gradiente; Método de Newton; Métodos Quasi-Newton; Métodos de Gradientes Conjugados; Métodos sem derivadas: Método Nelder-Mead Simplex; Método Hooke-Jeeves. 63 / 64

Referências: Takahashi, R.H.C.; Notas de Aula: Otimização Escalar e Vetorial. http://www.decom.ufop.br/moreira/site_media/ uploads/arquivos/archive.zip J. A. Ramírez, F. Campelo, F. G. Guimarães, Lucas S. Batista, Ricardo H. C. Takahashi, Notas de Aula de Otimização, 2010. http://www.decom.ufop.br/moreira/site_media/ uploads/arquivos/nota1.pdf Izmailov, A, Solodov, V.M, Otimização Vol.1 Condições de Otimalidade, Elementos de Análise Convexa e de Dualidade. Editora IMPA, 2012. Izmailov, A, Solodov, V.M, Otimização Vol. 2. Métodos Computacionais. Editora IMPA, 2012. 64 / 64