Condições geométricas de otimalidade

Documentos relacionados
Espaços Euclidianos. Espaços R n. O conjunto R n é definido como o conjunto de todas as n-uplas ordenadas de números reais:

Professor: Carlos Eugênio da Costa Teoria Microeconômica II Monitor: Diego Santiago

BCC465 - TÉCNICAS DE MULTI-OBJETIVO. Gladston Juliano Prates Moreira 22 de novembro de 2017

Teoria de dualidade. Marina Andretta ICMC-USP. 19 de outubro de 2016

Método do Lagrangiano aumentado

A Equivalência entre o Teorema do Ponto Fixo de Brouwer e o Teorema do Valor Intermediário

1 Álgebra linear matricial

Cap. 5 Estabilidade de Lyapunov

Álgebra Linear Semana 05

Pontos extremos, vértices e soluções básicas viáveis

Método Simplex dual. Marina Andretta ICMC-USP. 24 de outubro de 2016

Representação de poliedros

Lema de Farkas e desigualdades lineares

Programação Linear. Dualidade

Departamento de Matemática da Universidade de Coimbra. Licenciatura em Matemática. e B =

Combinando inequações lineares

UNIVERSIDADE FEDERAL DE PERNAMBUCO DEPARTAMENTO DE ESTATÍSTICA. Medida e Probabilidade

Método de restrições ativas para minimização em caixas

Cálculo Numérico. Santos Alberto Enriquez-Remigio FAMAT-UFU 2015

INTRODUÇÃO À ANÁLISE CONVEXA E APLICAÇÕES INTRODUCTION TO CONVEX ANALYSIS AND APLICATIONS

1 Diferenciabilidade e derivadas direcionais

Teoremas de uma, duas e três séries de Kolmogorov

Faremos aqui uma introdução aos espaços de Banach e as diferentes topologías que se podem definir nelas.

Método Simplex. Marina Andretta ICMC-USP. 19 de outubro de 2016

1 Otimização com restrições I: Condições de Primeira Ordem

Algoritmo Simplex - versão 2.5

Teoria da Medida e Integração (MAT505)

UM CURSO DE OTIMIZAÇÃO. Ademir Alves Ribeiro Elizabeth Wegner Karas

Método dos gradientes (ou método de máxima descida)

Condições de qualificação, otimalidade e um método tipo lagrangiano aumentado

Produtos de potências racionais. números primos.

Cálculo Diferencial e Integral Química Notas de Aula

Lista de Exercícios da Primeira Semana Análise Real

SISTEMAS LINEARES PROF. EDÉZIO

Programação Linear M É T O D O S : E S T A T Í S T I C A E M A T E M Á T I C A A P L I C A D A S D e 1 1 d e m a r ç o a 2 9 d e a b r i l d e

Sequencias e Series. Exemplo 1: Seja tal que. Veja que os dez primeiros termos estão dados por: ,,,,...,, ou seja que temos a

Aulas 6 / 05 de setembro

O Teorema de Peano. f : D R n. uma função contínua. Vamos considerar o seguinte problema: Encontrar um intervalo I R e uma função ϕ : I R n tais que

Controle Ótimo - Aula 8 Equação de Hamilton-Jacobi

Análise Convexa. 1. Conjuntos convexos 1.1. Casca convexa, ponto extremo, cone. 2. Hiperplanos: suporte, separador, teorema da separação

Convergência, séries de potência e funções analíticas

Método de Newton modificado

Teoria da Medida e Integração (MAT505)

Programação Linear - Parte 5

DANIEL V. TAUSK. se A é um subconjunto de X, denotamos por A c o complementar de

Notas Sobre Sequências e Séries Alexandre Fernandes

Máximos e mínimos em intervalos fechados

Material Teórico - Módulo Matrizes e Sistemas Lineares. Sistemas Lineares - Parte 2. Terceiro Ano do Ensino Médio

Resumo das aulas dos dias 4 e 11 de abril e exercícios sugeridos

A forma canônica de Jordan

Começamos relembrando o conceito de base de um espaço vetorial. x = λ 1 x λ r x r. (1.1)

Algoritmos de aproximação - Método primal-dual

ESPAÇO VETORIAL REAL. b) Em relação à multiplicação: (ab) v = a(bv) (a + b) v = av + bv a (u + v ) = au + av 1u = u, para u, v V e a, b R

Introduzir os conceitos de base e dimensão de um espaço vetorial. distinguir entre espaços vetoriais de dimensão fnita e infinita;

Teoremas fundamentais dos espaços normados

Teoremas de dualidade

Marina Andretta. 10 de outubro de Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis.

Uma nova taxa de convergência para o Método do Gradiente

Métodos iterativos dão-nos uma valor aproximado para s. Sequência de valores de x que convergem para s.

Notações e revisão de álgebra linear

MÉTODOS COMPUTACIONAIS

12 AULA. ciáveis LIVRO. META Estudar derivadas de funções de duas variáveis a valores reais.

Resolução de problemas com apenas restrições lineares de igualdade

Convergência, séries de potência e funções analíticas

UM CURSO DE OTIMIZAÇÃO. Ademir Alves Ribeiro Elizabeth Wegner Karas

Análise Matemática III - Turma especial

Então (τ x, ) é um conjunto dirigido e se tomarmos x U U, para cada U vizinhança de x, então (x U ) U I é uma rede em X.

Método de Newton truncado

A = B, isto é, todo elemento de A é também um elemento de B e todo elemento de B é também um elemento de A, ou usando o item anterior, A B e B A.

Existência e otimalidade de pontos extremos

2 Geometria e Programação Linear

Matriz Hessiana e Aplicações

Aula 33 Limite e continuidade

Controle Ótimo - Aula 10 Princípio do Mínimo de Pontryagin

Método do Gradiente Projetado Para Funções Convexas Generalizadas

Aula 22 Derivadas Parciais - Diferencial - Matriz Jacobiana

Convergência em espaços normados

= f(0) D2 f 0 (x, x) + o( x 2 )

Aula 10 Sistemas Não-lineares e o Método de Newton.

Cálculo II. Resumo Teórico Completo

Máximos e mínimos (continuação)

Aula 7 Os teoremas de Weierstrass e do valor intermediário.

Invariância da integral por homotopia, fórmula de Cauchy e séries de Taylor

Propriedades das Funções Contínuas

Números Reais. Víctor Arturo Martínez León b + c ad + bc. b c

Capítulo 3. O Método Primal Simplex

Métodos para resolver problemas de otimização restrita

Álgebra Linear Exercícios Resolvidos

x exp( t 2 )dt f(x) =

Transcrição:

Capítulo 1 Condições geométricas de otimalidade Definição 1.1. Seja X R n e x um ponto em X. Uma vetor y R n é chamado de direção viável para X em x se existe ɛ > 0 tal que α [0, ɛ], x + αy X. Quando não houver dúvida sobre quais são o conjunto X e o ponto x, chamaremos essas direções simplesmente de direções viáveis. Por fim, denotaremos o conjunto de direções viáveis por F X (x). Note que o conjunto de direções viáveis é um cone, ou seja é fechado por multiplicações por escalares positivos. Como já vimos no caso de X convexo, o cone de direções viáveis é um objeto interessante, pois pode ser usado para estender as condições de primeira ordem. Partindo disso podemos então apresentar métodos de otimização com restrições, como o método dos gradientes condicionados. Isso se deve especialmente ao fato que quando X é convexo é fácil ver que F X (x) = {α( x x) α 0, x X}. Entretanto esse cone não funciona bem quando o conjunto de restrições não é convexo. Isso fica claro se considerarmos restrições do tipo igualdade. Por exemplo se X = {x h(x) = 0}, com h : R n R. Então X é a curva de nível de uma função e naturalmente será não convexo. Veja a Figura 1.1. Nesse caso podemos ver que o cone de direções viáveis pode não dar nenhuma informação sobre a estrutura do conjunto X próximo a x. Deste modo podemos seria interessante encontrar um outro cone que recuperasse a informação que F X (x) nos dá no caso convexo, mas que também devolvesse algo de interesse mesmo que o conjunto X não seja convexo. Observando com mais cuidado a Figura 1.1, vemos que há algumas direções que são especialmente interessantes, chamadas direções tangentes definidas através da aproximação linear dada pela derivada de h. A definição abaixo se inspira nesse fato para definir o que é tangente para um conjunto X qualquer, que não tenha a forma específica {x h(x) = 0}. Definição 1.2. Seja X R n e x um ponto em X. Uma vetor y R n é chamada de direção tangente a X em x se y = 0 ou se existem uma seqüência 1

CAPÍTULO 1. CONDIÇÕES GEOMÉTRICAS DE OTIMALIDADE 2 x h(x) = 0 Figura 1.1: O cone de direção viáveis é somente o {0}. {x k } X, x k x para todo k e tal que x k x e x k x x k x y y. Mais uma vez, o conjunto das direções tanges é um cone, conhecido como cone das direções tangentes e denotado por T X (x). Observemos inicialmente que T X (x) F X (x), uma vez que dado y F X (x) podemos definir x k. = x+αk y para ɛ α k 0. Essa seqüência possui as características exigidas na definição do cone tangente. Além disso, o cone tangente contém novas direções, em particular se voltarmos a analisar a Figura 1.1, vemos que ele contém as direções desejadas. Um outro exemplo interessante pode ser obtido estudando os conjuntos X = {(x 1, x 2 ) (x 1 + 1) 2 x 2 0, (x 1 1) 2 x 2 0}e X = {(x 1, x 2 ) ((x 1 + 1) 2 x 2 0)((x 1 1) 2 x 2 0)}, tomando como x = (0, 1).No primeiro caso vemos que o cone tangente é igual ao fecho de do cone de direções viáveis. Na verdade veremos a seguir que essa propriedade sempre vale. No segundo caso, assim como no Figura 1.1, vemos que o cone tangente apresenta direções interessantes, que servem como uma boa aproximação do conjunto X. (PRECISO ADICIONAR AQUI FIGURAS COM OS DOIS CASOS). Antes de prosseguir no estudo da relação entre T X e F X, vejamos uma caracterização alternativa do cone tangente, que às vezes se mostra útil. Proposição 1.3. Seja X R n e x um ponto em X. Então y T X (x) {x k } X, {α k } R ++ tais que x k 0, α k 0 e x k x α k y. Demonstração. Claramente y = 0 pertence os dois cones, basta então provar duas implicações considerando que y 0: Como y T X (x), existe {z k } X tal que (z k x)/ z k x y/ y. Basta então definir x k. = z k e α k = z k z / y. Dadas as seqüências {x k } e {y k }com as propriedades do lado direito temos que x k x x k x = (xk x)/α k x k y x /α k y.

CAPÍTULO 1. CONDIÇÕES GEOMÉTRICAS DE OTIMALIDADE 3 Note que a convergência acima ocorre porque como (x k x)/α x y, então também vale que x k x /α k y, já que a norma é contínua. Deste modo a seqüência {x k } pode desempenhar o papel exigido pela definição de T X (x). Podemos agora mostrar um teorema que deixa explícita a relação entre os cones tangente e de direções viáveis. Teorema 1.4. Seja X R n e x um ponto em X. Então, 1. T X (x) é um cone fechado; 2. F X (x) T X (x) e 3. Se X é convexo, então F X (x) e T X (x) também o são e F X (x) = T X (x). Demonstração. Vamos provar um item por vez. 1. Seja y k y uma seqüência em T X (x). Queremos provar que y T X (x). Se y = 0, não há nada a fazer. Podemos então supor que y 0. Como cada y k T X (x), para cada k devem existir seqüências {x i,k } X tais que lim i xi,k = x e lim i x i,k x x i,k x = yk y k. Seja {ζ k } uma seqüência de reais positivos que converge para zero. Para cada k, podemos escolher então um índice i k para o qual vale que x ik,k x ζ k e x ik,k x x i k,k x yk y k ζ k. Portanto, usando a desigualdade triangular, temos x ik,k x ζ k e x ik,k x x i k,k x y y ζ k + y y yk y k. Como {ζ k } foi escolhida convergindo para zero e y k y, ao tirarmos o limite em k nas expressões acima concluímos que lim x xi k,k = x e lim i x i,k x x i,k x = y y, o que garante que y T X (x), como desejávamos demonstrar. 2. Como já sabemos que T X (x) é fechado, para provar que T X (x) F X (x), basta mostrar que T X (x) F X (x). Mas isso já é sabido, veja a discussão que segue a definição de cone tangente.

CAPÍTULO 1. CONDIÇÕES GEOMÉTRICAS DE OTIMALIDADE 4 3. Vamos provar primeiro que F X (x) é convexo. Para isso usemos a descrição de F X (x) = {α( x x) α 0, x X}, que é válida quando X é convexo. Dados y 1, y 2 F X (x), devem então existir α 1, α 2 > 0 e x 1, x 2 X tais que y 1 = α 1 ( x 1 x) e y 2 = α 2 ( x 2 x). Sejam γ 1, γ 2 0, com γ 1 +γ 2 = 1, temos γ 1 y 1 + γ 2 y 2 = γ 1 α 1 ( x 1 x) + γ 2 α 2 ( x 2 x) γ 1 α 1 γ 2 α 2 = (γ 1 α 1 + γ 2 α 2 ) x 1 + x 2 x }{{} γ 1 α 1 + γ 2 α 2 γ 1 α 1 + γ 2 α }{{ 2 }. =α = α( x x). Como, pela definição, α 0 e, usando convexidade x X, vemos que γ 1 y 1 + γ 2 y 2 também está na forma dos elementos de F X (x). Agora, mostremos que T X (x) = F X (x). Como já sabemos que T X (x) F X (x),basta mostrar a inclusão oposta. Dado y T X (x), sabemos da Proposição 1.3 que existem {α k } R ++ e {x k } X tais que x k x α k y. Mas, usando mais uma vez a caracterização de F X (x) no caso de X convexo, vemos que (1/α k )(x k x) F X (x), logo y F X (x) e assim T X (x) F X (x). Por fim, a convexidade de T X (x) vem do fato que acabamos de provar que ele é igual ao fecho do convexo F X (x).. = x Uma das conseqüências interessantes do teorema acima é que no caso de interesse do método dos gradientes condicionados (quando X é um poliedro), podemos provar que o cone de direções viáveis, além de convexo, é fechado. Nesse caso então os dois cones coincidem. Nosso objetivo agora é provar algum tipo de condição de otimalidade de primeira ordem baseada no cone tangente. Isso será especialmente interessante pois não precisaremos que X seja convexo. Para isso precisamos definir o que é tomar uma direção que aponta para o lado oposto das direções tangentes. Faremos isso a seguir. Definição 1.5. Seja C um cone no R n, chamamos de cone polar a C, denotado por C, o cone definido por C. = {y y z 0, z C}. Esse cone agrupa os vetores que apontam em direções opostas de todas as direções que estão em C ao mesmo tempo. (ACRESCENTAR DESE- NHOS COM EXEMPLOS DE CONES POLARES, EM PARTICULAR MOS- TRANDO QUE QUANTO MAIOR O CONE, MENOR O SEU POLAR)

CAPÍTULO 1. CONDIÇÕES GEOMÉTRICAS DE OTIMALIDADE 5 Podemos agora enunciar a nova condição de primeira ordem: Teorema 1.6. Seja f : R n R uma função C 1 e X R n. Se x é um mínimo local de f em X, então f(x ) y 0, y T X (x ). Ainda, se X é convexo, essa condição é equivalente à f(x )(x x ) 0, x X e, em particular, se X = R n temos f(x ) = 0. Demonstração. Seja y T X (x ), devemos provar que f(x ) y 0.Se y = 0 não há o que fazer. Considerando y 0, devem existir {x k } X e {ζ k } R n tais que x k x, x k x x k x = y y + ζk e ζ k 0. Usando o teorema do valor médio sabemos que para cada k existe x k pertencente ao seguimento de reta que une x k e x tal que f(x k ) = f(x ) + f( x k ) (x k x ). Definindo y k. = y + y ζ k temos f(x k ) = f(x ) + xk x f( x k ) y k. y Por construção x k x e y k y. Portanto, caso f(x ) y < 0, para k suficientemente grande teríamos que f( x k ) y < 0. Isso implicaria que f(x k ) < f(x ), contrariando a minimalidade local de x. Ou seja, f(x ) y 0. No caso de X convexo, sabemos pelo Teorema 1.4, que F X (x ) = T X (x ). Portanto a condição de otimalidade pode ser reescrita como f(x ) y 0, y F X (x ) f(x ) y 0, y F X (x ) α f(x ) (x x ) 0, x X, α 0 f(x ) (x x ) 0, x X. [Def. de fechado] [Carac. de F X (x ), X conv.] A afirmação que f(x ) = 0, no caso X = R n, é provada usando a relação acima com x = x f(x ). Observe que a condição f(x ) y 0, y T X (x ) pode ser reescrita, usando a noção de cone polar como, f(x ) T X (x ). Ou seja, a direção de descida máxima, ou de direção de Cauchy, pertence ao polar do cone tangente, apontando para o lado oposto das direções tangentes (que apontam para dentro, ou para perto do conjunto viável).

Capítulo 2 Multiplicadores de Lagrange Comumente o conjunto viável X possui uma descrição especial, por exemplo através de um conjunto de restrições de igualdades e desigualdades: X. = {x h(x) = 0, g(x) 0}, com h : R n R p e g : R n R m. Nesse caso é interessante obter uma versão das condições de otimalidade de primeira ordem que leve em conta a descrição do conjunto X. Esse é o objetivo deste capítulo. Vamos iniciar estudando alguns casos particulares para os quais é fácil adaptar as condições de primeira ordem. Isso nos levará às condições de Fritz John e Karush-Kuhn-Tucker, dois teoremas de enorme importância para a programação não-linear. 2.1 Introdução aos multiplicadores de Lagrange Restrições de igualdade Inicialmente vamos estudar restrições descritas por funções lineares (ou afins). Considere que o conjunto viável é da forma X = {x Ax = b}, com A R p n e b R p. Nesse caso X é claramente convexo e fechado, ele é um espaço afim. Portanto o cone tangente em qualquer ponto viável x é composto por vetores da forma x x, x X. Nesse caso as direções viáveis são tais que A( x x) = A x Ax = b b [ x e x são viáveis] = 0. 6

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 7 Ou seja, as direções tangentes pertencem ao nulo de A. Por outro lado, é fácil ver que se partimos de um ponto viável x seguindo uma direção y no nulo de A então x + αy permanece viável para qualquer α. Portanto as direções do nulo de A também são tangentes. Concluímos então que para todo x X T X (x) = nulo(x). (2.1) Nesse caso, é fácil 1 ver que o cone polar ao tangente é dado por T X (x) = nulo(x) = imagem(a ). A última igualdade é um resultado importante de álgebra linear que já foi provado em sala. Nesse caso a condição geométrica de primeira ordem torna-se f(x) imagem(a ). Isso é equivalente à existência de escalares µ 1,..., µ p tais que f(x) = µ i a i, com a i representando a i-ésima linha da matriz A. Chamando de h a função Ax b, podemos ver que a condição acima pode ser reescrita como f(x) + µ i h i (x) = 0. Essa é a forma geral das condições de Lagrange, que por vezes são estudadas em alguns cursos de cálculo, para a otimalidade local de x. No nosso caso, vimos que essas condições são na verdade as condições geométricas de primeira ordem reescritas de modo a levar em conta a descrição algébrica das restrições. Os escalares µ i são conhecidos como multiplicadores de Lagrange. É importante observar que esse tipo de condição continua válido mesmo se a função que define as restrições, h, for não-linear. Para isso, porém, será preciso fazer algumas hipóteses sobre h. A demonstração desse resultado é um dos objetivos principais desse capítulo. Para provar isso precisaremos mostrar de alguma forma que a caracterização do espaço tangente dada na Equação 2.1 pode ser generalizada para T X (x) = nulo( h(x) ), (2.2) com h(x) denotando a matriz n p cujas colunas são os gradientes da funções h i. Nesse caso, podemos seguir o mesmo raciocínio acima para concluir que 1 Fica como exercício. T X (x) = imagem( h(x)).

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 8 Mais uma vez as condições geométricas poderiam reescritas como f(x) + µ i h i (x) = 0. Uma condição típica que garante que a caracterização do cone tangente dada acima é válida é pedir que os vetores h i (x) sejam linearmente independentes. Nesse caso a validade da Equação 2.2 pode ser obtida por meio do teorema da função implícita. Restrições de desigualdade 2 Como lidar com restrições de desigualdade. Nesse caso, mesmo no caso linear, não teremos uma descrição tão fácil do cone tangente. Precisamos de uma ferramenta mais poderosa para caracterizá-lo. Essa ferramenta é o Lema de Farkas que enunciamos a seguir. Lema 2.1. (Farkas) Seja A R m n e c R n, então exatamente um dos dois sistemas abaixo tem solução x R n, Ax = c e x 0 ou y R m, A y 0 e c y > 0. Demonstração. Considere o seguinte problema de programação linear cujo dual é min 0 x s.a Ax = c (2.3) max x 0, c y s.a A y 0. (2.4) Observe que o dual é sempre viável, pois o 0 é um ponto viável, logo vale o teorema forte de dualidade. Temos então duas opções: 1. O problema primal é viável, ou seja o primeiro sistema admite uma solução. Nesse caso, como sua função objetivo é constante, sabemos que o valor ótimo é 0. Pelo teorema forte de dualidade, o valor ótimo do dual também é 0. Portando não pode existir solução viável dual, y, tal que c y > 0, que é o mesmo que dizer que o segundo sistema não tem solução. 2 Para a compreensão completa dessa seção o leitor deve conhecer o teorema forte de dualidade de programação linear. Caso o leitor não conheça essa resultado ele deve pular a demonstração do Lema de Farkas e simplesmente aceitá-lo como válido.

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 9 2. O problema primal é inviável, ou seja o primeiro sistema não admite solução. Nesse caso o valor ótimo primal é +, e mais uma vez usando o teorema forte de dualidade descobrimos que o dual é limitado. Logo deve existir y viável dual tal que a função objetivo dual calculada nele é maior do que qualquer valor, em particular deve existir y viável dual tal que c y > 0, e então o segundo sistema deve admitir solução. De posse desse resultado vamos estudar o cone tangente a um ponto viável x em um conjunto descrito por desigualdades lineares, x X. = {x Ax b}, bem como seu cone polar. Mas uma vez lembramos que nesse caso X é convexo e fechado, sabemos que as direções tangentes são múltiplos positivos de vetores na forma x x, para x X. Seja I {1, 2,..., m} o conjunto de índices tais que as restrições de desigualdades são obedecidas em x sem folga, isto é, i I a ix = b i, com a i denotando a i-ésima linha de A. Temos para todo i I e todo x X a i x b } i a i x = b a i ( x x) 0. i A discussão acima nos leva a concluir que T X (x) {y a iy 0, i I}. Vamos mostrar que vale a igualdade. Seja y um ponto no conjunto à direita, então para todo i I e α 0 a i(x + αy) = b i + αa iy b i. (2.5) Portanto as restrições em I continuam sendo obedecidas se saímos de x na direção y. Já as restrições fora de i têm, por definição, suas desigualdades obedecidas com folga. Isto é, Logo existe um ɛ > 0 pequeno tal que i I, a ix < b i. i I, α [0, ɛ], a i(x + αy) < b i. (2.6) Unindo as conclusões das Equações 2.5 e 2.6 temos α [0, ɛ], A(x + αy) b,

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 10 o que implica que y T X (x). Portanto T X (x) = {y i I, a iy 0} = {y A I y 0}. (2.7) Na última igualdade, A I denota a matriz que tem como linhas as linhas de A que estão em I. Como chegar então em uma expressão que use multiplicadores de Lagrange? Retomemos as condições geométricas. Temos que em um mínimo local deve valer que f(x) y 0, y {y A I y 0}. Ou seja, as condições de primeira ordem pedem que não exista y {y A I y 0} com f(x) y > 0. Pelo Lema de Farkas, isso é equivalente a existência de multiplicadores positivos λ i para i I tais que λ i a i = f(x). i I Ou equivalentemente f(x) + λ i a i = 0. i I Mais uma vez, seria interessante estender o resultado acima para o caso de desigualdades não lineares, X = {x g(x) 0}. Dado um ponto viável x, defina I =. {i g i (x) = 0}. Seguindo o mesmo raciocínio do caso com igualdades e inspirado pelo resultado acima, seria interessante buscar condições para as quais valessem T X (x) = {y i I, g i (x) y 0}, a extensão natural da Equação 2.7. Nesse caso, seguindo o raciocínio acima teríamos que as condições de primeira ordem são equivalente a existência de multiplicadores positivos λ i, i I tais que f(x) + i I λ i g i (x) = 0. (AQUI CABE UMA DISCUSSÃO DA INTERPRETAÇÃO MECÂNICA DAS CONDIÇÕES KKT) 2.2 Condições Necessárias de Otimalidade baseadas em Multiplicadores 2.2.1 Condição de Fritz John Retomemos um pouco a discussão sobre multiplicadores de Lagrange com condições de igualdade: h(x) = 0. Nas linhas acima vimos se gradientes das restrições em um mínimo local, x, são LI, devem multiplicadores µ i, i = 1,..., p, tais que f(x) + µ i h i (x) = 0. (2.8)

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 11 Por outro lado, se os gradientes forem L.D., então devem existir multiplicadores µ i, i = 1,... p, não todos nulos, de modo a que µ i h i (x) = 0. (2.9) i Podemos unir essas duas condições afirmando que em um mínimo local sempre existem multiplicadores µ i, i = 0,..., p,, não todos nulos, com µ 0 f(x) + µ i h i (x) = 0. (2.10) Quando µ 0 0, podemos reescrever a condição acima de modo a ela se tornar igual à Equação 2.8. Para isto, basta dividir a última equação por µ 0. Se µ 0 = 0, temos mais uma vez a Equação 2.9. Condições de otimalidade local como as apresentadas em (2.10) são conhecidas como condições de Fritz John, o assunto dessa seção. Na verdade podemos provar um resultado um pouco mais forte, que será bastante útil no decorrer deste capítulo. Para isso vamos fixar a forma do problema de otimização que desejamos tratar: min f(x) s.a h(x) = 0 (2.11) g(x) 0, com f : R n R, h : R n R p e g : R n R m funções continuamente diferenciáveis. Teorema 2.2. (Condição de Fritz John) Seja x um ponto viável que é mínimo local do problema (2.11). Então existes escalares λ 0, µ 1,..., µ p, λ 1,..., λ m com as seguintes propriedades (Zero do Gradiente) λ 0 f(x ) + m µ i h i (x ) + p λ j g j (x ) = 0. (Sinal dos Multiplicadores) λ j 0, para todo j = 0,..., m e (λ 0, µ, λ) 0. (Inviabilidade Complementar) Defina I. = {i µ i 0} e J. = {j 0 λ j > 0}. Se I J for não vazio, então existe uma seqüência {x k } R n convergente para x e tal que para todo k f(x k ) < f(x ) µ i h i (x k ) > 0, i I e λ j g j (x k ) > 0, j J. Em particular, a condição λ j g j (x k ) > 0, j J e x k x juntas implicam que se λ j > 0, então g j (x ) = 0. Essa última condição é conhecida como folgas complementares.

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 12 Note que a condição (4) afirma que os multiplicadores de Fritz John possuem a informações de quais, e de que modo, as restrições devem ser violadas para conseguirmos melhorar x. A prova do resultado acima vai também nos ensinar um método alternativo de resolver o problema (2.11), conhecido como método das penalidades. A sua idéia é bastante natural e, até certo ponto, inocente. A idéia é alterar a função objetivo de modo que ela se mantenha constante entre os pontos viáveis e aumente entre os inviáveis. Quando isso é feito é razoável esperar que se o aumento nos pontos não viáveis for muito grande então apenas os pontos viáveis devem ser considerados mesmo numa otimização irrestrita. Uma forma de fazer isso é usar a função penalidade quadrática definida por F α (x) = f(x) + α h i (x) 2 + α m max(g i (x), 0) 2. 2 2 Essa função é diferenciável. É fácil ver que para qualquer α > 0, a função F α vale exatamente a função objetivo entre os pontos viáveis. Já nos pontos inviáveis o valor objetivo é aumentado pelo quadrado da inviabilidade. O parâmetro, conhecido como parâmetro de penalização, controla o quanto os pontos não viáveis serão penalizados. Quanto maior α, menos interessantes são os pontos viáveis. Um método de penalidades baseia-se então na minimização irrestrita de uma seqüência de problemas penalizados por parâmetros que crescem para o infinito. Se for possível resolver cada um desses sub-problemas, pode-se provar que a seqüência de mínimos obtidas converge a um mínimo de (2.11). A idéia acima ainda deixa uma dúvida: Por que usar uma seqüência de problemas, ao invés de já começar com um α enorme? O motivo é que pode mostrar que quando α cresce, os problemas penalizados vão ficando mal condicionados, portanto mais difíceis de resolver. Assim deve-se começar com α pequeno e ir aumentando o parâmetro aos poucos de modo que a última solução obtida possa ser usada para iniciar a busca do próximo mínimo. Depois dessa discussão já estamos prontos para ver a prova das Condições de Fritz John. Demonstração. (das Condições de Fritz John) Como x é um mínimo local, sabemos que existe ɛ > 0, tal que x é o melhor ponto viável em S =. {x x x ɛ}vamos usar a idéia do método das penalidades. Para isso defina, para k = 1, 2,..., a função penalizada F k (x) =. f(x) + k h i (x) 2 + k m max(g j (x), 0) 2 + 1 2 2 2 x x. Vamos considerar o seguinte problema penalizado min F k (x) s.a x S. (2.12) Como o S é compacto, sabemos que o problema acima tem uma solução que vamos denotar por x k. Em particular vale que F k (x k ) F k (x ).

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 13 Isso pode ser escrito de forma mais completa como f(x k ) + k 2 h i (x k ) 2 + k 2 m max(g j (x k ), 0) 2 + 1 2 xk x f(x ). (2.13) Usando o fato que f é limitada em S, a expressão acima garante que lim h i(x k ) = 0, i = 1,..., p e k lim max(g j(x k ), 0) = 0, j = 1,..., m. k Caso contrário o lado esquerdo da Eq. (2.13) tenderia para +. Por sua vez, a continuidade das funções de restrição, concluímos que todo ponto limite, x, de {x k } é viável. Tomando o limite na respectiva sub-seqüência e usando mais uma vez a Eq. (2.13) temos f( x) + 1 2 x x f(x ). Como x é mínimo local de f entre os pontos viáveis e já sabemos que x é viável, concluímos que x = x. Ou seja, a seqüência limitada {x k } possui x como único ponto de acumulação possível, de onde concluímos que x k x. Em particular, x k deve pertencer ao interior da bola S para k grande. Portando, para k grande, as condições de otimalidade de geométricas de primeira ordem se reduzem à F k (x k ) = 0. Lembrando que max(g j (x), 0) 2 = 2 max(g j (x), 0) g j (x), podemos reescrever essas condições como com Por fim, defina P m f(x k ) + ξi k h i (x k ) + ζj k g j (x k ) + x k x = 0, (2.14) ξ k i = kh i (x k ) e ζ k j = k max(g j (x k ), 0). δ k. = 1 + m (ξi k)2 + (ζ k j )2 λ k 0 = 1/δ k, µ k i = ξ k i /δ k i = 1,..., m e λ k j = ζ k j /δ k, j = 1,..., m. Dividindo-se a Eq. (2.14) por δ k concluímos que P m λ k 0 f(x k ) + µ k i h i (x k ) + ζj k g j (x k ) + x k x = 0. Por construção, vemos que (λ k 0, µ k, λ k ) = 1.

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 14 A seqüência {(λ k 0, µ k, λ k )} está num compacto (a casca da bola de raio unitário em R 1+p+m ). Portanto ela deve admitir uma subseqüência convergente (λ k l 0, µk l, λ k l ) (λ 0, µ, λ). Tomando o limite na relação (2.14) nessa subseqüência e lembrando que x k x e usando as definições de λ k 0, µ k e λ k vemos que o teorema está demonstrado. Note que a condição de Fritz John pode ser transformada em uma condição que envolve multiplicadores de Lagrange, como discutido na primeira seção deste capítulo, sempre que λ 0 > 0. Nesse caso, basta dividir a equação dada pela condição Zero do Gradiente por λ 0, obtendo 1 na frente de f(x ). Nesse caso a condição de Fritz John é conhecida como condição de Karush-Kuhn-Tucker, ou simplesmente KKT. Outro fato interessante é que se λ 0 = 0, as condições Zero do Gradiente e Sinal dos Multiplicadores implicam que os gradientes das restrições em x são linearmente dependentes. Então, caso esses gradiente sejam independentes, temos que existem, e são únicos, os multiplicadores de Lagrange e as condições KKT são obedecidas. Existem outras condições que também garantem a validade de KKT. Essas condições estão sempre relacionadas à descrição do conjunto de restrições e e são conhecidas como Condições de Qualificação. 2.2.2 Karush-Kuhn-Tucker e Condições de Qualificação As condições de Fritz John permitem que λ 0 seja nulo. Deste modo, uma condição de qualificação bastante geral é assumir que esse caso é impossível. Isso nos leva a seguinte definição: Definição 2.3. Dizemos que um ponto viável do problema (2.11), x, é pseudonormal se não existem escalares λ 1,..., λ m e µ 1,..., µ p e uma seqüência {x k } R n tal que (i) p µ i h i (x ) + m λ j g j (x ) = 0. (ii) λ j 0, j = 1,..., m e λ j = 0 se j A(x ). = {j g j (x ) = 0}. (iii) x k x e m µ i h i (x ) + λ j g j (x ) = µ i h i (x ) + j A(x ) λ j g j (x ) > 0. Note que a terceira condição acima é mais fraca do que a condição de Inviabilidade Complementar. Logo se o nosso candidato a mínimo for um ponto pseudonormal as condições de Fritz John terão que ser obedecidas com λ 0 > 0, ou sejam elas serão equivalentes às condições KKT.

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 15 A idéia de pseudonormalidade é bastante nova e foi introduzida por Bertsekas e Ozdaglar em 2000. Apesar de sua aparência abstrata, ela é uma ferramenta poderosa para provar que os pontos de Fritz John são na verdade pontos KKT e conseqüentemente, garantir a existência de multiplicadores de Lagrange. A literatura programação não-linear usualmente se baseia em outras condições mais clássicas para garantir a validade de KKT. Essas condições são conhecidas como condições de qualificação e são, geralmente, mais fáceis de verificar do que a pseudonormalidade. Porém, é razoavelmente fácil provar que quase todas as condições de qualificação conhecidas implicam em pseudonormalidade e, dessa forma, podemos considerar essa última como uma condição de qualificação abstrata, capaz de unificar a teoria. Apresentamos abaixo algumas condições de qualificação clássicas. Definição 2.4. Seja x um ponto viável de (2.11). Dizemos que x obedece à condição de qualificação de Independência Linear se não existem µ i, i = 1,..., p e λ j, j A(x ) tal que µ i h i (x ) + j A(x ) λ j g j (x ) = 0. Definição 2.5. Seja x um ponto viável de (2.11). Dizemos que x obedece à condição de qualificação de Mangasarian-Fromovitz de os gradientes das restrições de igualdade são LI e existe y R n tal que h i (x ) y = 0, i = 1,..., p e g j (x ) y < 0, j A(x ). Definição 2.6. Considere um problema de minimização que é um caso especial de (2.11) no qual não há restrições de igualdade e as restrições de desigualdade são todas convexas. Dizemos que as restrições obedecem à condição de qualificação de Slater se existe x viável tal que g( x) < 0. Definição 2.7. Dizemos que as restrições do problema (2.11) obedecem à condição de qualificação Reverso Convexa se suas restrições de igualdade são afins e suas restrições de desigualdade são todas côncavas. Note que as condições de Slater e Reverso Convexa não dependem do ponto viável escolhido. Por isso, dizemos as restrições obedecem à condição de qualificação no lugar de falar de apenas um ponto viável. Teorema 2.8. Se uma das condições de qualificação acima é obedecida, então o ponto viável x é pseudonormal. Conseqüentemente, se x é um mínimo local para (2.11) então as condições de Karush-Kuhn-Tucker são válidas. Demonstração. A primeira condição, Independência Linear, garante trivialmente que não existem multiplicadores obedecendo ao Item (i) da definição de pseudonormalidade. Consideremos agora que a condição de Mangasarian-Fromovitz é obedecida. Suponha, por contradição, que a pseudonormalidade não é válida. Então devem

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 16 existir multiplicadores µ i, i = 1,..., m e λ j, j A(x ) e uma seqüência x k x tais que as três condições da definição de pseudonormalidade são obedecidas. Olhando (iii) na descrição pseudonormalidade, concluímos imediatamente que nem todos os multiplicadores podem ser nulos. Mais ainda, se todos os multiplicadores das restrições de desigualdade forem nulos então deve existir µ i 0 e a Condição (i) diria que µ i h i (x ) = 0. O que implicaria que os gradientes das restrições de igualdade são L.D. Isso não é possível por Mangasarian-Fromovitz. Concluímos então que deve haver algum j A(x ) para o qual λ j > 0. Portando, podemos usar o vetor y dado pela condição de Mangasarian-Fromovitz para ver que µ i h i (x ) y + i A(x ) λ j g j (x ) < 0, o que diz que (i) não vale, uma contradição. Faltam as condições de Slater e Reverso Convexa. É um exercício provar que Slater é um caso particular de Mangasarian-Fromovitz. Consideremos então a condição Reverso Convexa. Para isso fixe um ponto viável x e um outro ponto do R n qualquer. Usando a linearidade e a concavidade das restrições temos h i (x) = h i (x ) + h i (x )(x x ), i = 1,..., p g j (x) g j (x ) + g j (x )(x x ), j = 1,..., m. Mais uma vez, vamos supor por contradição que pseudonormalidade não vale e portando devem existir escalares λ 1,..., λ m e µ 1,..., µ p que garantem que as duas primeiras condições da definição de pseudonormalidade valem. Somando as expressões acima temos m µ i h i (x) + λ j g j (x) µ i h i (x ) + λ j g j (x ) + = 0. j A(x ) + µ i h i (x ) + j A(x ) λ j g j (x ) (x x ) A última igualdade é conseqüência do Item (i) e do fato que as restrições de igualdade e as restrições ativas valem todas 0. Porém isso impede a Condição (iii) da pseudonormalidade de valer. O teorema acima nos mostra que o conceito de pseudonormalidade funciona como uma condição de qualificação bastaste geral, garantindo a validade das

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 17 condições KKT. Na verdade pode-se provar que pseudonormalidade implica que a o cone tangente ao conjunto viável X em um ponto x pode ser descrito da forma esperada T X (x ) = {y h i (x ) = 0, i = 1,..., p e g j (x ) y 0, j A(x )}. Infelizmente a prova desse resultado foge ao escopo de nosso curso. De qualquer forma, essa descrição do cone tangente e a discussão apresentada na Seção de Introdução aos Multiplicadores de Lagrange, mostra que as condições KKT são equivalentes às condições geométricas de primeira ordem, porém elas fazem uso da descrição do conjunto viável através de igualdades e desigualdades. 2.3 Condições Suficientes de Otimalidade Baseadas em Multiplicadores Assim como nas condições geométricas, é possível provar que as condições KKT são suficientes para otimialidades em alguns problemas especiais. Um exemplo típico é um problema com estrutura de convexidade. Para ver isso, vamos definir a funçõe lagrangeana associada a um problema de otimiação: Definição 2.9. Considere o problema de otimização (2.11). Definimos a função L : R n R p R m + R como L(x, µ, λ). = f(x) + µ, h(x) + λ, g(x). Essa função possui importância fundamental na teoria de otimização. Por exemplo, é fácil ver que a condição Zero do Gradiente presente em KKT é o mesmo que pedir que o gradiente do Lagrangeano com respeito a x seja nulo. Na verdade há uma relação mais íntima entre os pontos KKT é os pontos de sela do Lagrangeano. Vejamos um exemplo de resultad nesa direação. Teorema 2.10. (Condição Suficiente de Primeira Ordem) Considere um problema de otimização (2.11) apenas com restrições de desigualdade. Seja x um ponto viável que junto a um vetor λ = (λ 1,..., λ m) satisfaz as seguintes condições: λ 0, λ = 0, j A(x ), e x minimiza o Lagrangeano L(x, λ ), com λ fixo, em todo o R n. Então x é um mínimo global de (2.11).

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 18 Demonstração. Temos f(x ) = f(x ) + λ, g(x ) = inf x R n{f(x) + λ, g(x) } inf x R n, g(x) 0 {f(x) + λ, g(x) } [Folgas complementares] [x minimiza Lagrangeano] inf x R n, g(x) 0 f(x) [ λ, g(x) 0] f(x ) [x é viável]. Como o primeiro e o último elementos nas desigualdades acima são o mesmo, então vale igualdades em todos os passos e concluímos que x é o mínimo global de (2.11). Um corolário imediato do último teorema é que Karush-Kuhn-Tucker é suficiente em caso de convexidade. Corolário 2.11. Se o problema de otimização (2.11) for convexo, ou seja se f, g j, j = 1,... m forem funções convexas e h i, i = 1,..., p forem afins, então as condições de Karush-Kuhn-Tucker são suficientes para otimalidade de x. Na verdade, basta exigir folgas complementares, no lugar de inviabilidade complementar. Demonstração. Basta observar que a condição Zero do Gradiente é equivalente a x ser o mínimo do Lagrangeano. Ainda, como as restrições de igualdades são afins, elas podem ser reescritas como duas condições de desigualdades convexas. Além d resultado global acima, podemos também apresentar condições de otimalidade local, que envolvem informação de segunda ordem, obtida a partir da hessiana da função objetivo. Teorema 2.12. Considere um problema de otimização (2.11) que possui somente restrições de igualdade no qual as funções f e h são duas vezes continuamente diferenciáveis. Se x R n e µ R p são tais que x L(x, µ ) = 0, µ L(x, µ ) = 0, y 2 xxl(x, µ )y > 0, y 0, h(x ) y = 0. Então x é um mínimo local estrito de (2.11). Note que a condição acima pede que a hessiana seja definida positiva apenas nas direções que pertencem naturalmente ao cone tangente ao conjunto viável em x. Para provar esse resultamos vamos precisar de um novo lema. Lema 2.13. Sejam P e Q duas matrizes simétricas. Considere que Q é positiva semi-definida e que P é positiva definida no espaço nulo de Q. Isto é, x P x > 0 para todo x tal que x Qx = 0. Então existe um escalar c tal que P + cq é positiva definida, c > c.

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 19 Demonstração. Suponha, por contradição, que o resultado não vale. Então para todo inteiro k existe um versor x k tal que x k P x k + kx k Qx k 0. Como {x k } é limitada, existe uma subseqüência sua que converge para um versor x, x ki x. Lembrando que Q é positiva semi-definida, temos para k grande x k P x k + k x Q x/2 P x k + kx k Qx k 0. Essa desigualdade só pode permanecer válida para k se x Q x = 0. Tirando então o limite na desigualdade acima vemos que x P x = 0, o que contraria a relação entre P e Q. Podemos agora provar o teorema. Demonstração. Inicialmente observemos que µ L(x, λ ) = h(x ) e deste modo a hipótese que esse gradiente é nulo é equivalente a dizer que x é um ponto viável. Consideremos o seguinte problema penalizado min f(x) + c 2 h(x) 2 s.a h(x) = 0. Como entre os seus pontos viáveis, a função objetivo do problema penalizado e f coincidem, os dois problemas possuem exatamente os mesmos mínimos locais. A função lagrangeana desse problema é conhecida como lagrangeano aumentado e é igual a L c (x, µ) = f(x) + µ, h(x) + c 2 h(x) 2. O gradiente e a hessiana de L c com respeito a x é x L c (x, µ) = f(x) + h(x)(µ + ch(x)), 2 xl c (x, µ) = 2 f(x) + (µ i + ch i (x)) 2 h i (x) + c h(x) h(x). Usando então as condições do enunciado do teorema temos em x e µ : x L c (x, λ ) = f(x ) + h(x )(µ + c h(x )) = x L(x, µ ) = 0. }{{} =0 2 xl c (x, µ ) = 2 f(x ) + (µ i + ch i (x )) 2 h i (x ) + c h(x ) h(x ) = 2 xl(x, µ ) + c h(x ) h(x ).

CAPÍTULO 2. MULTIPLICADORES DE LAGRANGE 20 Por hipótese, temos que 2 xl(x, µ ) é definida positiva no espaço nulo de h(x ) h(x ). Portanto o Lema acima nos diz que existe c tal que 2 xl c (x, µ ) é definida positiva sempre que c > c. Deste modo, as condições suficientes de segunda ordem para otimização irrestrita nos dizem que se c > c então x é mínimo local isolado de L c (x, µ ), vista como função de x. Isto é, existe ɛ > 0 tal que L c (x, µ ) > L c (x, µ ), x tal que x x ɛ. Em particular, entre os pontos viáveis concluímos que L c (x, µ ) = f(x) > f(x ) = L c (x, µ ), x viável tal que x x ɛ. A última igualdade é coneqüência da viabilidade x. Observando as duas últimas expressões vemos que x é mínimo local isolado do problema com restrições de igualdade. Por fim, podemos estender esse resultado para problemas com restrições de desigualdade trocando essas restrições por restrições de igualdade na forma g j (x) + z 2 j = 0. As variáveis z j desempenham aqui o papel de variável de folga. Nesse caso o enunciano do teorema seria: Teorema 2.14. Considere um problema de otimização (2.11) no qual as funções f, h e g são duas vezes continuamente diferenciáveis. Seja (x, µ, λ ) R n R p R m + e µ R p tais que para todo y 0 tal que x L(x, µ ) = 0, h(x ) = 0, g(x ) 0 λ j > 0, j A(x ), λ j = 0, j A(x ) y 2 xxl(x, µ )y > 0, h i (x ) y = 0, i = 1,..., m g i (x ) y = 0, j A(x ). Então x é um mínimo local estrito de (2.11). A prova fica como um exercício (difícil). Exercícios 1. Seja X R n um conjunto fechado, {x k } X e {y k } R n tais que x k x e y k y, y k T X (x k ). Mostre que nem sempre vale y T X (x). 2. Prove que se vale a condição de qualificação de Slater então Mangasarian- Fromovitz também vale. 3. Resolva os exercícios 4.12, 4.16, 4.29, 4.30, 5.5, 5.13 do Bazarra.

Capítulo 3 Métodos de Multiplicadores Nesse capítulo veremos como podemos usar o que aprendemos sobre multiplicadores de Lagrange para gerar algoritmos de solução de miniizações com restrições. Vamos nos ater inicialmente a problemas com restrições de igualdade, que possuem uma análise mais fácil. No final apresentaremos como estender as idéias apresentadas aqui para problemas com restrições de desigualde. Restrições de igualdade Ou seja, estamos interessados em obter algoritmos sejam capazes de resolver o problema min f(x) s.a h(x) = 0. A demonstração das condições de otimalidade de segunda ordem introduziram um conceito interessante que será intesamente explorando agora. Vimos que esse problema é equivalente a resolver o problema penalizado min f(x) + c 2 h(x) 2 s.a h(x) = 0. Além disso, provamos que sob certas circustâncias a minimização de seu lagangeano L c (x, µ). = f(x) + µ, h(x) + c 2 h(x) 2, conhecido como lagrangeano aumentado, é capaz de devolver mínimos do problema restrito se pudermos fixar o multiplicador em um multiplicador de Lagrange e se c for grande o suficiente. Torna-se então natural buscar formas de obter boas aproximações de multiplicadores de Lagrange. Isso pode ser feito se lembrar-mos da demostração das condições de Fritz-John. Lá mostramos que ao aplicarmos métodos de 21

CAPÍTULO 3. MÉTODOS DE MULTIPLICADORES 22 penalidades, é possível obter aproximações de multiplicadores. Observando o lagrangeano aumentado vemos que ele pode ser visto como um sub-problema de um método de penalidades. O único termo diferente, µ, h(x) é nulo entre os pontos viáveis. Portanto, parece razoável pensar que ao levarmos c para infinito poderemos obter boas aproximações de multiplicadores. Isso fica formalizado no próximo resultado. Teorema 3.1. Sejam {µ k } uma seqüência limitada, {ɛ k } R ++ e {c k } R ++ tais que c k e c k < c k+1, ɛ k 0. Considere que para k = 1, 2,... computamos x k tal que x L c k(x k, µ k ) ɛ k. Suponha ainda que existe uma subseqüência convergente x ki x onde os gradientes das restrições são linearmente independentes. Então µ k + c k h(x k ) µ e x junto com λ obedecem às condições KKT, ou seja f(x ) + µ i h i (x ) = 0, h(x ) = 0. Demonstração. Podemos assumir, sem perda de generalidade que a seqüência inteira converge para x. Definimos Temos, µ k. = µ k + c k h(x k ). x L ck (x k, µ k ) = f(x k )+ h(x k )(µ k +c k h(x k )) = f(x k )+ h(x k ) µ k. (3.1) Ainda, como h(x ) tem posto máximo (suas colunas são LI), o mesmo vale para h(x k ), para k grande. Deste modo, a matriz h(x k ) h(x k ) é inversível. Mutiplicando a expressão acima por ( h(x k ) h(x k )) 1 h(x k ), concluimos que µ k = ( h(x k ) h(x k )) 1 h(x k ) ( x L ck (x k, µ k ) f(x k )). Como sabemos que x L ck (x k, µ k ) 0, podemos tomar o limite acima e concluir que µ k µ. = ( h(x ) h(x )) 1 h(x ) ( f(x )). Olhando mais uma vez para a Equação (3.1), e tomando o limite, vemos que 0 = f(x ) + h(x )µ. Por fim, para provar que h(x ) = 0, basta lembrarmos que a limitação de {µ k } e µ k + c k h(x k ) µ implicam juntas que {c k h(x k )} também é limitada. Como c k isso só pode ocorrer se lim k h(x k ) = h(x ) = 0.

CAPÍTULO 3. MÉTODOS DE MULTIPLICADORES 23 O último teorema nos mostra então que o Lagrangeano aumentado desempenha o papel de um problema penalizado no método das penalidades. Além disso vimos que a seqüência µ k + c k h(x k ) se aproxima de um multiplicador de Lagrange. Torna-se então tentador o desejo de aproveitar essa informação para melhor o multiplicador usado anteriormente e com isso obter, aos poucos, as boas propriedades do lagrangeano aumentado quando usamos um multiplidor de Lagrange. O algoritmo seria: 1. Sejam {ɛ k } e {γ k } duas seqüências de reais positivos convergindo para zero. 2. Dados c k, µ k, encontre, através de um algoritmo de minimização irrestrita, x k tal que 3. Faça µ k+1. = µ k + c k h(x k ). L ck (x k, µ k ) min{ɛ k, γ k h(x k ) }. 4. Atualize c k, por exemplo seguindo a fórmula { βck, se h(x c k+1 = k ) α h(x k 1 ), caso contrário. c k As contanstes αe β devem ser escolhidas de modo que α (0, 1) e β > 1. Valores típicos são α = 0.25 e β [5, 10]. 5. Volta ao passo 2. No algoritmo acima não está explícito o critério de parada. Uma boa escolha é verificar a validade aproximada das condições de Karush-Kuhn-Tucker. A demonstração de convergência desse algoritmo foge do escopo de nosso curso. Porém vocês devem saber que é possível provar, sob hipóteses razoáveis, a convergência linear da seqüência de multiplicadores e que os pontos de acumulação de {x k } obedecerão as condições KKT junto com o multiplicador limite. Isso ocorre mesmo sem que c k vá para infinito, o que diferencia o método dos multiplicadores do método de penalidades. (ACRESCENTAR EXEMPLO DO MÉTODO FUNCIONANDO) Restrições de desigualdade Como adaptar o método dos multiplicadores para resolver problemas com restrições de desigualdade? Uma forma possível é utilizar variáveis residuais para transformar essas restrições em restrições de igualdade. Isto é, para cada restrição na forma g j (x) 0,

CAPÍTULO 3. MÉTODOS DE MULTIPLICADORES 24 acrescentamos uma nova variável r j e modificamos a restrição para g j (x) + r 2 j = 0. Note que o valor rj 2 representa o folga, ou resíduo, que há na restrição de desigualdade. Além disso, o fato de podemos usar o quadrado acima faz com que a variável r j seja livre de sinal. Portanto o lagrangeano aumentado de um problema geral modificado de modo a transformar as restrições de desigualdade em igualdade seria L c (x, r, µ, λ) =. f(x)+ µ i h i (x)+ c 2 h(x) 2 + λ j (g j (x)+rj 2 )+ c 2 g j(x)+rj 2 2. O passo do método de multiplicadores seria então a minimização desse lagrangeano nas variáveis x e r. Observando mais atentamente o lagrangeano aumentado acima, vemos que para cada x fixo a minimização com relação a r pode ser feita de forma explícita. Isso permite a eliminação de r no processo de minimização. Mais formalmente temos inf L c (x, r, µ, λ) = inf {inf L c (x, r, µ, λ)}. x,r x r Vamos estudar o ínfimo mais interno do lado direito. inf L c(x, r, µ, λ) = f(x)+ µ i h i (x)+ c r 2 h(x) 2 +inf λ j (g j (x) + rj 2 ) + c r 2 g j(x) + rj 2 2. Mas inf λ r j (g j (x) + rj 2 ) + c 2 g j(x) + rj 2 2 = inf λ s 0 j (g j (x) + s j ) + c 2 g j(x) + s j 2 e a função que deve ser minimizada à direita é quadrática e separável em s. Nesse caso é fácil provar que o mínimo é atingindo em s j = max{0, s j} com s j denotando o mínimo irrestrito dos polinômios de segundo grau. Como as respectivas derivadas são λ j + c(g j (x) + s j ) e estas se anulam em s j, concluímos que s j = λ j /c g j (x). Definindo g + j (x, λ j, c) = max{g j (x), λ j /c}, temos então que g j (x) + s j = g+ j (x, λ j, c). Portanto inf λ s 0 j (g j (x) + s j ) + c m 2 g j(x) + s j 2 = λ j g + j (x) + c 2 g+ (x, λ, c) 2 inf x,r L c (x, r, µ, λ) = inf x f(x) + µ i h i (x) + c m 2 h(x) 2 + λ j g + j (x) + c 2 g+ (x, λ, c) 2.

CAPÍTULO 3. MÉTODOS DE MULTIPLICADORES 25 Como a última minimização usa apenas as variáveis originais x, é a sua função que chamamos de lagrangeano aumentado (do problema original): L c (x, µ, λ). = f(x) + = f(x) + µ i h i (x) + c m 2 h(x) 2 + λ j g + j (x) + c 2 g+ (x, λ, c) 2 µ i h i (x) + c m 1 { 2 h(x) 2 + max{0, λj + cg j (x)} 2 λ 2 } j. 2c Na segunda expressão fica claro que o Lagrangeano aumentado é diferenciável com relação a x se a restrições g o forem. Falta ainda ver qual é a fórmula de atualização dos multiplicadores λ j. Nesse caso, olhando mais uma vez para a versão somente com igualdades teríamos λ k+1 j = λ k j + c(g j (x k ) + (r k ) 2 ), com x k e r k minimizando o lagrangeano aumentado do problema modificado L c. Isso é equivalente a λ k+1 j = λ j + c(g j (x k ) + s,k ) = λ k j + cg + j (xk, λ k j, c) = max{0, λ k j + cg j (x k )}. A última igualdade vem da definição de g + j. Exercício Resolva o exercício 2.1 do Bertsekas, pulando o item (c).