REALIMENTAÇÃO DE ESTADO H 2 E H DE SISTEMAS MARKOVIANOS A TEMPO CONTÍNUO COM TAXAS DE TRANSIÇÃO INCERTAS Caetano B. Cardeliquio, André R. Fioravanti, Alim P. C. Gonçalves Av. Albert Einstein - 400 FEEC/UNICAMP, Campinas, SP, Brazil Av. Mendeleyev - 200 FEM/UNICAMP, Campinas, SP, Brazil Emails: caetanocardeliquio@gmail.com, fioravanti@fem.unicamp.br, alimped@dsce.fee.unicamp.br Abstract This paper addresses the H 2 and the H state-feedback control of Markov Jump Linear Systems (MJLS) in continuous-time through Linear Matrix Inequalities (LMIs). For the case with completely known transition rates, we derive new necessary and sufficient LMI conditions for mean square stability, H 2 and H norm calculation which are affine with respect to these parameters. Then, we treat the case where transition rates are uncertain, but belong to a given convex set. We illustrate the quality of our results through a numerical example. Keywords Markov models; Continuous-time systems; State-feedback control; Linear Matrix Inequalities. Resumo Este artigo aborda os projetos de controle H 2 e H, via realimentação de estado, de sistemas lineares a tempo contínuo sujeitos a saltos markovianos por meio de desigualdades matriciais lineares (LMIs). Obtivemos novas condições necessárias e suficientes para estabilidade na média quadrática e cálculo de normas H 2 e H para o caso com taxas de transição completamente conhecidas de forma que as LMIs sejam afins com relação a esses parâmetros. Em seguida, tratamos o caso em que as taxas de transição são consideradas incertas, mas pertencem a um determinado conjunto convexo. Nós ilustramos a qualidade dos nossos resultados através de um exemplo numérico. Palavras-chave Modelos de Markov; Sistemas a tempo contínuo; Controle via realimentação de estado; Desigualdades matriciais lineares. 1 Introdução Sistemas que têm mudanças bruscas de comportamento devido a, por exemplo, mudanças ambientais, falhas de sensores e atuadores, mudanças no ponto de operação para o caso não-linear, entre outros, podem não ser bem representados pelos modelos lineares e invariantes no tempo. Uma maneira de modelar mudanças bruscas de sistemas dinâmicos é escrevê-los como subsistemas com diferentes modos de operação. Cada modo é descrito por um conjunto de equações lineares e efeitos aleatórios são modelados como mudanças, ou saltos, entre os diferentes modos de operação. Este artigo trata de sistemas - a tempo contínuo - com saltos markovianos em que as taxas de transição entre os modos é incerta. Duas referências importantes na área são os livros (Boukas, 2006) e (Costa et al., 2013). Para a realimentação de estado em sistemas lineares sujeitos a saltos markovianos (MJLS), temos que a análise convexa foi considerada em (Costa et al., 1999), onde o problema de controle via realimentação de estado H 2 em tempo contínuo para MJLS é definido e uma abordagem de programação convexa é usada para estudá-lo. Em (de Farias et al., 2002), um projeto de controle via realimentação de estado é proposto para o problema H usando LMIs. Assume-se, nesses trabalhos, que todas as taxas de transição para os modos de Markov são completamente conhecidas. Além disso, as restrições obtidas por meio de LMIs, são não linearessobre as taxas de transição. Na prática, no entanto, essas taxas podem ser incertas e, por exemplo, pertencerem a um dado intervalo. O fato de que as restrições obtidas são não lineares representa uma dificuldade extra em adotar tal projeto para essa situação. Em (Zhang and Boukas, 2009b), (Zhang and Boukas, 2009a) e (Zhang and Lam, 2010), alguns elementos da matriz de taxas de transição podem ser considerados desconhecidos. Tal representação pode ser muito conservadora. Em(Shen and Yang, 2012), a possibilidade de que uma dada taxa de transição pertence a um intervalo também é considerada. Nosso projeto considera o caso em que qualquer linha damatrizdetaxasdetransiçãopertenceaum conjunto convexo com vértices conhecidos. Afirmamos que esta abordagem inclui a maioria dos demais casos. A notação utilizada em todo o texto é a padrão. Letras maiúsculas denotam matrizes e letras minúsculas denotam vetores. Para escalares, letras gregas minúsculas são utilizadas. Para matrizes reais, ou vetores, ( ) indica transposto. Por simplicidade, na notação de matrizes simétricas particionadas, o símbolo( ) denota genericamente cada um de seus blocos simétricos. O conjunto dos números naturais é denotado por N, enquanto o conjunto finito dos N primeiros números naturais 747
{1,,N} é denotado por K. Definimos também oconjuntofinitode N 1elementos, K i = K {i}. O símbolo E{ } denota esperança matemática de { }. Para qualquer sinal estocástico ξ(t), definido nodomíniodetempocontínuot R, aquantidade ξ 2 2 := E{ξ(t) ξ(t)}dt é sua norma quadrada. 0 O conjunto de sinais ξ(t) R r, t R tais que ξ 2 2 < é denotado por L 2. Para facilitar a apresentação, as seguintes notações são usadas de maneira intercambiável A(θ t ) := A i, J(θ t ) := J i, C z (θ t ) := C zi, e assim por diante, sempre que θ t = i K. Para matrizes definidas positivas, a inversa da combinação linear das inversas com pesos λ ij, j K,j i, é denotada por X λi := ij X 1 j Kiλ ainda usamos a seguinte notação para representar a soma de uma matriz com sua transposta He(A) := A+A j 1 2 Definição do Problema Um sistema MJLS a tempo contínuo é descrito pelo seguinte modelo de espaço de estados estocástico { ẋ(t) = A(θt )x(t)+e(θ G : t )w(t) (1) z(t) = C(θ t )x(t)+f(θ t )w(t) em que x R n é a variável de estado, θ t K é a variávelaleatória, w R r é a perturbaçãoexterna e z R p é a saída a ser controlada. As condições iniciais são x(0) = x 0 e θ 0 = θ. O processo{θ t,t [0, + )} é um processo estocástico markoviano no qual p ij ( ) = Prob(θ t+ = j θ t = i) { λ = ij +o( ) i j 1+λ ii +o( ) i = j (2) em que λ ij 0 para i j, λ ii 0 e λ ij = 0 (3) j K Podemos agora definir a matriz de transição Λ = {λ ij } (4) formada pelas taxas de transição entre os modos da cadeia de Markov representados por θ t K. A próxima definição (Costa et al., 2013) aborda a estabilidade de um sistema de Markov a tempo contínuo. Definição 1 Dizemos que G, com w 0, é estável na média quadrática (MSS) se E{ x(t) 2 } 0 enquanto t, para quaisquer condições iniciais x 0 e θ. Uma condição necessária e suficiente para estabilidade MSS do sistema G (Ji and Chizeck, 1990) é a existência de P i > 0 tal que He(A i P i)+ j Kλ ij P j < 0 (5) para todo i K. O conjunto de LMIs (5) não é adequado para o projeto via realimentação de estado devido ao produtoentre avariávelde LyapunovP i e a transposta da matriz do sistema A i. Assim como ficará claro nas próximas seções, é melhor lidarmos com X i = Pi 1. Após aplicar o complemento de Schur nas LMIs (5) e multiplicar as desigualdades obtidas pela direita e pela esquerda pela matriz não singular diag(x i,i), i K, obtemos He(Ai X i )+λ ii X i < 0 (6) X i X λi As desigualdades (6) são não lineares devido ao termo X λi. Uma estratégia comum para evitar essa não linearidade e expressar essas desigualdades como um conjunto de LMIs é trabalhar com matrizes aumentadas como diag(x 1,,X N ), veja (de Farias et al., 2000), por exemplo. Nós propomos uma abordagem de linearização diferente, em que as LMIs resultantes são afins com respeito as taxas de transição λ ij. Isso será particularmente útil quando as incertezas nesses parâmetros forem introduzidas. Considere as variáveis Z ij > 0 e H i tais que Z ij > H i X 1 j H i. (7) Para qualquer conjunto de números reais 1 λ ij 0, i K, j K i, as desigualdades (7) implicam que λ ij Z ij > H i ij X 1 j H i (8) j K i j Kiλ Para facilitar a notação nos próximos passos, usaremos os seguintes operadores: Ψ i := He(H i ) j K i λ ij Z ij (9) Ξ i := (H i X λi ) (X λi ) 1 (H i X λi ) (10) Pela (8) e (9) temos que portanto Ψ i < He(H i ) H i (X λi) 1 H i (11) Ψ i < X λi Ξ i X λi (12) Considere as seguintes LMIs He(Ai X i )+λ ii X i < 0 (13) X i Ψ i 1 Assumimosque λ ij 0 para pelo menos um j K i, do contrário o complemento de Schur não pode ser aplicado. 748
e Zij > 0 (14) H i X j para todo i,j K, nas quais as LMIs (14) são obtidas pelo complemento de Schur em (7). Se as LMIs (13) e (14) são válidas, as desigualdades (6) também o são e o sistema (1) é MSS estável. Reciprocamente, se as desigualdades (6) são validas, então podemos escolher valores apropriados para Z ij e H i tais que (13) e (14) são válidas, veja (Geromel et al., 2009) ou (Gonçalves et al., 2012) para mais detalhes. Em outras palavras, o sistema (1) é MSS estável, se e somente se, (13) e (14) forem factíveis. As desigualdades (13) e (14) são adequadas para o projeto de realimentação de estado, como veremos na Seção 4. A implementação da técnica de linearização adotada ou daquela presente em (de Farias et al., 2002) e (de Farias et al., 2000) é uma escolha do programador. Ao contrário das restrições obtidas nessas LMIs, as nossas são afins com relação às taxas de transição λ ij, permitindo um tratamento direto quando essas taxas são incertas. Agora assumimos que Λ = {λ ij } não é completamente conhecida mas cada linha Λ i,i K, pertence a um conjunto convexo de vértices conhecidos, i.e., N p Λ i = α l Λ (l) i (15) l=1 em que N p l=1 α l = 1, α l 0. Por exemplo, se tivermos a seguinte matriz de transição 2 [0,1] [1,2] Λ = 2 4 2 (16) 0 1 1 em que [a,b] representa o intervalo com a taxa incerta λ ij tal que a λ ij b, a primeira linha pode ser escrita como em que Λ 1 = α 1 Λ (1) 1 +α 2 Λ (2) 1 (17) Λ (l) 1 = Λ (l) 11 Λ (l) 12 Λ (l) 13 (18) É fácil perceber que a combinação convexa que gera a primeira linha dessa matriz de transição em particular é Λ 1 = α 1 [ 2 0 2 ] +α2 [ 2 1 1 ] (19) Em (Zhang and Boukas, 2009a) e (Zhang and Lam, 2010), uma abordagem diferente para representar as incertezas nas taxas de transição é adotada. Nesses artigos, um determinado elemento λ ij da matriz de taxas de transição é dito ser conhecido ou desconhecido, casos que são representados por ˆλ ij ou?, respectivamente. Essaincerteza pode ser sempre representada por uma combinação convexa do tipo (15), exceto para o caso em que, pelo menos, duas taxas são desconhecidas e uma delas pertence à diagonal principal da matriz de transição Λ. Se uma taxa pertence à diagonal principal, um limitante inferior é estabelecido em (Zhang and Lam, 2010). Essa estratégia faz sentido na prática, pois λ ii representa um modo cujo tempo de permanência τ 0, veja a relação entre taxas de transição e distribuição de probabilidade para tempo de permanência em (Leon-Garcia, 2007). Lema 1 O sistema (1) com taxas incertas pertencendo a um politopo de vértices conhecidos representado pelas LMIs (6) é estável se existir X i > 0, Z ij > 0 e H i tais que [ He(A i X i )+λ (l) ii X i X i ] Ψ (l) < 0 (20) i e Zij > 0 (21) H i X j em que Ψ (l) i := He(H i ) j K i λ (l) ij Z ij para todo i,j K e l {1,2,,N p }. Prova: É imediato de (13) e (14) aplicadas aos vértices do politopo de incertezas e pelo fato que tais LMIs serem afins com respeito a esses parâmetros. 3 Normas H 2 e H Nesta seção, mostramos como a mesma estratégia de linearização pode ser usada para as normas H 2 e H. Definição 2 ((de Farias et al., 2000)) A norma H 2 de um sistema, MSS, G é definida como r G 2 2 = µ i z s,i 2 2 (22) s=1 i K em que µ i := Prob(θ 0 = i) e z s,i representa a saída {z t ; t 0} quando: a) a entrada é dada por w(t) = e s δ(t), em que δ(t) é o impulso unitário e e s é a s-ésima coluna da matriz identidade r r; b) x 0 = 0 e θ 0 = i K Para que se tenha norma H 2 limitada, o sistema (1) deve ter F i = 0 para todo i K. Com as taxas de transição λ ij conhecidas, pode ser calculada como (de Farias et al., 2000) G 2 2 = min µ i Tr(E i P ie i ) (23) sujeito a P i>0 i K He(A ip i )+C ic i + j Kλ ij P j < 0 (24) 749
De maneira similar àquela usada para obter as LMIs (13) e (14) podemos dizer que (23) e (24) são equivalentes a G 2 2 = min i Kµ i Tr(W i ) (25) sujeitas a Wi > 0 (26) E i X i He(A ix i )+λ ii X i X i Ψ i < 0 (27) C i X i 0 I e (21), para todo i,j K. Para o caso de incertezas politópicas, um limitante superior da norma H 2 pode ser calculado usando (25) (27) e (21) simplesmente trocando-se λ ii por λ (l) ii e Ψ i por Ψ (l) i nas LMIs (27) para todo l {1,,N p }. Isso é possível pois essas LMIs são afins com relação as taxas de transição. Definição 3 ((de Farias et al., 2000)) O quadrado da norma H de um sistema, MSS, G, G 2, é o menor γ > 0, tal que z 2 2 < γ w 2 2 Como a entrada w é arbitrária e de norma L 2 finita, o mesmo ocorre com a norma L 2 da saída, pois o sistema é estocasticamente estável. Portanto, segue a identidade γ = z 2 sup (28) θ 0 K,w L 2 w 2 w 0 Logo, podemos concluir que a norma H do sistema é o ganho L 2 de pior caso. A norma H pode ser obtida por meio do seguinte programa de otimização convexa (Costa et al., 2013) G 2 = min γ>0,p i>0 γ (29) sujeito a He(A i P i)+ ij P j j Kλ E i P i γi < 0 (30) C i F i I Utilizando a mesma mudança de variáveis pode-se expressar (29) e (30) como G 2 = min γ>0,x i>0 γ (31) sujeita a He(A i X i )+λ ii X i E i γi X i 0 Ψ i C i X i F i 0 I < 0 (32) e (21) para todo i,j K. Como foi dito para o casoh 2, um limitante superiorda normah com taxas incertas pode ser calculado usando(31) (32) e (21) simplesmente trocando λ ii por λ (l) ii e Ψ i por Ψ (l) i nas LMIs (32) para todo l {1,,N p }. 4 Realimentação de Estado Apesar do objetivo principal do controle ser estabilizar o sistema, objetivos adicionais podem ser impostos, seja para adicionar robustez ou para aumentar o desempenho. Esta seção destina-se a estabelecer um controlador que não só estabiliza o sistema de malha fechada, mas também minimiza sua norma H 2 ou H. O sistema em malha fechada pode ser descrito como G c : ẋ(t) = A i x(t)+b i u(t)+e i w(t) z(t) = C i x(t)+d i u(t)+f i w(t) u(t) = K i x(t) (33) na qual u R m é a entrada de controle. Nas próximas seções, consideramos que as taxas de transição são incertas mas pertencem a um intervalo convexo de vértices conhecidos. 4.1 Norma H 2 O objetivo deste problema é encontrar um controlador via realimentação de estado de tal forma que as excursões de x(t) e u(t) sejam ambas limitadas. Dessa forma, o estado permanece perto do ponto de equilíbrio e, ao mesmo tempo, um enorme esforço de controle pode ser evitado. A definição de matrizes C i e D i indica, para cada modo, o peso que é dado em cada um destes dois objetos conflitantes. Lembramos que para o caso H 2 precisamos ter F i = 0 para todo i K. Teorema 1 Existe um conjunto de ganhos de realimentação de estado K i, para i K, tais que G c 2 2 min i Kµ i Tr(W i ) (34) se existirem matrizes simétricas W i, X i, Z ij e matrizes Y i, H i de dimensões compatíveis tais que as LMIs Θ (l) i X i Ψ (l) i < 0 (35) C i X i +D i Y i 0 I com Θ (l) i := He(A i X i +B i Y i )+λ (l) ii X i e (21) e (26) forem válidas para todo i,j K e l {1,,N p }. Nesse caso, os ganhos de controle são dados por K i = Y i X 1 i (36) 750
θ M x f(t) (m,l) forma E v(t) = Av(t)+Bf(t), em que 1 0 0 0 E = 0 1 0 0 0 0 M +m ml/2 0 0 ml/2 J cm +m(l/2) 2 0 0 1 0 A = 0 0 0 1 0 0 (b+bl) Bl 2 /2 0 mgl/2 Bl 2 /2 Bl 3 /3 Figura 1: Exemplo - Guindaste Industrial Prova: Segue de (21), (26) e (27), calculadas nos vértices do politopo de incerteza para as matrizes em malha fechada A i + B i K i, C i + D i K i e da introdução das novas variáveis Y i = K i X i. 4.2 Norma H Estamos agora interessados em encontrar um controlador robusto na presença do ruído w L 2. Teorema 2 Existem os ganhos K i para i K tais que G c 2 minγ (37) se existir γ R, matrizes simétricas X i, Z ij e matrizes Y i, H i de dimensões compatíveis tais que Θ (l) i E i γi X i 0 Ψ (l) i C i X i +D i Y i F i 0 I < 0 (38) e (21) forem válidas para todo i,j K e l {1,,N p }. Nesse caso, os ganhos de controle são dados por (36). Prova: Segue os mesmos passos do Teorema 1. 5 Exemplo Consideramos o modelo de um guindaste industrial como ilustrado na Figura 1. Trata-se de um carro de massa M, movendo-se no plano horizontal sob a ação de uma força externa f(t) e uma força com coeficiente de arrasto b. Ao longo do seu centro de massa, um pêndulo homogêneo de massa m e comprimento l está montado. Este pêndulo também é afetado por uma força com coeficiente de arrasto B. O vetorde estadoév(t) = [x(t) θ(t) ẋ(t) θ(t)] e linearizamos o modelo em torno da origem. As equações diferenciais podem ser postas sob a B = [ 0 0 1 0 ] O nosso objetivo é conduzir o sistema a partir da condição inicial v(0) = [10 0 0 0] para a origem v(t) = 0 controlando a posição angular do pêndulo θ(t) por meio de um controle via realimentação de estado f(t) = K i v(t). Este problema de condição inicial pode ser tratado no âmbito H 2 considerando E i = v(0) em (33). Consideramos também uma pequena penalidade para o esforço de controle. Portanto, a saída a ser controlada é z(t) = 1 0 0 0 0 10 0 0 v(t)+ 0 0 f(t) 0 0 0 0 0,01 Assumimos que o sistema está propenso a ter mal funcionamento no atuador. Consequentemente, temos dois modos de operação. O modo nominal, i = 1, e o modo quando ocorre a falha, i = 2. Para o primeiro caso temos que B 1 = E 1 B, enquanto que para o segundo caso B 2 = 0. Para fins de simulação numérica, consideramos que M = 1000kg, m = 200kg, b = 2Ns/m, B = 5Ns/m 2, l = 1m e g = 9.8m/s 2. Ainda, J cm = ml 2 /12 é o momento de inércia do pêndulo com respeito ao seu centro de massa. As taxas de transição para a ocorrência de falha são incertas, mas pertencem a um conjunto convexo de vértices conhecidos dado por 0,5 0,5 Λ = [1,0, 1,5] [ 1,5, 0,5] Consideramos que o sistema parte do modo 1, i.e., µ 1 = 1 e µ 2 = 0. Como, em nosso exemplo, B 2 = 0, a matriz de ganhos quando há falha no atuador pode ser escolhida, sem perda de generalidade, como K 2 = 0. Aplicando o Teorema 1 obtemos como custo garantido G c 2 2 23,887 e o seguinte valor para o ganho de realimentação de estado: K 1 = [ 125,57 193,98 719,08 220,86 ] (39) Projetamos também, um controlador LQR para a planta nominal, ou seja, sem levar em consideração a possibilidade de falhas. Calculamos a norma 751
H2 24 23.9 23.8 23.7 23.6 23.5 23.4 23.3 23.2 23.1 1 1.1 1.2 1.3 1.4 1.5 λ 21 Figura 2: Norma H 2 para os controladores: Markov (pontilhada) x LQR (contínua) H 2 em malha fechada para todos os valores no intervalo de incerteza. A Figura 2 ilustra a comparação entre as normas H 2 para esses dois controladores. Em linha pontilhada, apresentamos os resultados para o controlador robusto proposto e em linha contínua, o controlador LQR, ambos submetidos as mesmas taxas de transição entre os modos com falha e com comportamento nominal. Nota-se a maior robustez do nosso projeto com relação ao controlador LQR. O controlador proposto apresenta um desempenho superior para todo λ 21 considerado. 6 Conclusão Lidamos com o projeto de controle via realimentação de estado H 2 e H usando novas condições nas LMIs. A principal característica dessas LMIs é a de serem afinscom relaçãoàstaxasde transição. Desta forma, tornou-se bastante simples incorporar o caso em que existem incertezas politópicas sobre esses parâmetros. O projeto foi ilustrado através de um exemplo numérico, comparando o desempenho do projeto de controle via realimentação de estado proposto com o clássico LQR. Vamos continuar a estudar este problema, a fim de fornecer um projeto de realimentação de saída H 2 e H para o caso em que as taxas de transição são incertas. Outra questão interessante, e ainda não muito explorada, é a disponibilidade para o controlador do modo de Markov para MJLS a tempo contínuo. Referências Boukas, E.-K. (2006). Stochastic Switching Systems, Birkhäuser. Costa, O. L. V., do Val, J. B. R. and Geromel, J. C. (1999). Continuous-time state-feedback h 2 -control of markovian jump linear systems via convex analysis, Automatica 35: 259 268. Costa, O. V. L., Fragoso, M. D. and Todorov, M. G. (2013). Continuous-Time Markov Jump Linear Systems, Probability and Its Applications, Springer. de Farias, D. P., Geromel, J. C. and do Val, J. B.R.(2002). Anoteonrobustcontrolofmarkov jump linear uncertain systems, Optimal Control Applications and Methods 23: 105 112. de Farias, D. P., Geromel, J. C., do Val, J. B. R. and Costa, O. L. V. (2000). Output Feedback Control of Markov Jump Linear System in Continuous-Time, IEEE Transaction on Automatic Control 45: 944 949. Geromel, J. C., Gonçalves, A. P. C. and R., F. A. (2009). Dynamic Output Feedback Control of Discrete-Time Markov Jump Linear Systems through Linear Matrix Inequalities, SIAM Journal on Control and Optimization 48: 573 593. Gonçalves, A. P. C., R., F. A. and Geromel (2012). H Robust and Networked Control of discrete-time MJLS through LMIs, Journal of the Franklin Institute 349: 2171 2181. Ji, Y. and Chizeck, H. J. (1990). Controlability, stabilizability, and continuous-time Markovian jump linear quadratic control, IEEE Transactions on Automatic Control 35: 777 788. Leon-Garcia, A. (2007). Probability, Statistics, and Random Processes for Electrical Engineering, Pearson. Shen, M. and Yang, G.-H. (2012). New analysis and synthesis conditions for continuous markov jump linear systems with partly known transition probabilities, IET Control Theory and Applications 6: 2318 2325. Zhang, L. and Boukas, E. K. (2009a). H control ofaclassofextendedmarkovjumplinearsystems, IET Control Theory and Applications 3(7): 834 842. Zhang, L. and Boukas, E. K. (2009b). Stability and stabilization of markovian jump linear systems with partly unknown transition probabilities, Automatica 45: 463 468. Zhang, L. and Lam, J. (2010). Necessary and Sufficient Conditions for Analysis and Synthesis of Markov Jump Linear Systems With Incomplete Transition Descriptions, IEEE Transactions on Automatic Control 55(7): 1695 1701. 752