DETECÇÃO DE ESTRUTURAS DE MODELOS NARX POLINOMIAIS: UMA ABORDAGEM INTELIGENTE MULTI-OBJETIVO. Samir Angelo Milani Martins, Erivelton Geraldo Nepomuceno, João Paulo Mendes Figueiredo GCoM Grupo de Controle e Modelagem, Departamento de Engenharia Elétrica Universidade Federal de São João del-rei, Praça Frei Orlando 170 - Centro, 36307-352 São João del-rei, Minas Gerais, Brasil Emails: martins@ufsj.edu.br, nepomuceno@ufsj.edu.br, joaopaulomfig@yahoo.com.br Abstract This work presents a new approach for structure detection of polynomial NARX models, using a multi-objective approach. It is shown how to obtain a Pareto curve, composed by models with different structures. As a case-study, a DC-DC buck converter was built and identified, using this technique. The proposed technique is validated based on several indexes, such as RMSE (static and dynamic) and MAP E, for the dynamic case, and by mean of the analysis of the Pareto curve. Also, a comparison between this approach and the classic one (ERR+AIC - Error Reduction Ratio and Akaike Information Criteria) is done. Keywords NARX models, multi-objective system identification, structure detection, inteligent algorithm. Resumo O presente trabalho apresenta uma nova abordagem para detecção de estruturas de modelos NARX polinomiais, visando a multi-objetividade. É mostrado como obter uma fronteira de soluções eficientes, formada por modelos com estruturas distintas (Pareto de estruturas). Para a aplicação da técnica, foi construído um conversor CC-CC buck. A técnica mostrou-se satisfatória à luz do Pareto-ótimo e dos índices RMSE (estático e dinâmico), MAP E e da análise da curva de Pareto. É feita uma comparação entre os modelos pertencentes ao Pareto de estruturas com o modelo obtido pela tradicional técnica de determinação de estruturas ERR+AIC (Taxa de Redução de Erro + Critério de Informação de Akaike). Keywords Modelos NARX polinomiais, identificação multi-objetivo de sistemas,detecção de estruturas, algoritmo inteligente. 1 Introdução A Identificação de Sistemas é uma das atividades mais antigas e relevantes da ciência. É a área do conhecimento que estuda maneiras de modelar e analisar sistemas na tentativa de encontrar algum padrão em observações (Billings, 1980; Aguirre, 2007). Para se identificar um sistema, é necessário propor um modelo que consiga descrever as mais diversas características do mesmo. Define-se modelo como o conjunto de hipóteses sobre a estrutura ou comportamento de um sistema físico. Do lado matemático, um modelo nada mais é do que uma abstração de um sistema real expresso por meio de equações. Na Engenharia, essas técnicas podem ser empregadas na identificação de aquecedores elétricos (Martins et al., 2009), conversores CC-CC (Yang et al., 2009), sistemas químicos, e em outras áreas, como sistemas biológicos, econômicos e outros ramos da ciência. A literatura está repleta de técnicas de Identificação de Sistemas (Martins et al., 2009; Nepomuceno et al., 2007; Johansen, 1996). São utilizadas várias representações matemáticas e computacionais, entre elas, pode-se citar as Redes Neurais, Lógica Fuzzy, Modelos NARX (Nonlinear AutoRegressive model with exogenous input), Modelo Baseado em Indivíduos. A representação NARX polinomial possui como pontos positivos o fato de permitir, com relativa facilidade, a incorporação de informações que se tem a priori do sistema no modelo. Tais informações (curva e ganho estático, por exemplo) podem não estar contidas nos dados dinâmicos. Sendo assim, o acréscimo dessas informações pode acrescentar qualidade no modelo, no que se refere à representatividade do sistema. A partir de trabalhos de Johansen (1996) e colaboradores, a área de identificação de sistemas começou a se preocupar com a possibilidade de utilizar informações auxiliares sobre o sistema e não apenas dados na identificação de sistemas. Dessa preocupação, surge uma nova técnica, chamada de Identificação Multi-objetivo de Sistemas (IMS) (Martins et al., 2009; Johansen e Babuska, 2003; Johansen, 2000). Contudo, tradicionalmente, o uso de informações auxiliares se dá exclusivamente na estimação dos parâmetros do modelo, sendo que as principais técnicas de detecção de estruturas são mono-objetivo. O propósito deste trabalho é aprimorar a técnica de determinação de estruturas, apresentando uma técnica capaz de levar em conta nessa etapa, além do erro de predição, outra característica do sistema, o que não é feito com a taxa de redução de erro ERR(do inglês Error Reduction Ratio). Dessa forma, é apresentado uma técnica multiobjetivo para determinação da estrutura de um modelo NARX polinomial. O restante do artigo está organizado como segue. Na seção 2 são abordados os conceitos pre-
liminares. A seção 3 apresenta a metodologia utilizada para a obtenção dos resultados. A análise e discussão dos resultados são tratados pela seção 4. Na seção 5 é apresentada a conclusão, além de propostas para futuras pesquisas. 2 Conceitos Preliminares 2.1 Identificação de Sistemas Para se identificar um sistema, é necessário a realização de 5 principais etapas, a seguir apresentadas (Aguirre, 2007). Teste Dinâmico e Coleta de Dados. Escolha da Representação Matemática a ser Utilizada. Determinação da Estrutura do Modelo. Estimação dos Parâmetros. Validação dos Modelos. Quando se obtém modelos de sistemas reais, é necessário que o mesmo seja validado. Para validar os modelos utilizados, calculou-se o índice RM SE(Relative Mean Square Error) estático e dinâmico, além do índice MAPE (Mean Absolute Percentual Error), para o caso dinâmico. Ademais, foi feita uma análise à luz do Pareto ótimo. Vale ressaltar que os modelos devem ser validados sobre uma massa de dados diferentes dos dados utilizados para identificação. O índice RM SE pode ser escrito conforme equação 1. RMSE = E [y(k) ȳ], (1) em que y(k) é o sinal de validação da série, ȳ é o valor médio da série temporal e E é a esperança do sinal. O índice MAPE pode ser expresso por: MAP E = 1 N N k=1 y (k) y(k), (2) y(k) em que N é o número de predições realizadas, y é o valor simulado livremente e y o valor real. 2.2 Modelos NARX Modelos NARX (Billings, 1980) descrevem sistemas não-lineares em equações de diferença, relacionando a entrada atual em combinação das saídas e entradas passadas. É utilizada para problemas de controle onde o principal objetivo é encontrar uma descrição simples para o sistema. Em particular, o modelo NARX polinomial pode ser representado como: y(k) = F l [y(k 1),, y(k n y ), (3) u(k 1), u(k n u ), e(k 1),, e(k n e )] + Ξ(k), em que y(k) é a saída, u(k) é a entrada exógena, e e(k) é o sinal de ruído. Ξ(k) representa o erro de predição. n y, n u, e n e são as ordens da saída, da entrada exógena e da média móvel, respectivamente. A função F l pode representar uma grande variedade de funções, incluindo funções lineares. Neste artigo, F l é restrita a funções polinomiais não-lineares e e(k) não é considerado. 2.3 Identificação Multi-objetiva de Sistemas Para se estimar mono-objetivamente os parâmetros de um modelo NARX pelo tradicional método dos Mínimos Quadrados (MQ), é necessário expressar o modelo em forma de erro quadrático de predição, ou seja: J MQ (ˆθ) = (y Ψˆθ) T (y Ψˆθ), (4) em que y é o valor da série e Ψˆθ é o valor simulado da série, J MQ é o valor da função custo. Uma vez que o erro de predição foi expresso de forma quadrático, pode-se aplicar o MQ, que fornece um vetor de parâmetros que minimizam o erro quadrático de predição do modelo aos dados considerados para identificação. Contudo, possui o inconveniente de levar em consideração somente o erro dinâmico de predição como objetivo. É necessário uma abordagem multi-objetivo, em que outras informações também são consideradas. Essas informações podem ser, dentre outras, curva e ganho estático. Para que seja possível a incorporação de tais informações na determinação dos parâmetros do modelo, é necessário expressar tais informações como forma de erro quadrático de predição: J K (ˆθ) = (v Gˆθ) T (v Gˆθ), (5) em que v é o valor real da informação auxiliar a ser incorporada, Gˆθ seu valor estimado, e J K o valor de sua função custo. Pode-se compor uma função custo com a ponderação de todas as funções objetivo que devem ser minimizadas simultaneamente. J c (ˆθ) = w 1 J 1 + w 2 J 2 + + w n J n, (6) sendo w 1 + w 2 + + w n = 1, os pesos de cada função custo, J 1, J 2,, J n são os valores das funções custos referentes a cada objetivo, e J c o valor da função custo composta. Nepomuceno et al. (2007) mostraram uma forma direta, ou seja, não iterativa, de obter os
parâmetros (ˆθ ) que minimize a função descrita na equação 6, dado por: ˆθ = arg min = n w i (v Gˆθ) T (v Gˆθ) (7) i=1 [ n ] 1 [ n ] w i G T i G i w i G T i v i, i=1 i=1 sendo n o número de objetivos a serem levados em consideração. Variando os valores de w i, i = 1,2,, n, obtém-se a curva de soluções ótimas, soluções eficientes ou curva de Pareto (equação 7). Dessa forma, obtém-se um conjunto de vetores de parâmetros que compõem o conjunto Pareto-ótimo do modelo. Um Pareto hipotético é mostrado na Figura 1, sendo cada modelo indicado por um ponto na curva. sistema-teste. O conversor CC-CC buck(figura 3), como o próprio nome sugere, é um conversor CC-CC abaixador de tensão, que produz um valor médio de tensão na saída inferior ao valor médio de tensão de entrada. Pode ser controlado por dispositivo de comutação do tipo MOSFET ou IGBT através do controle da razão cíclica. Para o sistema estudado foi utilizando um MOSFET IRF840. A razão cíclica e definida como a razão entre o tempo que o interruptor se encontra em condução e o período de comutação. Como sinal de chaveamento, utilizou-se um sinal PRBS, com o qual se espera que o sistema apresente na saída sua dinâmica não-linear. + _ 150R Figura 3: Conversor CC-CC buck. 3 Metodologia 3.1 Detecção de Estruturas Uma Abordagem Multi-objetivo Figura 1: Fronteira Pareto-Ótimo de um Problema Bi-objetivo. Cada estrutura que compõe um modelo apresenta uma curva de Pareto distinta. Existem soluções que possuem ambos os objetivos de valores superiores que outras, como mostra a Figura 2. Essas soluções não pertencem ao conjunto Pareto-ótimo, ou seja, são soluções suplantadas, não eficientes e não devem ser inclusas no Pareto. Figura 2: Exemplo de Solução Dominada. 2.4 Conversor CC-CC Buck Um sistema eletrônico de potência conhecido como conversor CC-CC buck foi utilizado como Tem-se que para cada estrutura, obtém-se um conjunto Pareto-ótimo. Na literatura, em geral, esses Paretos são Paretos de parâmetros, sendo que cada vetor de parâmetros (cada ponto da curva de Pareto) pode ser utilizado para uma dada região de operação do sistema em questão. Contudo, neste trabalho foi obtido um Pareto de estruturas, ou seja, uma estrutura de um modelo NARX polinomial para cada região de operação do sistema em questão. Para cada estrutura, é obtido uma curva distinta de Pareto (Figura 4), que pode ser parcialmente dominada e parcialmente dominante em relação à uma outra curva de Pareto, dada por outra estrutura. Portanto, tem-se que cada estrutura modela melhor determinados pontos de operação do sistema. Vale ressaltar, que existem tanto curvas de Pareto que são suplantadas por outras, quanto curvas que dominam e são dominadas, em partes, por outras curvas de pareto (Figura 4). Sendo assim, é interessante o uso somente das partes não dominadas, do conjunto de curvas de Pareto, formando o Pareto de estruturas. Esse Pareto de estruturas pode ser ilustrado pela Figura 5. Deseja-se obter um conjunto de estruturas eficientes, ou seja, um Pareto de estruturas, de forma que cada estrutura possa ser utilizada para uma determinada aplicação, sendo a escolha de qual estrutura objetivada pela aplicação do modelo.
- ERR de cada regressor. Figura 4: Em preto, encontra-se a curva de Pareto obtida para uma estrutura A, em vermelho é apresentada a curva de Pareto obtida para uma estrutura B, e em azul a curva de Pareto obtida para uma estrutura C. Em verde, encontra-se a curva de Pareto obtida para uma estrutura D. 3. Para k = 1 até ζ: Estima-se os parâmetros, utilizando a técnica multi-objetivo, do modelo com os k primeiros regressores. Obtém-se a curva de Pareto para o modelo com k regressores. Elimina-se os modelos suplantados por todos os Paretos já determinados, até o presente momento. Mantém-se os modelos dominantes, que formarão o Pareto de estruturas. k = k + 1; Se k ζ, insira mais um regressor no modelo e vá ao passo 3. Senão, termine o algoritmo. Após os passos acima descritos, é obtido a curva de Pareto, composta por diferentes estruturas, por modelos cujos Paretos suplantaram outros modelos, com diferentes estruturas. Sendo assim, a norma Euclideana dos objetivos é calculada, para todos os modelos pertencentes ao conjunto pareto-ótimo. Aquele modelo que apresenta o menor valor é selecionado para representar o sistema. 4 Resultados e Discussão Figura 5: Soluções não dominadas Pareto de estruturas. Dessa forma mais de um objetivo é levado em consideração, para a obtenção da estrutura de um modelo. Vale ressaltar que outros tipos de informação também podem ser utilizados, bastando apenas que a mesma possa ser escrita como erro quadrático de predição. Para maior clareza do leitor, a técnica será apresentada em 3 etapas, a saber: 1. Escolha de máximo atraso e grau de nãolinearidade do sistema. Nesta etapa são prédeterminados os atrasos e a não-linearidade do modelo a ser obtido, de forma a limitar o espaço de busca. Nessa etapa, ζ é determinado, como sendo o número de regressores candidatos. Utilizou-se 2 como máximo atraso para entrada e saída, e também como grau de não-linearidade do modelo, como estudo de caso. 2. Os termos candidatos são classificados, conforme o algoritmo Orthogonal Least Squares - OLS, apresentado em (Aguirre et al., 1998), que leva em conta a taxa de redução de erro No presente trabalho, além dos dados dinâmicos, foram incorporados dados estáticos teóricos do conversor CC-CC buck, que podem ser dado pela equação 8 ȳ = 4 3 v d v d 3 ū (8) em que v d = 5 Volts, ū e ȳ são a entrada e saída em regime permanente do sistema. A entrada foi variada de 0 a 4 Volts, em um total de 1000 pontos. A metodologia acima apresentada foi aplicada na identificação de um modelo para o conversor CC-CC buck ( Figura 3). Os dados foram divididos em duas massas de dados distintas, sendo uma para identificação do modelo e outra para validação. O modelo obtido, apresentado pela equação 9, consiste de 10 regressores. y(k) = 2,1762y(k 1) 0,6189y(k 2) (9) 0,0910y(k 1) 2 0,8395 0,0057u(k 1)y(k 1) 0,0590u(k 2) +0,0119u(k 2)y(k 1) +0,0040u(k 1) 2 +0,0003u(k 2)u(k 1) +0,0033u(k 2) 2 ;
onde y é o vetor de saída e u o vetor de entrada. A Figura 6 apresenta o Pareto de estruturas, obtido pela abordagem multi-objetivo. O Pareto de estruturas apresenta modelos com 7 e com 10 regressores, preto e vermelho, respectivamente. Figura 8: Em azul, encontra-se a curva estática teórica do conversor CC-CC buck. Em vermelho, a curva estática apresentada pelo modelo com 7 regressores, ao passo que em preto encontra-se a curva estática dada pelo modelo com 10 regressores. Figura 6: Pareto de estruturas obtido pela abordagem multi-objetivo. Em vermelho, modelos com 10 regressores e em preto, modelos com 7 regressores. A Figura 7 apresenta a figura 6, com um zoom na região de separação, onde contém modelos com 7 e com 10 regressores. Tabela 1: Índices calculados para validação do modelo. Modelo RMSE RMSE MAPE estático dinâmico 7 reg. 0,4705 0,1534 0,036 10 reg. 0,4916 0,1515 0,036 Figura 7: Figura 6, quando aplicado um zoom na região que separa modelos com 7 e com 10 regressores. Já na Figura 8 encontra-se a representação estática teórica do conversor CC-CC buck e dos modelos com 7 e 10 regressores. A Tabela 1 apresenta os valores de alguns índices, calculados dentro da massa de dados de validação, no intuito de validar os modelos obtidos. No caso do RM SE estático, o índice foi obtido para a faixa estática de entrada 0 < ū < 4. Podem ser ressaltados pontos interessantes, a respeito dos resultados obtidos após a aplicação da técnica multi-objetivo para detecção de estruturas. Pela análise da curva de Pareto, pode-se observar que o modelo com 10 regressores minimiza o erro dinâmico, ao passo que o modelo com 7 regressores é o modelo que minimiza o erro estático. Isso é claramente confirmado, de acordo com os índices de validação apresentados na Tabela 1, em que o modelo com 10 regressores é melhor que o com 7 regressores, à luz dos índices calculados pelos dados dinâmicos (RM SE dinâmico e MAP E). Ressalta-se que o modelo de 7 regressores, devido à metodologia apresentada, consiste dos 7 primeiros regressores apresentados em 9 Em contrapartida, como também pode ser observado pela curva de Pareto, pelo índice RMSE estático e pela curva estática dos modelos (Figura 8), o modelo com 7 regressores é superior ao modelo com 10 regressores. Para efeito de comparação, foi obtido o modelo pela tradicional técnica de OLS, que leva em conta a taxa de redução de erro, associada ao critério de informação de Akaike (ERR+AIC ). Esta técnica gerou um modelo com 7 regressores, sendo que esse mesmo modelo encontra-se no Pareto de estruturas. Para fins de comparação, a Tabela 2 apresenta os parâmetros obtidos para ambos os modelos.
Tabela 2: Parâmetros referentes aos modelos mono e multi-objetivo. Parâmetro 7 regressores 10 regressores θ 1 2,1655 2,1762 θ 2-0,6178-0,6189 θ 3-0,0899-0,0910 θ 4-0,8203-0,8395 θ 5 0,0003-0,0057 θ 6-0,0253-0,0590 θ 7 0,0071 0,0119 θ 8 0,0040 θ 9 0,0003 θ 10 0,0033 Interessante observar que, devido ao fato da técnica multi-objetivo, em um primeiro momento, ordenar os termos conforme a técnica OLS - (ERR+AIC), os 7 primeiros regressores são os mesmos do modelo mono-objetivo. Outro ponto a ser ressaltado é que os valores dos parâmetros θ 8, θ 9 e θ 10, embora sejam pequenos e possam, à primeira vista, ser desprezados ou considerados espúrios, contribuem para que o modelo com 10 regressores apresente uma dinâmica mais parecida com a do sistema, quando comparado com um modelo de 7 regressores. 5 Conclusões Foi apresentada uma técnica multi-objetivo para detecção de estruturas de modelos NARX polinomiais, por meio de uma escolha inteligente dos regressores a serem utilizados. Em geral, o que se tem na literatura são técnicas mono-objetivo de detecção de estruturas, sendo que tais técnicas não levam em consideração informações que se tem a priori do sistema. É obtido, por meio da análise de curvas de Pareto, um Pareto de estruturas, por meio de uma escolha inteligente de quais regressores devem compor o modelo. Como estudo de caso, foi apresentado um conversor CC-CC do tipo buck, onde foram incorporados pontos fixos de sua curva estática. O modelo obtido pela técnica multi-objetivo mostrou-se eficiente, quando comparado a técnica OLS (ERR+AIC ), a luz de índices de erro, bem como pela análise de suas curvas de Pareto. Ademais, tem-se que a técnica considera, na etapa de determinação de estruturas, informações que se tem a priori do sistema, caracterizando o caráter inovador da técnica apresentada. Esse tipo de informação geralmente é utilizado somente na etapa de determinação dos parâmetros do modelo. Como pesquisas futuras, pretende-se fazer uma adaptação aos índices ERR e AIC, de forma que os mesmo levem em conta não somente o objetivo de minimizar o erro de predição, mas também outras características relevantes do sistema. Agradecimentos Os autores agradecem à Fapemig, CNPq, Capes e à Universidade Federal de São João del- Rei, pelo apoio financeiro. Referências Aguirre, L. A. (2007). Introdução à Identificação de Sistemas: técnicas lineares e nãolineares aplicadas a sistemas reais, Editora da UFMG. 3 a edição. Aguirre, L. A., Rodrigues, G. G. e Jácome, C. R. F. (1998). Identificação de sistemas nãolineares utilizando modelos narmax polinomiais uma revisão e novos resultados, SBA Controle & Automação 9(2): 90 106. Billings, S. A. (1980). Identification of nonlinear systems - a survey, IEE Proceedings-D Control Theory and Applications 127(6): 272 285. Johansen, T. A. (1996). Identification of nonlinear systems using empirical data and prior knowledge - an optimization approach, Automatica 32(3): 337 356. Johansen, T. A. (2000). Multi-objective identification of FIR models, Proceedings of 12th IFAC Symposium on System Identification 2000, Santa Barbara, USA. Johansen, T. A. e Babuska, R. (2003). Multiobjective identification of Takagi-Sugeno fuzzy models, IEEE Transactions on Fuzzy Systems 11(6): 847 860. Martins, S. A. M., Braga, D. C. S., Nepomuceno, E. G., Gomes, T. V. e Reis, M. L. F. (2009). Investigation of the static curve information for multiobjective system identification, Journal of Computational Interdisciplinary Sciences 1(2): 149 157. Nepomuceno, E. G., Takahashi, R. H. C. e Aguirre, L. A. (2007). Multiobjective parameter estimation for non-linear systems: affine information and least-squares formulation, International Journal of Control 80(6): 863 871. Yang, X., Zhang, H. e Ma, X. (2009). Modeling and stability analysis of cascade buck converters with n power stages, Mathematics and Computers in Simulation 80(3): 533 546.