ESTUDO DA INFLUÊNCIA DAS VARIÁVEIS OPERACIONAIS DA CALDEIRA DE RECUPERAÇÃO SOBRE A GERAÇÃO DE VAPOR UTILIZANDO REDES NEURAIS ARTIFICIAIS

ESTUDO DA INFLUÊNCIA DAS VARIÁVEIS OPERACIONAIS DA CALDEIRA DE RECUPERAÇÃO SOBRE A GERAÇÃO DE VAPOR UTILIZANDO REDES NEURAIS ARTIFICIAIS Gustavo Matheus de Almeida 1, Marcelo Cardoso 1, Éder Domingos de Oliveira 1, Andréa Oliveira Souza da Costa 2, Song Won Park 3 1 Brasil. Laboratório de Desenvolvimento de Processos. Departamento de Engenharia Química. Escola de Engenharia. UFMG. Tel.: 31 3238.1786. mcardoso@deq.ufmg.br 2 Brasil. Departamento de Engenharia Química. COPPE. UFRJ. Tel.: 21 2562.8361. costa@peq.coppe.ufrj.br 3 Brasil. Departamento de Engenharia Química. Escola Politécnica. USP Tel.: 11 3818.2236. sonwpark@usp.br. ABSTRACT In the cellulose production by Kraft process, the pieces of wood are cooked in a digestor with a solution of mainly sodium hidroxid (NaOH) and sodium sulfite (Na 2 S). After that the cellulose pulp are separated from the cooking liquor. This solution goes to the utilities recovery where it is concentrated in multiple effect evaporators, burned in the recovery boiler and causticized with the aim to recover the chemical compounds used to cook the wood. The liquor burning generates energy to the mill. The role of the recovery boiler is very important to the overall process because not only recover the compounds NaOH and Na 2 S and produces energy to the mill but also reduces the pollutants emisssions. As it is complex (with many variables) and works in parallel (with many phenomenons ocurring at the same time: oxidation, drying and pirolysis and reduction), the artificial neural networks computational tool was used as an alternative to model this equipament. This is because this technique generates a model (when many data is available) from an input/output mapping even if there is not enough knowledge about the operations. So the aim of this work is to study the influence of operational variables on the steam generation and to construct a model that is able to predict this response variable. For that it was used a feed-forward multiple layers network with a single hidden layer. The activation function was the hiperbolic tangent sigmoid and the learning algorithm was the back-propagation with the momentum term (µ) equal to 0,3. The numbers of neurons (K) in the hidden layer was defined in an empirical way. The best model obtained was with K equal to 10 that presented the lower value for the mean absolute error during the validation phase (EMP V ). So the final arquitecture of the model was 7:10:1, that is, one input layer with seven variables, one hidden layer with ten neurons and one output layer with one variable (the response variable). As a conclusion, this technique is a potential alternative to be used in the Kraft recovery boilers modeling. No método de produção Kraft da pasta celulósica, os cavacos de madeira são aquecidos em um digestor com licor de cozimento, que consiste principalmente de uma solução aquosa de hidróxido de sódio (NaOH) e sulfeto de sódio (Na 2 S). Após o cozimento, os cavacos desdobram-se em fibras individuais, formando a pasta de celulose. Já o licor vai para a unidade de recuperação, onde é concentrado em evaporadores de múltiplo efeito, queimado na caldeira de recuperação e caustificado em tanques de sedimentação com a finalidade de adequar a sua composição para reutilização. A queima do licor na caldeira produz vapor e energia elétrica para todo o processo. O papel da caldeira de recuperação no processo de fabricação de celulose é fundamental, pois, além de recuperar os ativos químicos (NaOH e Na 2 S) utilizados na etapa de cozimento do licor e gerar vapor, a caldeira de recuperação também reduz a emissão de poluentes. Sendo um ambiente complexo (que envolve muitas variáveis) e que opera em paralelo (com diversos fenômenos ocorrendo simultaneamente: oxidação, secagem e pirólise e, redução), utilizou-se a ferramenta computacional, redes neurais artificiais (RNAs), como alternativa para a modelagem deste equipamento. Isto porque esta técnica utiliza o 1/8

mapeamento entrada/saída para construir modelos, a partir de uma massa de dados consistente e disponível, mesmo quando não se tem conhecimento suficiente sobre o problema. Sendo assim, os objetivos deste trabalho são estudar a influência das variáveis operacionais da caldeira de recuperação sobre a geração de vapor e construir um modelo neural capaz de predizer esta variável resposta. Para tal, utilizou-se uma rede neural do tipo múltiplas camadas feed-forward com uma única camada intermediária. A função de transferência utilizada foi a sigmoidal tangente hiperbólica e o algoritmo de aprendizagem, o back-propagation acrescido do termo momentum (µ), igual 0,3. A quantidade de neurônios na camada intermediária (K) foi definida de forma empírica. O melhor modelo obtido foi para K igual a 10 que apresentou o menor valor para o erro médio absoluto percentual na etapa de validação (EMP V ). Com isso, tem-se a seguinte arquitetura para o modelo neural final, 7:10:1, ou seja, uma camada de entrada contendo sete variáveis operacionais, uma camada intermediária com dez neurônios e uma camada de saída com uma variável resposta. Como conclusão, tem-se a validade da aplicação da modelagem neural com em caldeiras de recuperação da indústria de celulose e papel. PALAVRAS-CHAVE: modelagem, processo kraft, caldeira de recuperação, redes neurais artificiais, stepwise Introdução O estudo em RNAs começou em 1943 com o psiquiatra e neuroanatomista McCulloch e o matemático Pitts a partir da descrição do primeiro modelo artificial de um neurônio biológico. No entanto, somente nos anos 80 há a explosão de pesquisas em redes neurais devido a novas descobertas e o consequente interesse na aplicação prática desta ferramenta computacional. Da década de 90 em diante, é crescente o uso desta técnica como alternativa à resolução de problemas na indústria. A ferramenta computacional Redes Neurais Artificiais (RNAs) é uma solução alternativa à computação algorítmica convencional para a resolução de problemas. Isto porque utiliza o mapeamento entrada/saída para construir modelos a partir de uma massa de dados consistente onde não se tem conhecimento suficiente do problema para se aplicar a modelagem convencional. A motivação para as pesquisas em RNAs é o cérebro humano que pode ser definido como um computador altamente complexo, não-linear e paralelo. O poder computacional das redes neurais é devido à sua estrutura paralela e distribuída de trabalhar as informações e a sua habilidade de aprender e generalizar. A aprendizagem está relacionada com a capacidade da rede extrair as características relevantes para a construção do modelo a partir da massa de dados disponível e, a generalização, com a capacidade de predição do modelo obtido. A aplicação desta ferramenta em processos é também motivada pela sua robustez em trabalhar com dados inconsistentes, tais como, ruídos, outliers (BRAGA et al., 1998; HAYKIN, 2001). Redes neurais podem ser utilizadas na solução de vários tipos de problemas, tais como, modelagem, classificação, controle de processos, predição, etc. Entre os vários exemplos de aplicação na indústria de celulose e papel, tem-se o trabalho de HORTON et al. (1998) que relata o uso das redes neurais como ferramenta alternativa para modelar o ambiente complexo e não-linear das caldeiras de recuperação. Neurônio Artificial O neurônio artificial é baseado na estrutura fisiológica do neurônio biológico (Figura 1). Esta semelhança capacita às redes neurais processar informações de forma paralela e 2/8

distribuída, como o cérebro humano. corpo celular sinapse dendritos axônio Figura 1: Neurônio biológico. De forma análoga ao neurônio biológico, o artificial contém entrada (dendritos), função de ativação (corpo celular) e saída (axônio), Figura 2. A entrada ν recebe os dados do ambiente, a função de ativação φ(ν) é responsável por processar estas informações e, a saída Y, fornece o valor da variável de interesse para o ambiente. A entrada auxiliar b, denominada bias, resulta no deslocamento da função de transferência acelerando a convergência do processo de aprendizado. Seu valor é fixo e igual a +1 sendo o respectivo peso, w 0, treinável da mesma forma que os demais (WASSERMAN, 1989). x 1 x 2... w 1 w 2 w i ν φ(ν) Y x i w 0 b Figura 2: Neurônio artificial. Os elos de conexão entre os neurônios, as sinapses ou pesos, têm a capacidade de sofrer modificações adaptando-se ao ambiente de interesse. Desta forma, podem armazenar o conhecimento adquirido pela rede neural extraído de exemplos (histórico de dados). São caracterizados por um valor numérico, negativo ou positivo, definido pela matriz W (BRAGA et al., 1998) Passos para a Modelagem Neural O processo de construção de um modelo neural passa pelas seguinte etapas:! Coleta dos dados! Definição da arquitetura da rede neural! Definição dos parâmetros! Treinamento! Validação Após a coleta dos dados, a próxima fase é definir a arquitetura da rede. A arquitetura mais comum de redes neurais é aquela onde os neurônios estão dispostos em camadas. Para a aplicação em processos, utiliza-se as redes com múltiplas camadas, isto é, além das camadas de entrada e de saída, a rede tem uma ou mais camadas intermediárias ou ocultas, Figura 3. 3/8

CAMADA DE ENTRADA CAMADA INTERMEDIÁRIA CAMADA DE SAÍDA Figura 3: Rede com uma camada intermediária. As camadas intermediárias são responsáveis por mapear a relação entre a entrada e a saída da rede, atuando como extratoras de características. O objetivo é aproximar a função desconhecida f do ambiente, descrita por D = f (X ) onde X é o vetor contendo as variáveis de entrada e D, o vetor com uma ou mais variáveis de saída desejado, por uma função F a partir de um conjunto de exemplos, onde F = {( X, D) }. A generalização da rede D = F X f X, x M onde M é o é dada pela capacidade de F aproximar f, isto é, ( ) ( ) domínio do ambiente de interesse que se deseja modelar. A quantidade de neurônios em cada camada oculta é geralmente definida de forma empírica. Esta forma de aprendizagem, onde o vetor D é fornecido à rede, é dita aprendizagem supervisionada. É uma estratégia que utiliza o erro dado pela diferença entre a resposta desejada, D, e aquela calculada pela rede, Y, para modificar os valores das sinapses ou pesos. Esta etapa de aprendizado é responsável pela obtenção do modelo neural (HAYKIN, 2001). Na etapa de definição de parâmetros estabelece-se critérios de parada a serem usados na interrupção do aprendizado da rede neural. Os exemplos mais usuais são:! Encerrar o treinamento após N ciclos ou épocas! Encerrar o treinamento após o erro dado pela diferença entre D e Y ser menor que um valor ε aceitável Cada vez que todo o conjunto de exemplos de entrada/saída {( D) } X, é colocado para a rede tem-se uma época ou ciclo de treinamento. A quantidade de épocas é uma característica crítica a ser definida na etapa de treinamento. Quando N é alto, tem-se um tempo de treinamento longo e, pode haver a modelagem de ruído e o desenvolvimento de uma função não linear complexa enquanto que um tempo curto (N baixo) pode ser insuficiente para que a rede consiga capturar as informações necessárias à construção de um modelo satisfatório. Em ambos os casos, a capacidade de predição do modelo fica prejudicada. Durante a etapa de aprendizado, há outros parâmetros a serem definidos, como η e µ, denominados parâmetro taxa de aprendizagem e termo momentum, respectivamente. O primeiro é responsável pelo tamanho do passo usado na atualização dos pesos e o segundo pelo aumento na velocidade de convergência do processo de aprendizagem. A definição destes valores também é crítica e pequenas alterações podem melhorar ou piorar significativamente o modelo neural obtido (BRAGA et al., 1998). Qualquer projeto de redes neurais passa por uma fase de treinamento. É quando a rede extrai informações relevantes dos exemplos criando uma representação própria para o problema. Nesta etapa, há a modificação dinâmica das conexões entre os neurônios. Esta adaptação iterativa permite às redes neurais memorizar informações, adaptar-se e aprender. Ao final desta etapa, o modelo neural está completamente definido. Para se realizar o treinamento da rede, o conjunto total de dados disponível é dividido de forma aleatória em duas partes denominadas conjuntos de treinamento e de validação. O primeiro é utilizado para ajustar os pesos sinápticos e o segundo para estimar a capacidade de 4/8

generalização do modelo neural, construído a partir do conjunto de treinamento. Em seguida, tem-se a etapa de validação. Nesta fase, apenas o vetor de entrada X do conjunto de validação é apresentado à rede e, então, compara-se o vetor de saída Y, calculado pela rede neural, com o vetor de saída desejado D (BRAGA et al., 1998). Sendo validado, o modelo neural está apto a ser implementado com o objetivo de realizar a tarefa para a qual foi construído, seja ela modelagem, controle de processos, predição, etc. Justificativa e Objetivo do Trabalho Por se tratar de um ambiente complexo (que envolve muitas variáveis) e em paralelo (com diversos fenômenos ocorrendo simultaneamente, tais como, oxidação, secagem e pirólise e, redução) (ADAMS, 1997), propõe-se a utilização da ferramenta computacional redes neurais artificiais (RNAs) como ferramenta computacional alternativa para a resolução deste problema. Os objetivos deste trabalho são estudar a influência das variáveis operacionais da caldeira de recuperação sobre a geração de vapor e construir um modelo neural capaz de predizer esta variável resposta. Metodologia Coleta dos dados A caldeira de recuperação alvo deste estudo é a caldeira de uma fábrica localizada no Brasil. Neste trabalho, há a preocupação de se utilizar como variáveis operacionais aquelas atualmente medidas pela indústria de celulose o que facilita a análise e a implementação desta ferramenta computacional. A quantidade e a qualidade dos dados experimentais são imprescindíveis para o sucesso da modelagem neural. Pré-seleção das variáveis operacionais medidas Sendo alta a quantidade inicial de variáveis operacionais medidas, o primeiro passo foi tentar reduzir esta quantidade. Para tal, utilizou-se o software estatístico Minitab, aplicando-se a técnica de regressão stepwise para verificar quais as variáveis têm maior peso sobre a variável resposta vazão de vapor gerado. Rede neural utilizada neste trabalho Neste estudo, utilizou-se uma rede neural feed-forward (isto é, a rede se propaga apenas no sentido direto e não há comunicação entre neurônios de uma mesma camada) do tipo múltiplas camadas contendo somente uma camada intermediária. A camada de entrada que recebe as variáveis de entrada, a camada intermediária responsável pelo mapeamento entrada-saída e construção do modelo neural e, a camada de saída que fornece o valor da variável resposta para o ambiente externo. A função de transferência utilizada foi a sigmoidal tangente hiperbólica e o algoritmo de aprendizagem, o back-propagation acrescido do termo momentum (µ), igual 0,3. Este algoritmo realiza o ajuste dos pesos pelo método do gradiente descendente a fim de minimizar progressivamente a função custo, neste caso, o erro médio quadrático E, dado pelo quadrado da diferença entre a saída desejada D e aquela calculada pela rede Y. Esta modificação dinâmica dos pesos é que permite às RNAs memorizar informações, adaptar-se e aprender. Um cuidado que se deve ter na sua utilização é que ele pode minimizar o erro de treinamento, mas pode vir a não minimizar o erro do conjunto de validação. O parâmetro taxa de aprendizagem η é variável durante a etapa de treinamento. Foram usadas 1000 épocas para treinar a rede e a quantidade de neurônios na camada intermediária foi definida de forma empírica. 5/8

Construção do modelo neural Com a definição das variáveis de entrada e da rede neural a ser utilizada neste trabalho, passou-se à etapa de treinamento. Nesta fase, formou-se aleatoriamente dois conjuntos de exemplos na proporção 4:1, ou seja, 80% dos padrões foram utilizados para treinar a rede e, o restante, 20%, para validar o modelo obtido pela fase anterior. É importante observar que os padrões de treinamento devem formar um conjunto apropriado capaz de abranger todo o domínio (M) de interesse contendo os valores máximo e mínimo de cada variável. Definição da quantidade de neurônios na camada intermediária Geralmente, o uso de uma única camada intermediária contendo o número adequado de neurônios é suficiente (DEMUTH e BEALE, 1997). O próximo passo, então, foi definir a quantidade de neurônios (K) a ser utilizada nesta camada. Esta definição é geralmente empírica. É importante observar que se K for baixo, a rede pode ser incapaz de extrair as principais características a partir da massa de dados disponível e tem-se uma simulação pobre. Sendo alto, por outro lado, pode haver um superajuste dos dados durante a etapa de treinamento. Resumindo, a quantidade de neurônios na camada intermediária deve ser suficiente para a satisfatória modelagem do problema, porém, suficientemente baixa para garantir a generalização e conseqüente capacidade de predição do modelo obtido. Fez-se, então, várias simulações variando-se K de 1 a 15 (RAFIQ et al., 2001). Resultados Coleta dos dados O período de coleta dos dados foi de um mês de operação da fábrica tendo-se 720 medidas para um conjunto de 16 variáveis operacionais. Pré-seleção das variáveis operacionais medidas Como resultado preliminar, têm-se as variáveis: vazão de licor negro alimentado à caldeira (VZ LNC), porcentagem de sólidos secos (%SS), vazão e temperatura do ar primário (VZ AP e T AP), temperatura e pressão do ar secundário (T AS e P AS) e pressão no tubulão de vapor (P BL), como as possíveis variáveis que maior influência têm sobre a vazão de vapor gerado. É importante destacar que entre estas variáveis estão aquelas previamente citadas como as mais influentes sobre a geração de vapor por engenheiros da fábrica (VZ LNC, %SS, P BL) Definição da quantidade de neurônios na camada intermediária Segundo o critério para a escolha do melhor modelo neural, o menor valor obtido para o erro médio percentual na etapa de validação (EMP V ) foi para K igual a 10, menor que 2%. Este erro é calculado segundo a Equação 1, EMP V = 1 V Y D D (1) sendo V o número total de padrões de validação. A Figura 4 compara os valores reais de operação coletados na indústria (D) e aqueles calculados pela rede neural (Y) para a vazão de vapor gerado. Com isso, tem-se a seguinte arquitetura para o modelo neural final, 7:10:1, ou seja, uma camada de entrada contendo sete variáveis, uma camada intermediária com dez neurônios e uma camada de saída com uma variável resposta. 6/8

340 VAPOR GERADO 310 280 250 220 512 524 536 548 560 572 ÉPOCAS DESEJADO CALCULADO (RNA) Figura 4: Gráfico entre os valores reais de operação coletados na indústria (D) e aqueles calculados pela rede neural (Y) para a vazão de vapor gerado. Conclusões Neste trabalho, observou-se a validade da aplicação da modelagem neural com uma capacidade de predição satisfatória (menor que 2%) em caldeiras de recuperação da indústria de celulose e papel. Nesta primeira fase da pesquisa, utilizou-se a vazão de vapor gerado como variável resposta. Com a metodologia desenvolvida, o objetivo passa a ser a modelagem neural de outras variáveis com real interesse para a indústria de celulose como a razão toneladas de vapor gerado por tonelada de sólidos secos, a eficiência de redução, emissões, entre outras. Nomenclatura x i i-ésimo neurônio da camada de entrada contendo o valor da variável de entrada i w i i-ésimo peso da camada de entrada %SS porcentagem de sólidos secos, % b bias K quantidade total de neurônios na camada intermediária D vetor contendo a variável de saída desejada E função custo erro médio quadrático EMP V erro médio percentual de validação f função desconhecida do problema de interesse F representação neural obtida para o problema de interesse M domínio do problema de interesse MLP rede MultiLayer PERCEPTRON N quantidade total de épocas usadas na etapa de treinamento P AS pressão de alimentação do ar secundário, mmh 2 O P BL pressão no tubulão de vapor, kg f /cm 2 RNAs redes neurais artificiais T AP temperatura de alimentação do ar primário, ºC T AS temperatura de alimentação do ar secundário, ºC V quantidade total de padrões de validação VZ AP vazão do ar primário, t/h VZ LNC vazão do licor negro concentrado, t/h VZ VG vazão de vapor gerado, t/h W matriz dos pesos sinápticos 7/8

X Y W 0 vetor contendo as variáveis de entrada vetor contendo a variável predita pelo modelo neural peso para o bias Letras Gregas η parâmetro taxa de aprendizagem µ termo momentum ν soma dos valores das entradas ponderados pelos respectivos pesos φ() função de ativação Referências Bibliográficas 1. ADAMS, T. N., General Characteristics of Kraft Back Liquor Recovery Boilers, cap. 1, In: Kraft Recovery Boiler, ADAMS, T. N. Editor, TAPPI Press, p. 3-38, 1997. 2. BRAGA, A. P, CARVALHO, A. P. L. F. e LUDERMIR, T. B., Fundamentos de Redes Neurais Artificiais, Imprinta Gráfica e Editora Ltda., Rio de Janeiro, RJ, 1998. 3. HAYKIN, S., Redes Neurais - Princípios e Prática, 2 a ed., Bookman Companhia Editora, Porto Alegre, Brasil, 2001. 4. HORTON, R. R.; DENLINGER, M. A.; LIEN, S. J.; SCHMIDL, W.; GRACE, T. M., Artificial Neural Network Modeling of a Kraft Recovery Boiler, In: International Chemical Recovery Conference, TAPPI Proceedings, p. 283-298, 1998. 5. RAFIQ, M. Y.; BUGMANN, G.; EASTERBROOK, D. J., Neural Network Design for Engineering Applications, Computers & Structures, vol. 79, p. 1541-1552, 2001. 6. WASSERMAN, P. D.; Neural Computing: Theory and Practice, Van Nostrand Reinhold, 1989, 230p. 8/8